悪い予感: AIトレーニングデータへのアクセスが法的問題を引き起こす
Alex Woodie オリジナル記事「Bad Vibes: Access to AI Training Data Sparks Legal Questions」

「バイブコーディング」が主流になるにつれ、AI企業は次世代のAIコパイロットを育成するため、最大かつ最も権威ある技術知識ベースの構築を急いでいる。しかし、AI企業はこのような貴重な技術データの宝庫をどのように入手するのだろうか?スタックオーバーフローとレディットの最近の動きは、それがどのように展開するかを示している。
バイブコーディングとは、コーディングのコパイロットに自分の要望を伝え、AIがコードを生成してくれる間、じっと座っていることだ。「バイブコーディング」の検索数は過去12ヶ月で6,700%増加しており、アリ・ゴドシCEOのような著名な技術者でさえもバイブコーディングを利用している。
「最近では、アリ本人が『必要なことはほとんど(Databricksの)アシスタントに聞くだけだ』と言うのを聞くことさえある」とDatabricksのマーケティング担当副社長ジョエル・ミニックは言う。もし最初のコードがうまくいかなかったら、エラーコードを与えて 「もう一度やってみろ 」と言うと、もう一度やってくれる。
膨大なサンプルコードと大規模言語モデル(LLM)の驚異的な学習能力の組み合わせが、コーディングコパイロットにその能力を与えている。さらに、技術的なトピックで疑問が生じた場合、ウェブの膨大な数のディスカッション・ボードが、コパイロットが細かい部分まで正しく理解するための十分な材料を提供してくれる。
そこで疑問が生じる: コーディングのコパイロットは、どうやってディスカッションボードにアクセスし、何百万もの技術的なトリックやエッジケースを学んでいるのだろうか?場合によっては、AI企業が無断でそれを利用することもある。
![]() |
|
(出典:Mamun Sheikh/Shutterstock) | |
それが、1億200万人のデイリーアクティブユーザーを抱える、世界で最も人気のあるニュースアグリゲーション・ソーシャルメディアサイトのひとつであるレディットが、Anthropicを非難していることだ。6月4日、レディットはAnthropic社を提訴し、同社がデータポリシーに違反してAIモデルを訓練するためにウェブサイトをスクレイピングしていると訴えた。
HPCwireの姉妹誌AIWireの記事でアリ・アザールが書いている:
「レディットは、Anthropicが2024年7月以降、レディットの利用規約に違反して、AIトレーニングのためにユーザーが生成したコンテンツをスクレイピングするために10万回以上プラットフォームにアクセスしたと主張している。また同プラットフォームは、Anthropicが自社のボットがレディットにアクセスするのをブロックしたと断言したが、とにかくアクセスを続けたと主張している。」
コパイロットをコーディングするためのトップAIモデルのひとつとされるClaudeを開発しているAnthropicは、レディットのウェブサイトから取得したデータの代金を支払っていなかったとレディットは主張している。それに比べ、GoogleとOpenAIはレディットと契約を結び、ユーザーのプライバシーを保護するためにいくつかの制限付きで、ユーザーが作成したデータにアクセスできるようにしている。
技術的なトピックに特化したスタックオーバーフローも、技術系コンテンツの人気ソースだ。スタックオーバーフローの登録ユーザ数は約2900万人、月間ユーザ数は1億人を超える(そのほとんどは未登録)。Stack Exchangeと呼ばれるナレッジベースには、2400万以上の質問と3600万以上の回答がある。Kubernetesの仕組みについて具体的な質問がある場合、スタックオーバーフローは回答を得るのに最適な場所だ。
レディットが提訴される前日、スタックオーバーフローはSnowflakeと契約を結び、ユーザが作成したデータをSnowflake Marketplaceを通じてユーザが利用できるようにした。スタックオーバーフローのCEOであるプラシャンス・チャンドラセカール氏は、この動きによって、Snowflakeユーザは、人間がキュレーションした質の高い質問と回答のペアにアクセスしやすくなると述べた。
![]() |
|
プラシャンス・チャンドラセカー氏はスタックオーバーフローのCEOである。 | |
Snowflakeサミットで、チャンドラセカール氏はBigDATAwire(HPCwireの姉妹誌)にこう語った。「すべてのデータに直ぐにアクセスすることができるのです。インデックスがあらかじめ設定されており、そのレイテンシーは超低いです。そして最も重要なのは、ライセンスされていることなのです。」
スノーフレークとの契約は、主にスタックオーバーフローの知識ベースを検索拡張生成(RAG)のために使用するものであり、AIモデルのトレーニングとは異なる、とチャンドラセカール氏は述べ、スタックオーバーフローは純粋なAIトレーニングのために異なるメカニズムを持っていると付け加えた。しかし、最終的なゴールは同じで、顧客が信頼できるキュレーションされたデータに基づいてAIシステムを構築するのを支援することである。
「企業におけるAIシステムの夢を実現するために、ユーザにとっての摩擦をなくすことがゲームの目的だと思います」とチャンドラセカール氏は語った。「ユーザはSnowflakeを使っている間、企業が我々と何かやるのを待つことなく、我々のデータにアクセスできるのです。」
レディットとスタックオーバーフローは多くの点で正反対であり、前者は少々乱暴で何でもありの場所であり、後者はより自制的で冷酷な事実の遵守で知られている。しかし、両者の最近の動きは、コンテンツへの不正アクセスは許されないという共通点があることを示している。
ワールド・ワイド・ウェブの性質は、20世紀後半の平等主義的な始まりから変化してきた。過去15年の間に、巨大テック企業はインターネットの広大な領域を、最初はターゲット分析のために、そして最近ではAIモデルのトレーニングのために、買い占めてきた。レディットやスタックオーバーフローのような、まだ完全に採掘されていない囲い込みは、現在、あらゆる収益化が利用規約に従って行われるように取り組んでおり、より多くのコントロールをユーザの手に戻している。
スタックオーバーフローは、AI目的でデータがスクレイピングされるのを防ぐだけでなく、AIがナレッジベースに侵入するのを防ぐための措置も講じている。例えば、ユーザが人間であることを認証するためにCloudflareを利用している。また、AI生成の回答をサイト上で許可しない厳格なポリシーも設けている。スタックオーバーフローのプロセスには、人間によるキュレーションが不可欠なのだ。
![]() |
|
(出典:Dennis Diatel/Shutterstock) | |
Snowflakeのような企業との契約は、近年ウェブサイトのトラフィックが減少し、スタックエクスチェンジでの質問数が減少しているスタックオーバーフローにとって好材料となるだろう。スタックオーバーフローの収益の約4分の3は、企業向けのプライベートナレッジベースのホスティングによるもので、公開されているスタックエクスチェンジサイトの広告によるものは4分の1に過ぎないと、チャンドラセカー氏は述べた。
「インターネットの性質はここ2、3年で変わったと感じます。人々がウェブサイトを構築し、ウェブサイトのトラフィックに基づいて広告で収益化するという社会契約です。我々はすべての人と関係を持ち、開発者がどこにいようと、ユーザーがどこにいようと、彼らが望むところに行くような形で露出したいのです。
AIモデルビルダーとユーザへのメッセージは明確だ。もし高品質で人間が作成したデータがあなたの努力にとって重要であるならば、あなたはプロバイダに正当な金額を支払うことを厭わないはずであり、同時にユーザのプライバシーが常に維持されるようにすべきである。結局のところ、たかがお金なのだから。
この記事は姉妹誌BigDATAwireに掲載された。