世界のスーパーコンピュータとそれを動かす人々


10月 19, 2023

AIにとっての「オープン」を再考する

HPCwire Japan

Alex Woodie オリジナル記事はこちら

編集部注:GenAIがあらゆる市場分野に広がり続ける中、「オープン」という概念は新たな出会いをもたらしているのかもしれない。姉妹サイトであるDatanamiからの記事は、この問題についていくつかの視点を提供するのに一役買う。


AIの文脈で「オープン」とは何を意味するのか?隠されたレイヤーを受け入れなければならないのか?著作権や特許はまだ支配的なのか?そして、消費者はデータ収集を拒否する権利があるのだろうか?オープンソース・イニシアティブの人々は、「オープンソースAI 」を定義するための詳細な調査の一環として、このような疑問の真相に迫ろうとしている。

オープンソース・イニシアティブのエグゼクティブ・ディレクターであるステファノ・マフーリ氏によれば、技術分野においてオープンソースとみなされるもののルールは、かつてかなり明確に定義されていたという。1970年代には、著作権や特許で法的に保護されるのは人間によって生成されたものだけだと一般に認められていた。バイナリーコードのような機械によって生成されたものは、一般的に保護されることはなかった。

それが1980年代のPC革命とマイクロソフトのソフトウェア販売の大成功によって変わり始めた。いくつかの政策変更と画期的な訴訟の後、人々はソースコードや機械が生成したバイナリコードなどの保護を求め、手に入れるようになった、とマフーリ氏は言う。

インターネットからかき集めた公開データで学習させる大規模な生成系AIモデルの出現により、現在の著作権法がカバーできる範囲の限界にきていることに気づく。実際、マフーリ氏によれば、私たちはすでにその時点を過ぎており、何が保護され、何が保護されるべきなのか、そして何がオープンで誰にでもアクセス可能であるべきなのかを定義するための新しいアイデアと新しいフレームワークが切実に求められているのだという。

「(GitHubの)CoPilotが(2021年10月に)発表されたとき、新たな著作権問題が地平線上に出現していることに突然気づきました」とマフーリ氏は最近のインタビューでDatanamiに語っている。「その後、AIがどのように機能するのか、機械学習、ディープラーニング、ニューラルネットワークがどのように機能するのかについて、もう少し深く掘り下げるようになりました。そして私たちは、何が起きているのかを理解するために新しい法律や新しい枠組みが必要な、新しい時代の幕開けを迎えたの です。そして、それを非常に迅速に行う必要があります。」

OSI「ディープ・ダイブ」

 
  オープンAIに関するOSIのディープ・ダイブ・レポートはこちらからアクセス可能だ。
   

OSIは、「Defining Open Source Deep Dive」プログラムによって、AIのオープン性に関する問題のあらゆる側面を理解するために、規律ある多方面からのアプローチをとっている。

OSIは今年2月、AIのオープン性に関する20ページの報告書を発表し、このプロセスを開始した。6月初旬には、このトピックに関する論文や研究の公募を行い、同月末にはサンフランシスコでキックオフミーティングを開催した。7月にはオレゴン州とスイスで2つのコミュニティ・レビュー・ワークショップが開催され、先週にはスペインで3つ目のワークショップが開催された。

すべてが予定通りに進めば、OSIは来月、AI論文のためのオープンソースの新しい定義の最初のリリース候補を提出したいと考えている。同グループのウェブサイトによれば、このプロセスは2024年まで続く予定である。

同グループは、その定義と政策提言を打ち出すにあたって、あらゆる視点にオープンであり続けようとしている。「人々が何をしたいかに大きく左右されます」とマフーリ氏は言う。「オープンソース・イニシアティブでは、私たちはこの会話を推進しているだけです。私たちの意見を誰かに押し付けているわけではありません。」

データの新時代

インターネットの最初の40年間を定義した急進的な開放性は、コミュニティにとって有益であり、来るべき技術進歩の種をまいた。インターネットの最初の発展段階における平等主義は、開放性と共有の精神によって繁栄するコミュニティを育んだ。

それが、ビッグデータ時代の幕開け、ソーシャルメディアとスマートフォンの出現によって変わり始めた。テック企業は、ユーザーによって自由に共有されたデータや、自由には共有されていないけれども利用可能なデータ(書籍など)をインターネット上でかき集め、巨大なデータセットを蓄積できることに気づいた。これらのデータセットは現在、大規模な生成系AIモデルの学習に使用されており、今後何年にもわたって消費者とテクノロジーとの関係を再構築するだけでなく、企業やクリエイティブの戦場において勝者と敗者を分ける可能性を秘めている。

OSIが頭を悩ませている大きな疑問のひとつがある: 現在の著作権法はAIの時代にも通用するのか?答えはまだ出ていないが、そうはならないようだ。

 
(Dragon Claws/Shutterstock)  
   

「AIを著作権の対象とするのか、それとも社会に新たな権利と義務を設ける必要があるのか、決断を下すべき段階にきていると思います」とマフーリ氏は言う。「最善の方法は何でしょうか?」

これらの質問にはさまざまな視点があり、それぞれを検討する価値がある。この議論は、著作権、特許、商標、企業秘密など、知的財産権のいくつかの側面に触れている。しかし、プライバシーの権利、セキュリティの義務、労働法とも関連しており、複雑さを増している。

マフーリ氏は、クリエイティブな仕事をする労働者の苦境を理解しており、その労働者のアウトプットを再作成できるGenAIモデルを訓練するために過去の仕事を利用され、仕事を失う可能性があると言う。彼に法的手段はあるのだろうか?法的保護が認められるべきなのだろうか?それは興味深い、と彼は言う。

「私の画像やテキストをこの機械に送り込んでおいて、この機械が私に取って代わることができるだろうか?違います!」と彼は言う。「私が制作した作品の著作権は私にあります。私は、私の作品のアーカイブをデータマイニングのソースとして使用することを誰にも許可していません。だから、私に許可を求めてほしい。それは非常にフェアなアプローチであり、非常にフェアな反応だと思います。」

しかし、コミュニティや政府がデータ保護を強化することを選択すれば、AIモデルを訓練するためのデータを入手することは当然難しくなる。そうなれば、AIの技術革新の速度が全体的に遅くなるだけでなく、OpenAIGoogleMetaがこの分野ですでに享受している支配的な立場をより強固なものにするという副作用もあるだろう、と彼は言う。

「最大の脅威は、この分野で多様なプレイヤーを抱える可能性がなくなることだと思います。この分野は、どの段階においても、大きなリソース、大量のリソースを持つものが有利になります。なぜなら、データ、知識、ハードウェアの3つが主な要素だからです。」

テック大手はすでにデータを持っており、何年にもわたってインターネットから組織的にデータをかき集めてきた。AIモデルのトレーニングに必要な巨大GPUクラスターを購入できる資金力もある。そして、巨大なGPUクラスターと大量のデータを扱う副産物として、この分野のトップクラスの頭脳を自然と引き寄せているのだ。

 
  ステファノ・マフーリ氏は、オープンソース・イニシアティブのエグゼクティブ・ディレクターである。
   

マフーリ氏は、著作権保護を強化することで有意義な変化を実現できる可能性について、現実的な意見を述べている。テック大手はすでに、個人が起こした訴訟をもみ消す手段を持っている、と彼は言う。それに、彼らはすでにすべてのデータを持っている。多くの場合、消費者が提示されるプライバシーポリシーのダイアログボックスで「はい」をクリックする傾向があるおかげで、彼らは正々堂々とデータを取得しているのだ。

猫が袋から出てしまった(秘密がバレてしまった)

何年もの間、マフーリ氏は自分の画像と肩書きをウェブ上で自由に共有していた。そしてある時、彼はすべての主要なサイトで自分の画像を削除することで、それを抑制しようとした。これは彼の肖像であり、権利である。そうすれば、技術大手は彼を見たことを忘れるだろう、と彼は考えた。ある時点で、彼はそれが不可能であることを悟った。

その経験は、データで何が可能か、AIの開かれた未来についての彼の見解に影響を与えた。「このまま放っておいた方がいいと思います」とマフーリ氏は言う。「秘密はバレてしまっているのです。」

言い換えれば、猫を袋に戻そうとするのではなく、逃がした猫をできる限り管理した方がいいということだ。つまり、すでに公開されているデータの運用管理を強化し、猫たちを幸せな家庭へと導くためのガードレールを充実させるのだ。

「著作権法では解決できないと思います。強力な政策、プライバシー保護法、『私は認識されたくない』と個人が強くコントロールすることで解決する必要があります。私の顔がデータベースに登録されていても、それは無効化されます。使用することはできないのです。」

オープンソースと著作権保護には長所と短所があり、それらを慎重に比較検討する必要がある。OSIの方針は、実践者がオープンソース・ソフトウェアをどのように使用するかを判断しないことであり、道徳的な使用と非道徳的な使用の間に線を引くことは不可能であると指摘している。AIにおけるオープンの意味をめぐる議論が展開される中、その線引きはこれまで以上に曖昧になっている。

関連項目

Why Truly Open Communities are Vital to Open Source Technology

Do Customers Want Open Data Platforms?

Open Data Hub: A Meta Project for AI/ML Work