データが科学を再構築する–第二部:科学的なAIモデルの台頭
オリジナル記事「How Data is Reshaping Science – Part 2: The Rise of Scientific AI Models」
第一部では上流工程を扱った。かつては実験室が最優先だった。今では最後になることが多い。彼らはまずシミュレーションから、データから、何千もの試行を模倣するモデルから始める。何かを構築したり触れたりする前にだ。この変化はすでに我々のアイデア検証の方法を再構築していた。だが今やアイデアそのものが、プロセスの別の層から生まれている。
我々は科学AIモデルの台頭を目の当たりにしている。これらは実験データのシミュレーションや分類のための道具ではなく、科学そのもの——その言語や構造、記憶——を学習したモデルだ。科学の進め方から学び、その一部を自ら実行しようとする。本章ではこの変革を探る。発見を支援するだけでなく、科学者の思考プロセスを内面化しようとする機械を構築することの意味を。
出力を超えて:科学者のように考えるAIの教育
科学的に訓練されたモデルへの移行は既に始まっている。一部のシステムは、最終結果だけでなく、科学論文の各部分を結びつける推論や構造も含めた、科学的な成果の全過程に触れさせられている。モデル化されているのは単なる知識ではない。その知識に到達する過程そのものだ。
メタの「Galactica」はこれを大規模に実現しようとした。数千万の科学論文や教科書で訓練され、研究を生成し、引用し、補完するようプログラムされていた。一瞬、真のブレークスルーのように見えたが、そうではなかった。稼働開始から3日も経たぬうちに、研究者たちは幻覚的な引用、明らかなナンセンス、そして一般読者を騙しうるほど本物そっくりの偽論文を次々と指摘した。技術的には失敗していないが、信頼を求められる場面で失敗したのだ。メタは即座にこれを撤去した。それでもこれは転換点だった。規模だけでは不十分だと示したのだ——科学AIには根拠、透明性、そして証明が必要だと。
![]() |
|
| (Rawpixel.com/Shutterstock) | |
他の開発者たちは、信頼性の高い科学AIモデルを作るために異なるアプローチを取っている。ProteinLMは試行錯誤の過程でタンパク質について自ら学び、訓練されていない生化学的パターンを発見している。MatSciBERTとその深層学習の親戚であるCrabNetは、科学用語を組成データに適用し、どの特性が有望で、どの特性が崩壊しやすいかを予測する。
より確かな結果を得るため、様々な入力を消化するモデルもある。MoLFormerは化学構造式をテキストに変換し、構造と説明を対応付ける。FinchとPaperQAは研究論文全体を精査し、論理の連鎖を追跡したり、キーワード検索では見逃されがちな脆弱な仮定を批判したりする。
この新世代のモデルは、大きさだけで定義されるものではない。それらが触れる内容によって形作られるのだ。研究の全構造——方法論、引用文献、図表、キャプション、解説——を基盤に訓練されている。次第に微妙な点に気づき始める:確信がどう伝えられるか、証拠がどう積み上げられるか、議論を脱線させずに疑念がどう表現されるか。彼らが学んでいるのは単なる内容ではなく、科学的思考のトーンとリズムだ。思考が要約されるだけでなく形成されるレベルで動作し始めている——そしてこの変化は、彼らが生み出す特定の結果よりも重要かもしれない。
データが方法となる時
科学的AIの台頭 これは単なるアルゴリズムの高度化ではない。その基盤となるものも重要だ。これらのモデルは教科書や精選されたデータ集から学んでいるのではない。科学そのものの混沌とした残滓——研究者が論文に残す生々しく、しばしば断片的な痕跡——から学び取っているのだ。データが鍵を握る。そしてこれは記憶を持つデータなのである。
結果セクションにある図は、単なるグラフではない。科学者が共有する価値があると考えたものを示しているのだ。際立っていたのかも。主張を裏付けていたのかも。議論セクションは別のことを伝える。思考が続く場所なのだ。不確実性、矛盾した結果、考えられる説明。科学者が何がうまくいったか、何が失敗したか、そしてそれが何を意味するかを振り返る場所だ。モデルが学ぶべき素材はこういうものだ。磨き上げられた答えだけを見れば、真の過程を見逃す。結論を反復することは学んでも、それを思考する方法は学べない。推論できるモデルを構築するには、推論がどう見えるかを示さねばならない。
![]() |
|
| (Shutterstock AI Image) | |
これらのモデルに投入されるものは中立ではない。科学の特定の領域は過剰に代表され、他の領域はほとんど登場しない。一部の研究者は絶えず引用される一方、他の研究者は見過ごされる。注意を怠れば、モデルは科学の本質を歪んだ形で学習してしまう。私たちのパターンや盲点を拾い上げ、それを継承するのだ。モデルが私たちに想像させる未来は、私たちが与えた過去のデータによって形作られる。
この傾向については、実験計画の指針として文献や画像、実験結果を精査するMITのCREStプラットフォームを最近取り上げた際にも触れた。このシステムは結果だけでなく、結果がどのように枠組み化され、修正され、解釈されるかという周辺状況も学習していたのだ。
研究における協働型AI
科学モデルが何を成し得るかは既に明らかだ。次に迫るのは、科学者たちがこの過程で実際にどう反応しているかという、より不確かな領域である。これらのモデルは研究パートナーとして扱われているのか、それとも単なる高度なアシスタントに過ぎないのか。科学者たちは新たな領域を切り開くために活用しているのか、それともモデルが何をしようとしているのかを完全に理解せずにその導きに従っているのか。その答えは必ずしも明確ではない。しかし、ますます多くの研究室で、モデルが意思決定を導いている。必ずしも快適ではなく、必ずしも自信を持ってではないが、研究の方向性を変えるのに十分な信頼をもって。
日本の物質・材料研究機構(NIMS)では、AIは単なる数値計算以上の役割を果たしている。有望な新たな研究分野へ研究者を導く助けとなっているのだ。同機構の材料情報学チームは、材料発見の初期段階に機械学習を統合し、合成前にモデルを用いて化合物候補を特定している。研究者がモデルを盲目的に追うわけではない。しかしAIが議論の方向性を形作るケースが増えている。
これはNIMSに限った話ではない。様々な分野の科学者が、アイデアを分析するだけでなく提案するモデルとの協働方法に苦慮している。生命科学分野では、アレン人工知能研究所が開発した「Finch」のようなツールが、論文全文を読み込み、推論の流れを追跡し、論理的弱点や欠落を指摘するよう訓練されている。ある研究チームはこのやり取りを「検索エンジンへの質問というより、超知識豊富な実験パートナーとの議論に近い」と表現した。
![]() |
|
| (Peshkova/Shutterstock) | |
それは双方向的で、時に混乱し、深く反復的なものだ。科学者はモデルに働きかけ、調整し、時には議論を交わす。そしてモデルが予期せぬものを提示した時――奇妙な提案、外れ値の候補、誰も考えつかなかった論理の流れ――研究室は立ち止まり問わねばならない:これに従うべきか?
これが転換点だ。発見とはもはや、アイデアから検証へ至る整然とした流れではない。人間の直感と機械が生み出す可能性との対話であり、そこにはあらゆる不確実性が伴うのだ。
そしてより難しい問いが浮かび上がる:モデルが我々を追い越した時、何を信じるべきか?
認識論的転換
科学的AIのより深い物語は、単にモデルが向上していることではない。データが、長年の科学的価値観に挑戦する形で知識を生み出す方法をモデルに教えていることだ。膨大なデータセットで訓練されたモデルは、人間が分類することはおろか、検証することすらできないパターンを学ぶ。発見を生み出す際、それらは理論や直接観察ではなく、統計的構造を通じて行うのだ。
![]() |
|
| (クレジット:Nature.com) | |
これは古い階層構造を逆転させるものだ。従来の情報の流れは知識を支えていた。観察し、推論し、確認する。強みは説明と結果の結びつきにあった。今やその関係は逆方向に動く。モデルがデータから何かを発見し、我々は後からそれが成り立つか検証するのだ。
AlphaTensorはこの逆転を捉えた。訓練データを通じて行列乗算の組み合わせ空間を探索し、一見すると見慣れないアルゴリズムを明らかにした。数学者が後になってそれらを研究して初めて、モデルが最適な手法を特定していたことが確認されたのだ。説明はパターンに従った。
タンパク質設計も同様の挙動を示す。モデルが膨大な生化学データセットを解析し、新たな構造を提案すると、実験室ではそのタンパク質が折りたたまれ機能することが確認される。設計が機能する理由は誰も完全に理解していない。その理由はモデルを訓練したデータの中に存在するのだ。
これは新たな経験主義だ。透明な推論ではなく、データ駆動型の性能に依存する。信頼は理解からではなく、不透明さにもかかわらず信頼性があるように見える繰り返しの結果から生まれる。それは不快感を生む。同時に、科学が試み得る領域を拡大する。
データはもはや分析対象に過ぎないものではない。それは発見のエンジンとなり、個人の知性を超えた洞察を生み出す。科学は常に驚異と証明を慎重に均衡させてきた。今や新たなデータがその均衡を未知の領域へと押しやろうとしている。警戒心と共に好奇心が育まれる限り、その機会は現実のものだ。











