2018年5月10日

(25)集積データから「意味」を発掘するオープンサイエンス

 学術研究の主目的は、実験や観測結果の背後にある科学的意味の追求であり続けた。決して無味乾燥な数値化した断片的事実の生産ではない。現在でもそう考える研究者が大多数であろう。一方、データ駆動の研究活動が進展する中、むしろ正確な客観的データだけが重要であり、他は付随的であり意味がないとする意見もある。天体や海洋観測、災害や健康管理など大量データの集積自体を目的とする研究では当然であっても、セレンディピティーの信者でもある筆者には、受け入れがたい極論である。しかし、ビッグデータ解析と人工知能(AI)活用が格段に効率化した現在、この考えにも一理はあると思い直している。

オープンサイエンス振興の基盤

 ニュートンの言葉に「私が彼方を見渡せたとしたら、それはひとえに巨人たちの肩の上に乗っていたからである」がある。この17世紀の自然哲学者が、コペルニクス、ケプラーなどの偉大な先人たちが、自らの考え方に刺激を与えたことへの感謝を述べたものとされる。時代は下り、20世紀の物理学者アインシュタインや分子生物学者ワトソン、クリックも当然、巨人の代表である。現代の高度な科学研究の水準は、彼らが発見した揺るがぬ基本原理の反復再利用に基づいており、その貢献は絶大である。

 一方で、20世紀前半の思想家ホセ・オルテガはあえて「巨人の肩の上」説をとらず、「実験科学の進歩の大部分は、驚くほどの平凡な、また平凡以下の人々によってなされた」と主張した。常識を覆す革新、破壊的な指導原理の発見は、無数の小さな事実の集積と複雑に絡み合っており、今や情報通信技術革新の潮流の中で、俄然再考すべき見方となってきた。

 科学はますます拡大、先鋭化する一方で分野の細分化も著しく、知識は多岐にわたる専門たちに分散して存在する。したがって、研究者たちが論文に記述する結論は、あくまで自身が興味を持つ特定課題に関わる主張である。強く注目する人もいるが、必ずしも科学社会全体の関心を集めるものではなく、その波及効果は概ね既成分野周辺に限られる。むしろ、原理的には、そこで得られた正確なデータを集積、公開して、可能な限り広い範囲の研究者が活用するオープンサイエンスこそが、科学知の増幅と包括をもたらし得る。すでに査読付出版物であるScientific Data(シュプリンガー・ネイチャー)やData in Brief (エルゼビア)などの研究データを掲載するオープンアクセス(OA)誌も創刊されている。

 ビッグデータ解析は、実験、理論、計算シミュレーションに次ぐ、科学発見の第4のパラダイムとも言われ、分野によっては研究方法の転換期に直面している。すでに新興のアストロインフォマティクス、バイオインフォマティクス分野などで有効とされているが、さらに既成分野を超え多様な知識を組み合わせることにより、理論的、実践的に解決可能な課題の数が劇的に増大することは間違いなく、あるいは地殻変動する影響が出るかもしれない。

データ公開に対する研究者の心理

 今後、科学界には、埋もれた手つかずのデータを資源として共有、活用を可能にする一元管理が求められる。しかし残念ながら、アカデミアに根深い論文至上主義の慣習が自身の所有物である実験データの公開を阻む。研究者の猜疑心にもとづく秘匿性は、すでに17世紀の巨人ガリレオ・ガリレイに始まっていたとされる。科学研究は発見、発明の先取性を命とするが、現在の職業研究者たちは厳しい競争と様々な倫理欠如の風土にさらされるため、職位、研究資金、報酬、社会的名誉などの自己利益の確保の観点から、情報共有に極めて消極的である。実験の生データは自らの重要発見の源であり、競合相手を利するものであって欲しくないとする。

 しかし、よく考えてみよう。科学は本来的に人類共通の知的資産を構築する営みであり、その進展は17世紀の科学論文誌上の公開による成果確定、つまり「開かれた情報伝達制度」の確立によるところが大きい。非公開成果は学界認定されない。ならば基礎データは、主張する科学的結論を支える最重要の証拠であり、その正当性の公開認定と合わせて最大限公開すべきであろう。さらに20世紀以来、研究活動は主として国家財政をはじめ公的に支援されていて、それは社会貢献への最大努力を前提としている(コラム24)。したがって、研究をめぐる個人的な得失を理由に、「社会の中の科学、社会のための科学」の発展の可能性を妨げる保守主義は、到底受容されるところではない。

明日の研究基盤への投資

 わが国政府は研究開発に年間3.6兆円を投入する(官民総額は18.9兆円)。従来型の長期的ビジョンに欠ける公的資金の研究現場へ渡しっぱなし、秩序なき状況での研究のやりっぱなし、論文や特許の書きっぱなしは、決して合理的な「研究投資」とは言えない。国全体で66万人の研究者がいて、年間約10万本の論文を生産するが、さらに公表に至らない膨大な活動がある。後者の大部分にはさしたる学術的意義は認められないが、あらゆる研究活動は目標達成の成否を問わず、確実にデータを生産していることは事実である。莫大な費用投下によるこれらの中間成果物を有効に活用したい。

 科学は来たる50年の間に、ガリレオ以来、過去400年以上の変化を遂げるという。その鍵はオープンサイエンスであり、明日の研究基盤は、これまで出版社や学術図書館が担ってきた科学論文管理とともに、再利用可能な高品質なデータの集積である。広く共用に資するデータの提供行為を高く評価するとともに、資源として公正に管理する必要があり、個々の研究者の不利益感をなくし、誰もが納得する動機付けをしてほしい。多くの分野で電子実験ノート普及によるIoL(Internet of Laboratories)の日が来れば、標準規格を満たさぬ研究室は国際共同研究から排除されかねない。ぜひ前向きの準備が必要である。

データの一元管理における行政、研究社会の役割

 世界はオープンサイエンスに向けて動き、データ公開はG7/G8科学技術大臣会合の声明にも盛り込まれた。わが国にも実験データの共用と最大活用を可能にするリポジトリの形成、強固な体制の整備が不可欠で、このまま無策を続ければ10年後に必ず大きな悔いを残す。科学技術研究政策の立案者と実行の主体者の責任分担を明確にする必要がある。

 まず、オープンサイエンス振興を主導する行政と研究費配分機関が、いまだ保守的な研究社会に対して重要性を喚起する。その上で、論文公表時に合わせたデータ公開の方針を規定し、行動様式の一斉変更を要請するべきではないか。具体的に采配を振るうのは、日本学術振興会、科学技術振興機構、あるいは国立情報学研究所であろうか。これまでのところ、内閣府「国際的動向を踏まえたオープンサイエンスに関する検討会」の方針を受けて、科学技術振興機構においても「オープンサイエンス促進に向けた研究成果の取り扱いの基本方針」を定めてデータマネジメントプランの作成等を求めているが、データ管理とデータ利活用の具体化は研究者に委ねられている。内閣府では、国として今後推進すべき取り組み等について検討しているが、他方、アカデミアの意見を代表する学術会議、諸学協会、大学をはじめとする研究現場はいかなる対応を考えているのか。欧米では、新たな社会環境に適応すべく正論が政治を動かし、例えば「バミューダ原則」によりヒト遺伝データの共有が研究助成金交付の条件とされている。

 目指すべきはデータの乱雑な集積ではなく、整然たる秩序の構築である。1965年に始まったケンブリッジの結晶構造解析データベース(CSD)の登録件数は2016年には80万を超え、学術のみならず企業研究にも不可欠の資源となっている。また米国化学会傘下のChemical Abstractsの化合物登録件数は、2015年に1億を超えた。合わせて6,600万件のタンパク質、核酸などの配列情報が収録される。近年の登録数は、前世紀後半25年間の件数を上回り、このペースが続けば、次の50年に新たに6.5億件が加わるという。他分野の拡張状況も同様であろうし、もはや秩序あるデータ管理なくして科学界の健全な活動は望めない。

 このイニシアティブは学問の自由を損なう研究管理のためではなく、あくまで科学の革新を目指すことを確認したい。したがって、価値観や慣習を異にする様々な分野の研究主体者たちのボトムアップの知恵が不可欠である。共通の自然原理の上に立つ基礎科学はともかく、例えば医療など社会と強く関連する分野では様々な専門的慣習が堅持され、集合知の創造に資する一貫性あるデータ管理は容易でない。しかし、科学界は現在の、そして後継世代のために、大局観をもって積極的に協力し、統一的な技術開発も含めて整合性ある情報プラットフォームを構築しなければならない。