2018年6月22日

(26)ビッグデータの利活用の行方

 ビッグデータの時代が到来し、デジタル化した統計値データベースの価値が格段に高まった。まず論文のオープンアクセス(OA)の普及がオープンサイエンスの道を開いたが、現在はさらにその根拠となる実験データの集積、公開、再利用が加速している。新たな知識生産にとどまらず、オープンイノベーションによる巨大な市場経済的可能性、さらにSDGsのような地球規模の目標を視野に入れれば、国際的なデータ管理の方向は必然といえる。

 米国では科学技術政策局(OSTP)がすでに2013年に「論文と科学データへのアクセス拡大計画」を策定し、英、独、EU、国際科学会議(ICSU)などでも鋭意、同様の検討がなされている。基本データの統一、公開(オープンデータ)は論文のOA化以上に大きな波及効果をもち、今後は、基礎科学にとどまらず、多様な科学技術データに拡大されるであろう。標準化のもたらす影響は世界全体、あらゆる社会に及ぶので、すべての国家、ステークホルダーが納得する法的、財政的公平性、そして利益配分が維持されなければならない。一方、「すべてが繋がる情報」は両刃の、あるいは万能の剣であり、大きな破壊力ともなり得る。不用意に管理運営を誤れば基本的人権を損ない、国の存続さえ危うくする。果たして、わが国の情報管理の対策と体制は十分であろうか。

わが国のデータ管理政策は万全か

 もとより研究者個人の意識は多様であるが、わが国の学界においては発想から様々な知的生産物に至るまで、すべて自らに帰属すると考える人は多い。しかし、個人や単一の小グループ、既存組織の可能性には明らかに限界があるため、多くの課題について国際的また異分野間連携による共同作業が普遍化し、新たな分野も生まれつつある。その中核は新たなデータ駆動型研究であるので、わが国も十分な財政的、人的投資を行い、世界の情報ネットワークにおいて主体性、存在感を示したい。データの統一を通して、科学全体の発展に資するとともに、自国の科学技術競争力の維持、向上を図ることが重要である。もとより個人的不利益を回避するとともに、将来的な国益確保に向けた戦略性をもって積極的に参加し、国際的デファクト・スタンダード形成、環境整備に貢献する必要がある。研究者たちが日々営々と生産する基本データが、戦略に長けた諸外国に収奪されることは、決してあってはならない。

 IMDワールド・コンペティティブ・センターが発表した世界競争力ランキング2017によると、わが国のデジタル競争力は63か国中、27位に甘んじる。データから価値を引き出す能力をもつデータサイエンティストは世界的に争奪戦状態にあるというが、特にわが国において将来、決定的に不足すると予測されている。しかし、各大学における実践教育の動きは鈍く、時間をかけての育成では到底、間に合わない。米国を中心とする海外の教育制度の活用と外国籍研究技術者の採用の促進は喫緊の課題であろう。さもなければ、世界のデジタル社会から孤立を余儀なくされる。

科学論文誌の状況の再確認

 まず公正、中立、公開を旨とする学術研究の成果発表の場である科学論文誌の世界状況を再度、確認してほしい。現在、世界中で出版される科学論文は毎年210万本に上る。最大のシェアを占めるのは、約2,000誌を発行するエルゼビア社(オランダ)で、年間150万以上(2016年)の投稿を受理し、査読後その28%の42万本を出版している。同社は世界の20%の論文シェアを握るが、その他に限られた欧米の商業出版社とごくわずかの学会が市場を寡占している。わが国にとり極めて由々しき状況ではあるが、これは表面的問題にすぎない。

 論文として顕在化する成果は、あくまで研究活動全体に氷山の一角にすぎない。たとえば、特にブランド性の高い有力誌に採択される論文は10%以下であり、最終的に開示されるデータは、そこに直接関連する参考資料の一部である。公表論文はさらに付随する膨大な未公表データに支えられており、この提出についても強く求められている。状況は、90%にのぼる非採択の論文、さらに他の大多数の科学誌についても同様である。平均採択率を70%とすると、年間300万本に達するすべての投稿論文について、機微に属する査読プロセスの詳細とともに、膨大な未発表データが廃棄されることなく、当該科学誌の編集部にとどまる。今後、著者たちの電子実験ノートとつながれば、おそらく延べ1,000万人超の研究者、学生による実験の詳細までが完全に掌握されることになる。これで納得できるだろうか。

基本データの所有権と使用権の帰属

 著者側から見れば、出版社に対する非公開プライバシーの無料提供ともいえる部分が大きく、いったいどこまで、いかなる根拠でデータ提出の義務を負うのか。出版社、著者、研究資金提供者が維持すべき著作権や知的所有権は、何を含み、その交換対価はいかにあるべきだろうか。現在の著作権は思想または感情の創作表現に限られ、単なる事実の表現であるデータは除かれている。

 数千タイトルの科学誌を傘下に収める巨大出版社は、実は科学社会全体を支配しうる強力な情報収集機関でもある。もとより法的かつ倫理的にこの独占データの転用は許されないが、今や自動的に集積するビッグデータから、多分野における研究動向、産学連携関係を含む様々な有用な情報、知識の抽出が可能である。研究データに関する「科学・技術・医学(STM)出版に関するブリュッセル宣言」は、オープンサイエンスを促進すべく、出版社は未加工な研究結果データを可能な限り公開すべきとするが、実態の推移を注視すべきであろう。

 データ生産に関わる人的、財政的、情報資源、および生産過程を考えれば、特定の出版社がもっともらしい「データ共有ポリシー」の名のもとに、著作に相当しないデータを独占し、その比較、分類、統計解析や統合によりさらなる知的財産の再生産を図ることは、全く不適切である。その所有権は、投稿、未投稿にかかわらず、もともと研究費を提供する各国の公私機関(財団や、ときに企業を含む)または研究費を受けた大学・研究機関等に帰属している。

 近年の欧米の商業出版社、情報提供機関による科学界席巻、修復不能かもしれない全面制圧を肝に銘じて、国、組織、個人が協力し、責任を持って基礎データベースを管理することは、国民に対する義務であろう。

研究社会と行政の役割

 情報化時代の研究社会は、データベース整備が、自らの活動効果を最大化しうる道であることを認識すべきであり,そのためのリテラシー向上と有効なエコシステム構築が求められる。データベース化の進捗状況は分野により異なるが、概ねプレプリント・アーカイブの普及度合と相応するようである。恣意的かつ合理性を欠く旧態依然たる活動は、必ず総合的研究力を削ぐ結果を招くため、既成分野や組織の特性、価値観、慣習の相違を克服しつつ、できる限り共用を加速する最適の方式を提示してほしい。もとより、この管理制度が研究を規制し、本来の自由な発想や柔軟な行動を阻んではならない。

 科学技術研究は国境を超えるため、国際的合意形成、協約が不可欠である。さらに、すべて基本データには永続性あるデジタル識別子を付与し、提出者の権利を保証する管理が必要となる。行政は社会の便益、損失、機微を総合判断し、また国益を堅持すべく、あるべき国際協定、オープン・クローズ戦略の策定を先導してほしい。成り行き任せの不作為が、他国による大規模計量的データの占有を許し、国家政策、企業経営戦略、大学運営の根幹を揺るがすことがあってはならない。学術研究を所掌している文部科学省には、研究データの管理・利用にかかるポリシーの策定と、それを支援する施策の実現を期待する。

 なお、事業化を目指す企業研究などは、公的資金に支えられる学術研究とはおのずから性格が異なるため、競争優位性維持の観点から、基本的考えを早急に検討、整理する必要がある。当然、個人のプライバシー、財産価値の保護とともに企業活動や国家安全保障に関わる機密保持には最大限の配慮が必要である。

 経済界では「ビッグデータは石油を上回る新資源」とされ、米国のGAFA4社(グーグル、アップル、フェイスブック、アマゾン)や中国企業がその集積にしのぎを削る。IoTはクラウド活用により多様な新技術を生むが、その経済効果は2025年には都市、工場、健康分野を中心に実に11兆ドルに上るという。また人生100年時代に個人の生涯は急速にデータ化されつつあるが、健全な個別化医療に供するには匿名化を前提とした、整合的かつ公正なデータ共有制度が必要である。しかし、ここに必ず新たなビジネスモデルも出現し、例えば、特定企業による機械学習を用いた膨大な個人データの解析と販売は、巨大な医療サービス産業を起こす。米国の私企業による医療健康情報の独占的かつ網羅的収集も、この文脈上にある。また、すでにわが国における外国製先端医療機器などの購入については、全測定データの提供が条件とすることもあるというが、大学や公的機関もその行方に慎重な配慮が求められよう。

人文学、社会科学に新機軸を生み出すか

 デジタルデータ駆動型研究の台頭は自然科学、技術分野に限らない。わが国の特徴ある人文学、社会科学もまた電子インフラ構築の整備を怠れば、世界から孤立する。欧州ではすでにデジタル・ヒューマニティーズの潮流に乗り、DARIAH(Digital Research Infrastructure for the Arts and Humanities)プロジェクトが進行している。多様なコンテンツの時間軸、空間軸に沿ったマッピングや中世の文書の解析などに用いられるという。社会科学においても、欧州のコンソーシアムCESSDA(Consortium of European Social Science Data Archives)により、各国で別途形成されていたアーカイブを統合検索する仕組みがつくられつつある。わが国の心の支えたる学問がその特質性に安住して、国際社会から無視、疎外され、グローバルな潮流に埋没する結果をもたらしてはならない。むしろ、現在停滞気味の文理融合を促進し、新機軸を生みだす新たな方法論を提供するのではないか。