Dec. 2021No.93

新たな知の拠点、柏分館学術情報基盤サービスの拡充へ

Other

新たな知の基盤を築く

科学技術の進展を担うインフラの構築

柏分館が提供するサービスは全国を対象にしており、各大学や研究所との連携や協力が必須となる。また研究の発展を促すべく、ユーザ同士を結び付ける役割も担っていく。これまでばらばらだったデータ活用のあり方をまとめて最適化し、科学の進展に貢献する。この大きな課題に挑む3人のキーパーソンに、現状と展望を語ってもらった。

安浦 寛人

Hiroto Yasuura

国立情報学研究所 学術基盤
チーフディレクター/文部科学省 科学技術・学術審議会 情報委員会主査

田浦 健次朗

Kenjiro Taura

東京大学情報基盤センター長/東京大学大学院情報理工学系研究科 教授/国立情報学研究所 客員教授

合田 憲人

Kento Aida

国立情報学研究所 アーキテクチャ科学研究系 教授/総合研究大学院大学 複合科学研究科教授/学術基盤推進部 部長

データ科学の進展を支える

田井中 新たに情報基盤が構築された背景を教えてください。

田浦 大きな情報基盤やデータ基盤は、これまで主に理工系分野のシミュレーションに使われてきましたが、いまは人文系のデジタルアーカイブを はじめ、社会科学、医療、薬学、教育学など、さまざまな分野で情報技術やデータ活用が進展しています。
 データ科学が発展した理由の1つはAIの登場です。特に深層学習によるAIは、現象の根本的な原理はわからなくても、データを元に未知の結果が予測できます。つまり、方程式がなくてもデータがあればいろいろなことが解明できる。もう1つは、取得されるデータ量が増えたこと。センサーの発達などにより、さまざまな観測データを簡単に入手できるようになりました。
 これまで、情報基盤センターや国のスパコンが対象にしてきたのは従来のシミュレーションですから、使い方にミスマッチが出てきました。ユーザ層の広がりに応じて、新たな研究手法に合った基盤をつくる必要があったわけです。それが根本にあります。

安浦 ある事象を観察し、そこから仮説をつくり、数学を中心に定式化して結果を予測する。それこそがギリシャ・ローマ時代からの科学でした。特に18世紀以降の物理学では、理論物理学と実験物理学が相互に作用しながら学問を発展させてきました。その後、20世紀半ばにコンピュータが登場し、数式さえあれば、計算によりさまざまなことが予測できる計算科学が現れました。天気予報などはまさにそうです。
 さらに20世紀の終わり頃からはデータ量が急増し、現在、パソコンではギガバイト(ギガ=109)が当たり前になりました。私が情報工学を学んだ1970年代は、大学で一番大きな計算機の記憶容量は1~2メガ(106)でした。いまやエクサ(1018)、ゼタ(1021)といった大容量のデータが使われ始めています。
 かつての理論科学と実験科学がそうであったように、人間が式を立ててシミュレーションをする計算科学と、AIなどによるデータ科学が相互に影響し合いながら発展しつつあります。柏分館およびデータ活用社会創成プラットフォーム(mdx)は、このデータ科学を支えるための仕組みをつくっているわけですね。

合田 これまでデータは研究者が自分たちで管理していましたが、あまりにも巨大化したためにそれができなくなり、共通基盤が必要になったということも背景にあります。データを共有するためには、アクセス権や共有できる範囲などをきちんと管理することが必要で、そのための基盤を個々の研究グループごとに用意するのは難しい。データの置き場所はユーザ自身の判断になりますが、NIIの研究データ基盤では、研究データ管理の仕組みに加えてストレージも設置して、データ利活用を図れるようにしています。

田浦 研究に必要なデータを自分だけで集めることは難しいため、データを共有する価値は大きいと思います。ただ、個人情報など機微性の高いデータや、材料系や医薬系などの商業的な開発に絡むデータは、公開が難しいのが実情です。セキュリティを高めたうえで、活用する価値をきちんと示すことが重要だと考えています。

田井中 国としての戦略が必要でしょうか。

安浦 情報関係の科学技術政策としては、1970年代から主要な大学に大型計算機センターをつくりました。当時は何十億円もするような設備でしたが、現在のパソコンより能力が低いものでした。さらに地球全体の大気の状況をシミュレーションするような高性能の計算機をつくろうと、90年代後半にスーパーコンピュータである「地球シミュレータ」が開発されました。その後、さらに高速なスパコンの構築をめざして国家プロジェクトが発足し、「京」や「富岳」につながっていきました。計算科学では世界最先端のトップレベルの計算ができる技術と、それを動かせる人材を国としてしっかり持っていることが非常に重要です。
 今後はデータの分野でもそれをやらなければなりません。極めて大きなデータを安定的に維持するために、データに関してスパコンに匹敵するような仕組みをどうつくるかが1つの課題になっています。ただし、データ量だけではなく、どのように使われるかが問題です。セキュリティの程度や公開の有無など、それぞれのデータの特性に合わせてハンドリングする技術を、国として持つ必要があるでしょう。mdxの導入をきっかけに学術データ基盤のあり方を手探りで考え始めている段階です。
 データ科学の面白さは、異なる分野のデータを掛け合わせることにより、新しい発見の可能性があることにあります。異なるコミュニティが互いにデータを公開し合って一緒に考えることにより新しい発見がある。その可能性を試す場をどうつくるかということも、大きなチャレンジでしょう。

プラットフォームの設計と運用

田井中 データプラットフォームの設計のポイントを教えてください。

田浦 人と人をどうつなげるかが重要だと思っています。それぞれのデータは量も違うし、数値の意味するところも全く違うので、信頼性を含めてその道の専門家にしか解釈できません。そのような、データに詳しいさまざまな分野の人たちと、計算の仕方やコンピュータに詳しい私たちとが、問題そのものを共有して一緒に議論するためには、きめ細やかな対応が必要だと思います。

合田 データの集め方も重要です。これまでは、ユーザが自分のデータをスパコンにドンと投入して計算するスタイルでした。これからはセンサーから直接データが送られることが想定されるため、スパコン側も計算のためのリソースだけでなくデータを受け取る部分が必要になります。送られてくるデータの形式もまちまちですし、プログラム(ソフトウェア)もアプリケーションごとにばらばらです。さらに、機微情報の場合は匿名化して送らなければならないなど、それぞれの状況に応じたバリエーションも考えなければなりません。
 単にネットワークとサーバが速ければいいのではなく、そのようなソフトウェアを安全に動かすための仕組みが必要です。これもまたユーザとともに議論をしながらつくらなければなりません。

田井中 運用についてはいかがでしょうか。

田浦 mdxは1つの共通基盤を全国の11機関で共同運営します。それぞれの機関の得意な分野や強みを生かして、いろいろな分野のグループとつながり、mdxでの成果を最大化していきたいと考えています(図)。1機関が新しいマシンを買ったら、それを11機関でシェアするような新しいサービスの形態もつくっていきます。成果を出して、データ科学の基盤を広げていきたいですね。

niitoday93_03.png

図|mdxの概要データ活用社会創成プラットフォームmdxを導入(https://www.u-tokyo.ac.jp/focus/ja/press/z0310_00027.html)の図を元に作成

田井中 mdxは2021年9月に公開されたところですが、現状を教えてください。

田浦 mdxのホームページから利用申請ができます。NIIが全国の大学と連携して運営する「学認」の認証基盤から入ることができますが、多くの大学ではまだmdxを利用可能にする設定をしていませんので、周知していきたいと思っています。

合田 「学認」で使うサービスは、セキュリティ上、各大学で利用許可の設定を行ってから利用する仕組みにしています。これまでは電子ジャーナルなどの全学的な利用が主でした。mdxのような計算機システムが提供するサービスに使うのは、おそらく今回が初めてで、大学側への啓蒙も必要ですね。

田浦 一般ユーザへ参加の呼びかけも行っており、研究室単位や個人などで順次利用が始まっています。分野は、AI、画像処理、スマートシティに使われる空間情報、ゲノム、マテリアル材料、経済関係の人流データなどさまざまです。

安浦 まだまだ試験的な運用で、いろいろな問題点に対応している状況だと思います。大きな計算機やデータ基盤を持てない研究者が気軽に申請し、mdxにデータを入れて研究する。5年後くらいにそのようなことがスムーズにできるようになれば、サポート側としては成功と言えるでしょう。

国家的なインフラとして実働させるために

田井中 商用クラウドとの使い分けはどのようになるでしょうか。

合田 データをどこに保管するかはコミュニティごとに考え方が違いますが、使い分けの方針を決めてうまく運用すればいいと思います。

田浦 商用クラウドの場合、費用が高額になりますし、ほとんどのベンダーは海外の企業ですから、皆、やむを得ず使っているのが本音だと思い ます。ほかに選択肢がないから、スパコンでできないものは商用クラウドで、となるわけです。そこに、国のインフラとしてどれだけのものを整備できるか。使いやすい環境をつくっていか なければなりませんね。

安浦 研究は競争です。先に見つけた人が発見者ですから、1番でないといけない。国のサポートが不十分だったために結果が出せなかったということがないように、データ分野でもしっかりした基盤をつくる必要があります。
 私が主査を務める、文部科学省科学技術・学術審議会の中の情報委員会では、すべての学術分野に対して、学術情報基盤をどのようにつくり、維持していくかについて議論しています。富岳や学術情報ネットワーク「SINET」などに加え、今後はmdxを中心としたデータ基盤も対象になります。
 この分野は6~7年経つと技術が古くなるので、予算要求も常に先を見据えて準備し続けなければなりません。特にサービスの提供体制を持続可能な仕組みにしておくことが重要です。すなわち、人件費や電気代などいろいろな経費を見込んで、安定した予算をつける必要がある。もしmdxが成功すれば、こうした基盤を複数カ所に分散させるなど、予算的に1桁上の仕組みを考えることもできるでしょう。そのためにも、実績が必要です。

NIIの果たすべき役割

田井中 柏分館に何を期待されますか。

田浦 NIIへの期待はとにかくたくさんあります(笑)。現在の学術情報基盤は各大学にばらばらに分散していて、ユーザは複数の大学のアカウント を使い分けなければなりません。NIIには、物理的に分散しているものをまとめて、ユーザから1つのシステムに見えるようなデータ基盤サービスを構築していただきたいと思います。
 また、私たちにとって一番大事なのは、合田さんをはじめとする柏分館の方々との協働です。定期的に作戦会議を開いて、mdxやSINET、研究データ基盤システム( NII Research Data Cloud)など身近な話題を話し合いたいですね。困難な問題が出てきた時には、一緒に予算を獲得して共同研究を始めるなど、緊密な関係を望んでいます。

合田 しっかり受け止めたいと思います。データが生成され、ネットワークを経由して解析され、その結果が世の中で役に立つ。それが一気通貫でできる世界を柏分館でつくりたい。それを実現するインフラが柏にできたことは、たいへん意義のあることだと思います。
 SINETには有線だけでなくモバイル網があり、これを介してデータを自動的に集めて計算機に安全に流し込む仕組みもつくっています。そういう技術的な仕掛けをパズルのように組み合わせて、計算パワーのあるmdxにつなげていきたいですね。
 実は田浦先生と私は学生の頃、同じコミュニティで活動していたのです。この数年はお互いにインフラを構築・運用する立場になっているわけですが、新しい日本の基盤を一緒につくれることを非常に楽しみにしています。

安浦 研究資源の共用は重要な課題ですが、コミュニティや大学にはそれぞれ固有の文化があって、問題はそれほど単純ではありません。NIIはそういうものを乗り越えながらSINETなどを手掛けてきた。今度はそのデータ版を柏でやろうとしています。運用において、重要な役割を果たすべき立場にあると思います。

田井中 人材の育成についてはいかがでしょうか?

安浦 非常に大きな問題です。この仕事の重要性がもっと理解されなければいけません。学術論文では、執筆者と同様に、データをつくる人や整理する人が重視される方向に流れは変わりつつあります。研究する人とそれを支える基盤を担う人、この両者の共同事業として研究成果が生まれる。そのような文化を醸成していくことが大事だと思います。
 NIIには先端的なサービスを常に維持し、改良できる人が必要です。大学でも、研究より実務のほうが合っている優秀な人はいます。そういう人たちが給与面も含めて研究者と同じように待遇されるような環境をつくっていく。そうでないと、日本の科学技術自体が危うくなると思っています。

田浦 情報系の研究者として論文を書くことと、他分野の方と協力して研究結果を出すためのヘルプをすることは、往々にして両立が難しいところです。情報技術に精通する者として、他分野の研究者を助けなければいけない場面は少なくありません。そういう大事な貢献が見過ごされないよう、世の中を少しでも変えていきたいですね。  コロナ禍では多くの授業がオンライン化されました。そのとき情報技術の得意な学生たちが自主的に立ち上がり、困っている先生や学生を助ける仕組みをつくり出したのです。東京大学ではいま、それが制度として定着しつつあります。このように意欲的で、かつユーザの気持ちがわかる学生たちが、よいタイミング、よい仕組みでこの仕事に触れてくれれば、若い力が育ってくるのではないでしょうか。

合田 データが集まってくると、不思議とそれに関連するいろいろな人たちも集まってきて、つながりができるものです。この活動は、そのようなつながりの上に広がっていくはずです。インフラ屋として応用分野の人たちとたくさんの会話をし、お互いの課題を解決できるよう、努力をしていきたいと思います。

安浦 データ科学の基盤整備は科学技術の成果に直結することから、世界で競争になっています。mdxはその第一歩ですが、日本の今後10年以上にわたる科学技術の進展を背負っていると言っても過言ではありません。しかもこの取り組みは海外と比べても先進的なものと言えます。この事業を皆さんに広く知っていただき、研究者にはぜひ使っていただきたいと思います。

(取材=田井中麻都佳、文=平塚裕子)

関連リンク
第93号の記事一覧