研究 / Research

コンテンツ科学研究系

菅原 朔
SUGAWARA Saku
コンテンツ科学研究系 助教
学位:博士(情報理工学)
専門分野:コンテンツ基盤

サイエンスライターによる研究紹介

言語理解研究の着実な進展に貢献

コンピューターは人間の言葉を理解しているか?

 私は、「言葉の意味がわかる」とはどのようなことなのか、言語理解という曖昧なものに形を与えたいという思いから、自然言語処理(人間の言葉をコンピューターで処理する技術)の研究をしています。
 この分野の大きな目標のひとつは、人間のように文章を理解するシステムを作ることです。一時期の人工知能ブームでは、「やがて人の知能を超える人工知能が出現する」などと話題になりましたが、実際の機械学習はそれほど簡単なものではありません。人工知能の性能に誤解があると、社会で応用するときに大きな問題が起こるかもしれません。誇張のない正確な性能が示される必要があります。
 システムの性能を試す方法の1つに、国語の文章題のような形式の質問に答えさせる「機械読解タスク」があります。近年は機械学習技術の進展にともなって数万単位の問題を備えたデータセットが(主に英語で)多く提案され、世界中の大学やIT企業の研究者がそれらを使ってシステムの開発を進めています。中には人間と同程度の性能と評価されるシステムも登場していますが、このような評価方法には課題が残っています。

機械読解タスクの正答率だけでは、理解度は評価できない

 それは主に2つあり、1つは、システムが課題文をどの程度理解しているかその詳細がわからないことです。性能は質問の正答率でしか評価されないことが多いため、文章理解に必要な基盤的な能力(指示表現が何を指すか当てることや、否定文・条件文が論理的に理解できることなど)があるかどうか、具体的にわからないのです。
 もう1つは、システムが文章を理解せずに正答している可能性があることです。たとえば課題文の末尾に「質問文によく似た紛らわしい文 (ただし本来の正答は変わらない)」を人手で作成して追加すると、システムの性能が大きく低下することがあります。このような場合は、質問文に出てくる単語を課題文から探して、それが近くにある答えを選んで正答している可能性があります(近年の機械学習モデルは特にそういうことが得意です)。

高度な言語理解がいらない質問が多い

 私はこれらの課題を解決するため、1つ目については、読解に必要な能力を10ほど定義して、その質問を解くのにどの能力が必要になるか人手で分析できるようにしました。2つ目については、「質問文との単語の一致を見るだけで簡単に解けてしまう質問」を特定できるようにしました。
 また両者をまとめる形で、複雑な推論・能力が必要とされる可能性のある質問を特定するための自動的な手法を提案しました。たとえば「課題文のそれぞれの文の語順をランダムに並べ替える」ということをします。その状態でもし質問が解けるならば、その質問は文章の主語・述語などが正確に分からなくても解けてしまうと考えられます。
 このような手法をいくつか考案して既存のデータセットに適用したところ、これまで正解されている質問の多くは、推論・文法の観点から高度な言語理解が要求されているわけではなさそうである、という観察を得ました。

具体的な読解能力が把握できる評価システムの構築をめざす

sugawara_zu.png
読解問題の例と既存の評価手法の課題

 今後はこのような手法を応用して、高度な言語理解を必要としない簡単な質問を取り除き、基盤的な読解能力の有無を特定できるよう、実際のデータセット上で分析を進めます。「この質問が解けることで何ができるようになったのか」がなるべく明らかにできるような評価方法を確立して、言語理解研究の着実な進展に貢献したいと考えます。


取材・構成 平塚裕子

注目コンテンツ / SPECIAL