JST CREST 研究領域 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」
テキストは、専門家によるデータの分析結果や解釈、ステークホルダーの批判・意見、種々の手続きやノウハウなどが表出されたものであり、人間の知識表現の根幹をなすものです。言語の計算機処理はウェブをはじめとする大規模テキストの活用によって長足の進歩を遂げつつありますが、本研究ではこれをさらに発展させ、知識に基づく頑健で高精度な構造的言語処理を実現し、これによって様々なテキストの横断的な関連付け、検索、比較を可能とする知識インフラを構築します。また、構築した注釈付与コーパス、辞書、言語解析システムの公開によって研究コミュニティによる一層の研究の加速を実現するとともに、これらの研究成果を企業のカスタマセンター業務等の社会の実問題に適用し、その有用性を評価します。
科学技術、社会構造が複雑化した現代では、専門家ですら関連する情報を網羅的に把握することができないという状況が生まれています。生命科学分野では、多数のポスドク研究員の人手によって論文抄録から生物学的事象のデータベースが作成されています。ボーダレス化した企業活動では、取引国の政情や気候予測などを総合的に分析しなければリスク回避ができません。本研究課題では、すでに億スケールでの言語処理、ウェブ情報分析に取り組んできた研究グループと、形式意味論、意味解析の理論的研究者が協力することにより、テキストの意味を捉えるという難問に正面から挑戦し、テキストからの因果関係知識等の自動抽出を実現します。これによって社会における知識循環を円滑化し、異なる分野間での知識の相互関連性の発見や、新しい知識・法則の発見を支援します。
今後、ビッグデータの統合的利活用による新産業・新サービスの創造が模索されていく中で、テキストは複数領域のデータ・知識を結びつける最大・最良の媒体であり、本研究で構築される構造的言語処理・知識インフラがその中心的役割を担うものとなります。