FrontPage のバックアップ(No.5)
京都大学情報学研究科--NTTコミュニケーション科学基礎研究所 共同研究ユニット
概要
京都大学情報学研究科と日本電信電話株式会社NTTコミュニケーション科学基礎研究所は、 共同研究ユニットという新しい研究組織を構成して自然言語処理の研究を共同で進めることに合意し、 2004年度から5年間の計画で、研究活動を開始しました。 この研究ユニットは、NTT京阪奈ビルに研究拠点を構え、ここを中心として、 実質的な研究交流と共同研究を行っていくことを目的としました。
また、京都大学とNTTという2つの組織の共同研究という枠を越え、 けいはんな地区を起点とした他の研究機関の研究者にも参加いただくオープンな共同研究ユニットとして 活動して参りました。
主な研究テーマ
グローバルコミュニケーションを支える言語処理技術の研究として、主に、深い意味解析を指向する言語資源の開発を行って参りました。
MeCab
- 言語, 辞書,コーパスに依存しない汎用的設計の形態素解析器。パラメータの推定にCRF。
- http://mecab.sourceforge.net/
複合辞用例データベース (MUST v1.0)
- 複合辞の機械処理を研究するための基礎データ。全337小項目×最大50用例。
- http://nlp.iit.tsukuba.ac.jp/must/
慣用句言語資源の構築
- 慣用句の意味と文字通りの意味とを区別した上での検出と格解析のための言語資源の構築。
- 慣用句コーパスの詳細
- 慣用句コーパスブラウザ
基本語ドメイン辞書
- 基本語約30,000語に<政治><ビジネス><スポーツ>などのドメインラベルを付与したもの。
- 基本語ドメイン辞書を実装している形態素解析器JUMAN
解析済みブログコーパス
- 4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4,186文の解析済みブログコーパス。形態素、構文、格・省略・照応、評判情報がアノテーションされている。
- 解析済みブログコーパス (4.2MB)
RTEを用いた評判分析
- テキスト含意認識技術を駆使した評判分析システム。
謝辞
長尾眞元京都大学総長(現国立国会図書館長)、片桐滋元NTTコミュニケーション科学基礎研究所所長(現同志社大学教授)、石田亨京都大学教授には、本共同研究ユニット発足当初から今日に至るまで、多くのご支援を賜わりました。 ここに深く感謝申し上げます。