FrontPage のバックアップ(No.4)
京都大学情報学研究科--NTTコミュニケーション科学基礎研究所 共同研究ユニット
概要
京都大学情報学研究科と日本電信電話株式会社NTTコミュニケーション科学基礎研究所は、 共同研究ユニットという新しい研究組織を構成して自然言語処理の研究を共同で進めることに合意し、 2004年度から5年間の計画で、研究活動を開始しました。 この研究ユニットは、NTT京阪奈ビルに研究拠点を構え、ここを中心として、 実質的な研究交流と共同研究を行っていくことを目的としました。
また、京都大学とNTTという2つの組織の共同研究という枠を越え、 けいはんな地区を起点とした他の研究機関の研究者にも参加いただくオープンな共同研究ユニットとして 活動して参りました。
研究テーマ
グローバルコミュニケーションを支える言語処理技術の研究として、主に、深い意味解析を指向する言語資源の開発を行って参りました。
MeCab?
- Developer
- 工藤拓
- Description
- 言語, 辞書,コーパスに依存しない汎用的設計の形態素解析器。
- パラメータの推定にCRF。
- URL
複合辞用例データベース (MUST v1.0)
- Developer
- 松吉先生
- 宇津呂先生
- 佐藤先生
- 土屋先生
- Description
- 複合辞の機械処理を研究するための基礎データ。
- 全337小項目×最大50用例。
- URL
高次元素性を用いた統計的機械翻訳
- Developer
- 塚田さん
- Description
- 高次元素性を用いて機械翻訳モデルを学習する。
- URL
慣用句言語資源
- Developer
- 橋本
- 河原さん
- Description
- 慣用句とリテラルを区別した検出と格解析のための資源。
- 約100,000文のラベル付きコーパス。
- 基本慣用句約1,000句が対象。
- KNPに組み込み予定。
- URL
基本語ドメイン辞書
- Developer
- 橋本
- 黒橋先生
- Description
- JUMAN内容語30,000語に<政治><ビジネス><スポーツ>などのドメインラベルを付与したもの。
- JUMANに組み込み済み。
- 基本語ドメイン辞書を応用した未知語/文章のドメイン推定
- URL
解析済みブログコーパス
- Developer
- 黒橋先生
- 河原さん
- 橋本
- 新里さん
- Description
- 4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4208文(括弧取り出し後の文数)のブログコーパス。
- 京大の学生にアルバイトとして書いてもらった。
- URL