FrontPage のバックアップの現在との差分(No.4)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
&size(25){京都大学情報学研究科--NTTコミュニケーション科学基礎研究所 共同研究ユニット};

#contentsx

*概要 [#x3864581]

京都大学情報学研究科と日本電信電話株式会社NTTコミュニケーション科学基礎研究所は、
共同研究ユニットという新しい研究組織を構成して自然言語処理の研究を共同で進めることに合意し、
2004年度から5年間の計画で、研究活動を開始しました。
この研究ユニットは、NTT京阪奈ビルに研究拠点を構え、ここを中心として、
実質的な研究交流と共同研究を行っていくことを目的としました。

また、京都大学とNTTという2つの組織の共同研究という枠を越え、
けいはんな地区を起点とした他の研究機関の研究者にも参加いただくオープンな共同研究ユニットとして
活動して参りました。

-[[沿革]]

*研究テーマ [#j9e308de]
*主な研究テーマ [#j9e308de]

グローバルコミュニケーションを支える言語処理技術の研究として、主に、深い意味解析を指向する言語資源の開発を行って参りました。

**MeCab [#hb629f4e]
-Developer
--工藤拓
-Description
--言語, 辞書,コーパスに依存しない汎用的設計の形態素解析器。
--パラメータの推定にCRF。
-URL
--http://mecab.sourceforge.net/

**MeCab [#hb629f4e]
-言語, 辞書,コーパスに依存しない汎用的設計の形態素解析器。パラメータの推定にCRF。
-http://mecab.sourceforge.net/
**複合辞用例データベース (MUST v1.0) [#o465220f]
-Developer
--松吉先生
--宇津呂先生
--佐藤先生
--土屋先生
-Description
--複合辞の機械処理を研究するための基礎データ。
--全337小項目×最大50用例。
-URL
--http://nlp.iit.tsukuba.ac.jp/must/

**高次元素性を用いた統計的機械翻訳 [#qc756053]
-Developer
--塚田さん
-Description
--高次元素性を用いて機械翻訳モデルを学習する。
-URL
--

**慣用句言語資源 [#c252c1bb]
-Developer
--橋本
--河原さん
-Description
--慣用句とリテラルを区別した検出と格解析のための資源。
--約100,000文のラベル付きコーパス。
--基本慣用句約1,000句が対象。
--KNPに組み込み予定。
-URL
--http://openmwe.sourceforge.jp/

-複合辞の機械処理を研究するための基礎データ。全337小項目×最大50用例。
-http://nlp.iit.tsukuba.ac.jp/must/
**慣用句言語資源の構築 [#c252c1bb]
-慣用句の意味と文字通りの意味とを区別した上での検出と格解析のための言語資源の構築。
-[[慣用句コーパスの詳細>http://openmwe.sourceforge.jp/]]
-[[慣用句コーパスブラウザ>http://openmwe.sourceforge.jp/cgi-bin/corpus_browser.cgi]]
**基本語ドメイン辞書 [#pd20aa43]
-Developer
--橋本
--黒橋先生
-Description
--JUMAN内容語30,000語に<政治><ビジネス><スポーツ>などのドメインラベルを付与したもの。
--JUMANに組み込み済み。
--基本語ドメイン辞書を応用した未知語/文章のドメイン推定
-URL
--http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html
--http://isyus2.yz.yamagata-u.ac.jp/~ch/cgi-bin/domain.cgi

-基本語約30,000語に<政治><ビジネス><スポーツ>などのドメインラベルを付与したもの。
//-[[基本語ドメイン辞書を用いた、単語・文章のドメイン推定>http://reed.kuee.kyoto-u.ac.jp/~hasimoto/cgi-bin/domain.cgi]]
-[[基本語ドメイン辞書を実装している形態素解析器:JUMAN>http://nlp.ist.i.kyoto-u.ac.jp/index.php?%e6%97%a5%e6%9c%ac%e8%aa%9e%e5%bd%a2%e6%85%8b%e7%b4%a0%e8%a7%a3%e6%9e%90%e3%82%b7%e3%82%b9%e3%83%86%e3%83%a0JUMAN]]
//-[[詳細>基本語ドメイン辞書]]
**解析済みブログコーパス [#ga739fe2]
-Developer
--黒橋先生
--河原さん
--橋本
--新里さん
-Description
--4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4208文(括弧取り出し後の文数)のブログコーパス。
--京大の学生にアルバイトとして書いてもらった。
//--本文とアノテーションの全てが無料で利用可能。
-URL
--http://nlp.kuee.kyoto-u.ac.jp/blog/KUNTT_blog/

**音声対話コーパス [#cf758514]

-4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4,186文の解析済みブログコーパス。形態素、構文、格・省略・照応、評判情報がアノテーションされている。
//-[[収集したブログ記事>http://nlp.kuee.kyoto-u.ac.jp/blog/KUNTT_blog/]]
//-[[解析済みブログコーパス>http://nlp.kuee.kyoto-u.ac.jp/~hasimoto/blog-annotation/out-html/]]
-[[解析済みブログコーパス(EUC-JP版):http://nlp.ist.i.kyoto-u.ac.jp/kuntt/KNBC_v1.0_090925.tar.bz2]] (4.2MB)
-[[解析済みブログコーパス(UTF-8版):http://nlp.ist.i.kyoto-u.ac.jp/kuntt/KNBC_v1.0_090925_utf8.tar.bz2]] (4.7MB)
**RTEを用いた評判分析 [#zad14be6]

-テキスト含意認識技術を駆使した評判分析システム。
//メインの研究テーマではないので,統計翻訳は削除
//**高次元素性を用いた統計的機械翻訳 [#qc756053]
//-大規模分散並列環境により実現した、高次元素性を用いた機械翻訳モデルの学習。
*謝辞 [#e9af4078]
長尾眞元京都大学総長(現国立国会図書館長)、片桐滋元NTTコミュニケーション科学基礎研究所所長(現同志社大学教授)、石田亨京都大学教授には、本共同研究ユニット発足当初から今日に至るまで、多くのご支援を賜わりました。
ここに深く感謝申し上げます。