* 日本語形態素解析システム JUMAN++ [#l6dc5533] JUMAN++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model(RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました. ** 使用方法 [#zfb55bba] たとえば,次のようなテキストを入力すると, % cat sample.txt 外国人参政権 私もあさって日曜最終日 以下の解析結果が得られます. % cat sample.txt | jumanpp 外国 がいこく 外国 名詞 6 普通名詞 1 * 0 * 0 "代表表記:外国/がいこく カテゴリ:場所-その他 ドメイン:政治" 人 じん 人 名詞 6 普通名詞 1 * 0 * 0 "代表表記:人/じん 漢字読み:音 カテゴリ:人" @ 人 ひと 人 名詞 6 普通名詞 1 * 0 * 0 "代表表記:人/ひと 漢字読み:訓 カテゴリ:人" 参政 さんせい 参政 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:参政/さんせい カテゴリ:抽象物 ドメイン:政治" 権 けん 権 名詞 6 普通名詞 1 * 0 * 0 "代表表記:権/けん 漢字読み:音 カテゴリ:抽象物" EOS 私 わたし 私 名詞 6 普通名詞 1 * 0 * 0 "代表表記:私/わたし 漢字読み:訓 カテゴリ:人" も も も 助詞 9 副助詞 2 * 0 * 0 NIL あさって あさって あさって 名詞 6 時相名詞 10 * 0 * 0 "代表表記:明後日/あさって カテゴリ:時間" 日曜 にちよう 日曜 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日曜/にちよう カテゴリ:時間" 最終 さいしゅう 最終だ 形容詞 3 * 0 ナノ形容詞 22 語幹 1 "代表表記:最終だ/さいしゅうだ 反義:形容詞:最初だ/さいしょだ" 日 ひ 日 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日/ひ 漢字読み:訓 弱時相名詞 カテゴリ:時間" @ 日 にち 日 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日/にち 漢字読み:音 カテゴリ:時間" EOS 詳しい使い方はマニュアルを参照してください. なお,リソースファイルは定期的に更新し,本ページにて最新版を公開する予定です. &br; ** 動作環境 [#be3e2f71] - OS: Linux( Cent OS 6.7 で動作を確認) - メモリ: 4GB以上 - ディスク: 2GB以上の空き容量 &br; ** ダウンロード [#baf6ff29] - [[JUMAN++ Ver.1.0p2:http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.0p2.tar.xz]] (xz圧縮, 1.2GB) - [[JUMAN++ マニュアル v1.0p2:http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-manual-1.0p2.pdf]] (pdf) - [[発表資料:http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/doc/jumanpp-slide.pdf]] (pdf)~ ** 部分アノテーション [#w80dff32] 本システムでは,明らかな解析の誤りについては専門的な知識がなくとも修正できるように,一部の形態素の境界のみを人手で与えて学習しなおす機能が付いています. 作成した部分アノテーションは以下のページで共有,公開することができます. - [[部分アノテーション共有ページ:http://lotus.kuee.kyoto-u.ac.jp/~morita/JUMAN++/pannotation.html]] ** 更新履歴 [#z9dc3378] - 1.0p - 2016/9/16 preview版公開 &br; ** 参考文献 [#e31ad48f] - Hajime Morita, Daisuke Kawahara and Sadao Kurohashi: Morphological Analysis for Unsegmented Languages using Recurrent Neural Network Language Model, Proceedings of EMNLP 2015: Conference on Empirical Methods in Natural Language Processing, pp.2292-2297, (2015.9.17). [[pdf:http://aclweb.org/anthology/D/D15/D15-1276.pdf]] - 森田一, 黒橋 禎夫: RNN 言語モデルを用いた日本語形態素解析の実用化, 情報処理学会 第78回全国大会, 慶應義塾大学 矢上キャンパス, (2016.3.10). [[pdf:http://nlp.ist.i.kyoto-u.ac.jp/member/morita/paper/IPSJ2016_morita.pdf]] ** デモ [#u26250d1] - [[JUMAN++を試してみる:http://lotus.kuee.kyoto-u.ac.jp/demo/jumanpp.cgi]]