* 日本語形態素解析システム JUMAN++ [#l6dc5533]

JUMAN++は言語モデルを利用した高性能な形態素解析器です.言語モデルとして Recurrent Neural Network Language Model(RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」により開発されました.

** 使用方法 [#zfb55bba]

たとえば,次のようなテキストを入力すると,

 % cat sample.txt
 外国人参政権
 私もあさって日曜最終日

以下の解析結果が得られます.
 % cat sample.txt | jumanpp
 外国 がいこく 外国 名詞 6 普通名詞 1 * 0 * 0 "代表表記:外国/がいこく カテゴリ:場所-その他 ドメイン:政治"
 人 じん 人 名詞 6 普通名詞 1 * 0 * 0 "代表表記:人/じん 漢字読み:音 カテゴリ:人"
 @ 人 ひと 人 名詞 6 普通名詞 1 * 0 * 0 "代表表記:人/ひと 漢字読み:訓 カテゴリ:人"
 参政 さんせい 参政 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:参政/さんせい カテゴリ:抽象物 ドメイン:政治"
 権 けん 権 名詞 6 普通名詞 1 * 0 * 0 "代表表記:権/けん 漢字読み:音 カテゴリ:抽象物"
 EOS
 私 わたし 私 名詞 6 普通名詞 1 * 0 * 0 "代表表記:私/わたし 漢字読み:訓 カテゴリ:人"
 も も も 助詞 9 副助詞 2 * 0 * 0 NIL
 あさって あさって あさって 名詞 6 時相名詞 10 * 0 * 0 "代表表記:明後日/あさって カテゴリ:時間"
 日曜 にちよう 日曜 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日曜/にちよう カテゴリ:時間"
 最終 さいしゅう 最終だ 形容詞 3 * 0 ナノ形容詞 22 語幹 1 "代表表記:最終だ/さいしゅうだ 反義:形容詞:最初だ/さいしょだ"
 日 ひ 日 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日/ひ 漢字読み:訓 弱時相名詞 カテゴリ:時間"
 @ 日 にち 日 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日/にち 漢字読み:音 カテゴリ:時間"
 EOS

詳しい使い方はマニュアルを参照してください.
なお,リソースファイルは定期的に更新し,本ページにて最新版を公開する予定です.

&br;


** 動作環境 [#be3e2f71]

- OS: Unix系システム もしくは Microsoft Windows(XP以降)
- メモリ: 4GB以上
- ディスク: 2GB以上の空き容量

&br;

** ダウンロード [#baf6ff29]
- [[JUMAN++ Ver.1.0:http://dummy/]] (bzip2圧縮; xxx bytes)

- [[JUMAN++ リソースファイル v1.0-20160831:http://dummy/]] (bzip2圧縮; xxx bytes)

- [[JUMAN++ マニュアル v1.0:http://dummy/]] (pdf)

- [[情報処理学会のスライド:http://dummy/]] (pdf)~

** 部分アノテーション [#w80dff32]
本システムでは,明らかな解析の誤りについては専門的な知識がなくとも修正
できるように,一部の形態素の境界のみを人手で与えて学習しなおす機能が付いています.

- [[部分アノテーション共有ページ:http://dummy/]]

** 更新履歴 [#z9dc3378]

- 1.0 - 2016/8/31 公開予定

&br;

** デモ [#u26250d1]
- [[JUMAN++を試してみる:http://lotus.kuee.kyoto-u.ac.jp/demo/jumanpp.cgi]]

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS