日本語形態素解析システム Juman++

Juman++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました.

使用方法

たとえば,次のようなテキストを入力すると,

% cat sample.txt
外国人参政権
私もあさって日曜最終日

以下の解析結果が得られます.

% cat sample.txt | jumanpp
外国 がいこく 外国 名詞 6 普通名詞 1 * 0 * 0 "代表表記:外国/がいこく カテゴリ:場所-その他 ドメイン:政治"
人 じん 人 名詞 6 普通名詞 1 * 0 * 0 "代表表記:人/じん 漢字読み:音 カテゴリ:人"
@ 人 ひと 人 名詞 6 普通名詞 1 * 0 * 0 "代表表記:人/ひと 漢字読み:訓 カテゴリ:人"
参政 さんせい 参政 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:参政/さんせい カテゴリ:抽象物 ドメイン:政治"
権 けん 権 名詞 6 普通名詞 1 * 0 * 0 "代表表記:権/けん 漢字読み:音 カテゴリ:抽象物"
EOS
私 わたし 私 名詞 6 普通名詞 1 * 0 * 0 "代表表記:私/わたし 漢字読み:訓 カテゴリ:人"
も も も 助詞 9 副助詞 2 * 0 * 0 NIL
あさって あさって あさって 名詞 6 時相名詞 10 * 0 * 0 "代表表記:明後日/あさって カテゴリ:時間"
日曜 にちよう 日曜 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日曜/にちよう カテゴリ:時間"
最終 さいしゅう 最終だ 形容詞 3 * 0 ナノ形容詞 22 語幹 1 "代表表記:最終だ/さいしゅうだ 反義:形容詞:最初だ/さいしょだ"
日 ひ 日 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日/ひ 漢字読み:訓 弱時相名詞 カテゴリ:時間"
@ 日 にち 日 名詞 6 時相名詞 10 * 0 * 0 "代表表記:日/にち 漢字読み:音 カテゴリ:時間"
EOS

詳しい使い方はマニュアルを参照してください. なお,リソースファイルは定期的に更新し,本ページにて最新版を公開する予定です.


動作環境

必須ツール・ライブラリ


ダウンロード

旧バージョン

部分アノテーション

本システムでは,明らかな解析の誤りについては専門的な知識がなくとも修正できるように,一部の形態素の境界のみを人手で与えて学習しなおす機能が付いています.

作成した部分アノテーションは以下のページで共有,公開することができます.

更新履歴


ライセンス

参考文献

デモ

バグ、改善案の報告