日本語構文・格・照応解析システム KNP †
KNPは日本語文の構文・格・照応解析を行うシステムです.形態素解析システムJUMANの解析結果(形態素列)を入力とし, 文節および基本句間の係り受け関係,格関係,照応関係を出力します.
係り受け関係,格関係および照応関係は,Webから自動構築した大規模格フレームに基づく確率的モデルにより決定します.
バージョン4.1の拡張点 (2013/12/20) [New!] †
- 照応解析機能の追加
- 固有表現解析の精度向上
- 名詞格フレーム辞書の大規模化 (70億文Webテキストから構築)
バージョン4.0の拡張点 (2012/01/12) †
- 格フレーム辞書の大規模化 (70億文Webテキストから構築)
- CRFに基づく固有表現解析機能の追加
- 類似度計算における分布類似度の利用
- UTF-8化
たとえば,次のようなテキストを入力すると,
% cat test.txt
クロールで泳いでいる少女を見た
望遠鏡で泳いでいる少女を見た
機内の楽しみって「おやつ」と「機内食」しかなく〜今まで満足したことなかったけど、フィリピンエアライン〜良かったよ!
以下の解析結果が得られます.
% juman < test.txt | knp
クロールで──┐
泳いでいる──┐
少女を──┐
見た
EOS
望遠──┐
鏡で──┐
泳いでいる──┐ │
少女を──┤
見た
EOS
機内の──┐
楽しみって──┐
「おやつ」と<P>─┐ │
「機内食」しか<P>─PARA──┤
なく〜──┐
今まで──┤
満足したことなかったけど、──┐
フィリピン──┐ │
エアライン〜──┤
良かったよ!
EOS
動作環境 †
- OS: Unix系システム もしくは Microsoft Windows(XP以降)
- メモリ: 1GB以上 (2GB以上を推奨)
- ディスク: 10GB以上の空き容量
ダウンロード †
- バインディング
- perl: 上記パッケージ同梱の knp-X.XX/perl 以下のものをお使い下さい
- python: PyKNP
ドキュメント †
- JUMAN/KNPのチュートリアル
(京都大学学術情報メディアセンター, メディア情報処理専修コース「自然言語処理技術」, 2009/09/30)
更新履歴 †
- 4.20 - 2020/04/19公開
- Juman++ 2.0.0 rc3の結果を入力できるように、対応するJUMAN文法ファイルを同梱し、defaultで利用
- JUMANがインストールされている場合はそちらが優先される。その場合に、同梱されている方を利用するにはconfigureのオプションに--with-included-jumanを付加
- 4.19 - 2018/03/13公開
- 4.18 - 2017/09/26公開
- 木構造描画用の半角罫線のタイプを「細二重線」から「細線」に変更
- -simpleオプション時の出力を微修正
- 4.17 - 2017/03/08公開
- デフォルト出力を木構造+解析結果featureの一部に変更
- 木構造の描画に半角罫線を使用 (従来の全角罫線を使用する場合はconfigureのオプションに--with-full-width-treeを付加)
- 固有表現解析のバグフィックス
- 共参照解析のみを行うオプション(-corefer)の追加
- 4.16 - 2015/12/02公開
- Mac OSの一部の環境でコンパイルに失敗する問題を修正
- -assignfオプションの出力のバグフィックス
- 4.15 - 2015/11/16公開
- 「する」の格フレーム数を制限することによって、80%程度の高速化
- 4.14 - 2015/07/13公開
- 共参照解析、固有表現解析のバグフィックス
- 照応解析オプション指定時に係り受けが変化する場合があったのを修正
- 4.13 - 2015/04/28公開
- 固有表現解析の学習オプション(-ne-train)の追加
- 4.12 - 2014/12/22公開
- 共参照解析のバグフィックス
- 固有表現解析のデフォルト化
- CRF++の同梱
- コンパイルエラーに対処
- 4.11 - 2014/01/20公開
- 4.1 - 2013/12/20公開
- 4.1 beta - 2013/03/13公開
- 4.01 - 2012/04/26公開
- buffer overrunなどのバグをフィックス
- 4.0 - 2012/01/12公開
デモ †
バグ、改善案の報告 †
参考文献 †
- Daisuke Kawahara and Sadao Kurohashi.
A Fully-Lexicalized Probabilistic Model for Japanese Syntactic and Case Structure Analysis,
In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL2006), pp.176-183, 2006.
- 河原大輔, 黒橋禎夫.
自動構築した大規模格フレームに基づく構文・格解析の統合的確率モデル,
自然言語処理, Vol.14, No.4, pp.67-81, 2007.
- Ryohei Sasano and Sadao Kurohashi.
A Discriminative Approach to Japanese Zero Anaphora Resolution with Large-scale Lexicalized Case Frames,
In Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP2011),
pp.758-766, 2011.
- 笹野遼平, 黒橋禎夫.
大規模格フレームを用いた識別モデルに基づく日本語ゼロ照応解析,
情報処理学会論文誌, Vol.52, No.12, pp.3328-3337, 2011.