KNP/FAQ - LANGUAGE MEDIA PROCESSING LAB

KNPに関するFAQ †

JUMANへの入力時に一文一行にして、その解析結果をKNPに入力してください。なお、構文・格解析(デフォルト)は文単位で独立して解析しますが、照応解析(-anaphoraオプション)は複数文からなる文脈を参照しながら解析します。

メモリが不足しています。2GB以上のメモリを搭載したPCで動かすことを推奨しています。また、非常に長い文を入力した場合には4GB程度必要になることもあります。

一文の長さの上限は200形態素(300〜400文字程度)になります。それ以上の長さの文が入力されると「ERROR:Cannot make mrph」というエラーをコメント行に出力して、その文の解析をスキップします。

JUMAN/KNPでは、入力文が全角文字で記述されていることを前提としています。半角スペースなどの半角文字は全角文字に変換してから入力してください。

以下は常に「体言」です．

助詞が後続するなど条件によっては，

も「体言」になります．

詳しくは knp/rule/bnst_basic.rule の

 ;;;;; 用言，体言，その他の区別

と書いてある辺りを御覧ください．

<ID:>タグは、節の表層的なタイプを表しています。たとえば、「～と比べると、」という節に対して、<ID:～と>を付与しています。多少の汎化を行っており、「～と比べると」のように読点がなくても、同じ<ID:～と>が付与されます。

<ID:>タグの付与は、KNPのrule/bnst_type.phraseというルールに従って行っており、 "ID:"でgrepしていただければ、どのような種類があり、どのような表現に付与しているかがわかると思います。全部で150種類程度あります。

<連体節>もしくは<係:連格>は述語の連体形に付与しており、いわゆる連体修飾節を表しています。それに対して、<連体修飾>は、「名詞+の」、連体詞、述語の連体形など、体言・用言を含むあらゆる連体修飾に対して付与しています。従って、<連体節>が付いていれば<連体修飾>が付いているはずです。

<連体修飾>の付与ルールは、mrph_filter.ruleの<Ｔ連体修飾>が元になっています。 <Ｔ連体修飾>を元に、bnst_basic.ruleで<連体修飾>を付与しています。 (ちなみに、<Ｔ連体修飾>の頭の「Ｔ」は最終結果に表示しないという意味です。)