Textual Entailment 評価データ

近年、RTE(Recognizing Textual Entailment)に関する研究が盛んに行われています。英語では、共通の評価データを用いてワークショップが開かれ、RTEの技術が進歩してきています。しかし、日本語ではそのような評価データが存在しません。そこで、我々は日本語のRTE評価データを作成しました。

(注: 現在ではRITERITE2で日本語RTEの評価セットが公開されています。それらの評価セットは新聞やWikipediaなどの実際の文から作成されており、現在の自然言語処理技術では非常に難しい問題が多く含まれています。一方、我々の評価セットは人手で作成したもので、ほとんどの問題において表現のずれは1箇所であり、RITEやRITE2のデータに比べてやさしい問題になっています。)

評価データは約2700セットからなり、それぞれに4値の推論判定を付与しています。また、それぞれの評価セットを、包含、語彙(体言)、語彙(用言)、構文、推論の5つのカテゴリに分類しています。以下に例をあげます。

15 語彙(体言):下位→上位 ◎ あの人は呼吸器専門医だ。 あの人は医者だ。

1行が1セットで、カラムはスペース区切りになっており、それぞれのカラムは以下を表しています。

詳しくは以下の[小谷2008]の2節を参照下さい。また、[小谷2009]では我々が開発している推論認識システムをこの評価セットを用いて評価しています。

ダウンロード

参考文献