* Textual Entailment 評価データ [#n5b39364] 近年、RTE(Recognizing Textual Entailment)に関する研究が盛んに行われています。英語では、共通の評価データを用いてワークショップが開かれ、RTEの技術が進歩してきています。しかし、日本語ではそのような評価データが存在しません。そこで、我々は日本語のRTE評価データを作成しました。 評価データは約2700セットからなり、それぞれに4値の推論判定を付与しています。また、それぞれの評価セットを、包含、語彙(体言)、語彙(用言)、構文、推論の5つのカテゴリに分類しています。以下に例をあげます。 15 語彙(体言):下位→上位 ◎ あの人は呼吸器専門医だ。 あの人は医者だ。 1行が1セットで、カラムはスペース区切りになっており、それぞれのカラムは以下を表しています。 - 1カラム目 ID - 2カラム目 カテゴリ:サブカテゴリ - 3カラム目 推論判定 - 4カラム目 テキスト - 5カラム目 仮説 詳しくは以下の[小谷2008]の2節を参照下さい。また、[小谷2009]では我々が開発している推論認識システムをこの評価セットを用いて評価しています。 ** ダウンロード [#g7a21559] - [[Textual Entailment 評価データ:http://nlp.kuee.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.kuee.kyoto-u.ac.jp/nl-resource/rte/entail_evaluation_set.txt&name=entail_evaluation_set.txt]] (10/03/31 updated, 199K) ご意見、ご質問は shibata あっと i.kyoto-u.ac.jp 宛にお願いいたします。 ** 参考文献 [#k1a46132] - 小谷 通隆, 柴田 知秀, 中田 貴之, 黒橋 禎夫.~ 日本語Textual Entailmentのデータ構築と自動獲得した類義表現に基づく推論関係の認識, 言語処理学会 第14回年次大会, pp.1140-1143 (2008.3). - 小谷 通隆, 柴田 知秀, 黒橋 禎夫.~ 言い換え表現の述語項構造への正規化とテキスト含意関係認識での利用, 言語処理学会 第15回年次大会, pp.260-263 (2009.3).