日本語SNLI(JSNLI)データセット - LANGUAGE MEDIA PROCESSING LAB

日本語SNLI(JSNLI)データセット †

本データセットは自然言語推論 (NLI) の標準的ベンチマークである SNLIを日本語に翻訳したものです。SNLI に機械翻訳を適用した後、評価データにクラウドソーシングによる正確なフィルタリング、学習データに計算機による自動フィルタリングを施すことで構築されています。

データセットは TSV フォーマットで、各行がラベル、前提、仮説の三つ組を表します。前提、仮説は JUMAN++ によって形態素分割されています。以下に例をあげます。

entailment 自転車で２人の男性がレースで競います。人々は自転車に乗っています。

データセットは学習データを全くフィルタリングしていないものと、フィルタリングした中で最も精度が高かったものの2種類を公開しています。データサイズは、フィルタリング前の学習データが548,014ペア、フィルタリング後の学習データが533,005ペア、評価データは3,916ペアです。詳細は参考文献を参照してください。

ライセンス †

このデータセットのライセンスは、SNLIのライセンスと同じ CC BY-SA 4.0 に従います。SNLIに関しては参考文献を参照してください。

ダウンロード †

本データセットに関するご質問は nl-resource あっと nlp.ist.i.kyoto-u.ac.jp 宛にお願いいたします。

更新履歴 †

1.1 - 2020/10/5 文区切りのバグおよび特殊記号の表記を修正、重複を削除

1.0 - 2020/7/15 公開

参考文献 †

吉越卓見, 河原大輔, 黒橋禎夫: 機械翻訳を用いた自然言語推論データセットの多言語化, 第244回自然言語処理研究会, (2020.7.3).

Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. 2015. A large annotated corpus for learning natural language inference. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).

Peter Young, Alice Lai, Micah Hodosh, and Julia Hockenmaier. "From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions." Transactions of the Association for Computational Linguistics 2 (2014): 67-78.