日本語SNLI(JSNLI)データセット

本データセットは自然言語推論 (NLI) の標準的ベンチマークである SNLIを日本語に翻訳したものです。SNLI に機械翻訳を適用した後、評価データにクラウドソーシングによる正確なフィルタリング、学習データに計算機による自動フィルタリングを施すことで構築されています。

データセットは TSV フォーマットで、各行がラベル、前提、仮説の三つ組を表します。前提、仮説は JUMAN++ によって形態素分割されています。以下に例をあげます。

entailment      自転車 で 2 人 の 男性 が レース で 競い ます 。       人々 は 自転車 に 乗って います 。

データセットは学習データを全くフィルタリングしていないものと、フィルタリングした中で最も精度が高かったものの2種類を公開しています。データサイズは、フィルタリング前の学習データが549,097ペア、フィルタリング後の学習データが536,120ペア、評価データは3,917ペアです。詳細は参考文献を参照してください。

ライセンス

このデータセットのライセンスは、SNLIのライセンスと同じ CC BY-SA 4.0 に従います。SNLIに関しては参考文献を参照してください。

ダウンロード

本データセットに関するご質問は nl-resource あっと nlp.ist.i.kyoto-u.ac.jp 宛にお願いいたします。

更新履歴

参考文献