日本語SNLI(JSNLI)データセットのバックアップ(No.1)

日本語SNLI(JSNLI)データセット †

本データセットは英語の自然言語推論(NLI)データセットであるSNLI(Stanford Natural Language Inference)を日本語に機械翻訳したデータセットです。評価データはクラウドソーシングによって正確なデータセットになるようにフィルタリングを行い、学習データは計算機によって効率的にフィルタリングを行いました。

データセットは前提、仮説のペアとそれに対応する3つのラベル(entailment, contradicton, neutral)からなっています。以下に例を挙げます。

entailment 自転車で２人の男性がレースで競います。人々は自転車に乗っています。

一行が1ペアで、カラムはTab区切りになっています。また、前提、仮説はJUMAN++によってそれぞれ単語毎にスペース区切りされています。

1カラム目ラベル

2カラム目前提

3カラム目仮説

学習データは536,120ペア、評価データは3,917ペアです。詳細については参考文献を参照してください。

ダウンロード †

更新履歴 †

2020/07/16 公開

参考文献 †

吉越卓見, 河原大輔, 黒橋禎夫: 機械翻訳を用いた自然言語推論データセットの多言語化, 第244回自然言語処理研究会, (2020.7.3).