- 追加された行はこの色です。
- 削除された行はこの色です。
* 日本語SNLI(JSNLI)データセット [#lc2a2611]
本データセットは英語の自然言語推論(NLI)データセットであるSNLI(Stanford Natural Language Inference)を日本語に機械翻訳したデータセットです。評価データはクラウドソーシングによって正確なデータセットになるようにフィルタリングを行い、学習データは計算機によって効率的にフィルタリングを行いました。
データセットは前提、仮説のペアとそれに対応する3つのラベル(entailment, contradicton, neutral)からなっています。以下に例を挙げます。
entailment 自転車 で 2 人 の 男性 が レース で 競い ます 。 人々 は 自転車 に 乗って います 。
一行が1ペアで、カラムはTab区切りになっています。また、前提、仮説はJUMAN++によってそれぞれ単語毎にスペース区切りされています。
- 1カラム目 ラベル
- 2カラム目 前提
- 3カラム目 仮説
学習データは536,120ペア、評価データは3,917ペアです。詳細については参考文献を参照してください。
** ダウンロード [#wb2254b1]
- [[日本語SNLI(JSNLI)データセット(13.5MB):http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JSNLI/jsnli.zip]]
** 更新履歴 [#j9b68652]
- 2020/07/16 公開
** 参考文献 [#s6dbeb9b]
吉越 卓見, 河原 大輔, 黒橋 禎夫:
機械翻訳を用いた自然言語推論データセットの多言語化,
第244回自然言語処理研究会, (2020.7.3).