日本語SNLI(JSNLI)データセットのバックアップ差分(No.2)

* 日本語SNLI(JSNLI)データセット [#lc2a2611] 本データセットは英語の自然言語推論(NLI)データセットであるSNLI(Stanford Natural Language Inference)を日本語に機械翻訳したデータセットです。評価データはクラウドソーシングによって正確なデータセットになるようにフィルタリングを行い、学習データは計算機によって効率的にフィルタリングを行いました。本データセットは自然言語推論 (NLI) の標準的ベンチマークである [[SNLI:https://nlp.stanford.edu/projects/snli/]] を日本語に翻訳したものです。SNLI に機械翻訳を適用した後、評価データに人手による正確なフィルタリング、学習データに計算機による自動フィルタリングを施すことで構築されています。データセットは前提、仮説のペアとそれに対応する3つのラベル(entailment, contradicton, neutral)からなっています。以下に例を挙げます。データセットは TSV フォーマットで、各行がラベル、前提、仮説の三つ組を表します。前提、仮説は JUMAN++ によって形態素分割されています。以下に例をあげます。 entailment 自転車で２人の男性がレースで競います。人々は自転車に乗っています。一行が1ペアで、カラムはTab区切りになっています。また、前提、仮説はJUMAN++によってそれぞれ単語毎にスペース区切りされています。学習データは536,120ペア、評価データは3,917ペアです。詳細は参考文献を参照してください。 - 1カラム目ラベル - 2カラム目前提 - 3カラム目仮説学習データは536,120ペア、評価データは3,917ペアです。詳細については参考文献を参照してください。 ** ダウンロード [#wb2254b1] - [[日本語SNLI(JSNLI)データセット(13.5MB):http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JSNLI/jsnli.zip]] - [[日本語SNLI (JSNLI) データセット (13.5MB) :http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JSNLI/jsnli.zip]] ** 更新履歴 [#j9b68652] - 2020/07/16 公開 - 2020/07/15 公開 ** 参考文献 [#s6dbeb9b] 吉越卓見, 河原大輔, 黒橋禎夫: 機械翻訳を用いた自然言語推論データセットの多言語化, 第244回自然言語処理研究会, (2020.7.3).