日本語SNLI(JSNLI)データセットのバックアップ(No.2)

日本語SNLI(JSNLI)データセット †

本データセットは自然言語推論 (NLI) の標準的ベンチマークである SNLI を日本語に翻訳したものです。SNLI に機械翻訳を適用した後、評価データに人手による正確なフィルタリング、学習データに計算機による自動フィルタリングを施すことで構築されています。

データセットは TSV フォーマットで、各行がラベル、前提、仮説の三つ組を表します。前提、仮説は JUMAN++ によって形態素分割されています。以下に例をあげます。

entailment 自転車で２人の男性がレースで競います。人々は自転車に乗っています。

学習データは536,120ペア、評価データは3,917ペアです。詳細は参考文献を参照してください。

ダウンロード †

更新履歴 †

2020/07/15 公開

参考文献 †

吉越卓見, 河原大輔, 黒橋禎夫: 機械翻訳を用いた自然言語推論データセットの多言語化, 第244回自然言語処理研究会, (2020.7.3).