* 日本語SNLI(JSNLI)データセット [#lc2a2611]

本データセットは自然言語推論 (NLI) の標準的ベンチマークである [[SNLI:https://nlp.stanford.edu/projects/snli/]] を日本語に翻訳したものです。SNLI に機械翻訳を適用した後、評価データに人手による正確なフィルタリング、学習データに計算機による自動フィルタリングを施すことで構築されています。
本データセットは自然言語推論 (NLI) の標準的ベンチマークである [[SNLI:https://nlp.stanford.edu/projects/snli/]]を日本語に翻訳したものです。SNLI に機械翻訳を適用した後、評価データに人手による正確なフィルタリング、学習データに計算機による自動フィルタリングを施すことで構築されています。

データセットは TSV フォーマットで、各行がラベル、前提、仮説の三つ組を表します。前提、仮説は JUMAN++ によって形態素分割されています。以下に例をあげます。

 entailment      自転車 で 2 人 の 男性 が レース で 競い ます 。       人々 は 自転車 に 乗って います 。

学習データは536,120ペア、評価データは3,917ペアです。詳細は参考文献を参照してください。
データセットは学習データを全くフィルタリングしていないものと、フィルタリングしたものの中で最も精度が高かったものの2種類を公開しています。データサイズは、フィルタリング前の学習データが549,097ペア、フィルタリング後の学習データが536,120ペア、評価データはどちらも3,917ペアです。詳細は参考文献を参照してください。

** ライセンス [#g918d346]
このデータセットのライセンスは、SNLIのライセンスと同じ [[CC BY-SA 4.0:https://creativecommons.org/licenses/by-sa/4.0/]] に従います。SNLIに関しては参考文献を参照してください。



** ダウンロード [#wb2254b1]
- [[日本語SNLI (JSNLI) データセット (13.5MB) :http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JSNLI/jsnli.zip]]

** 更新履歴 [#j9b68652]
- 2020/07/15 公開


** 参考文献 [#s6dbeb9b]
 
吉越 卓見, 河原 大輔, 黒橋 禎夫:
- 吉越 卓見, 河原 大輔, 黒橋 禎夫:
機械翻訳を用いた自然言語推論データセットの多言語化,
第244回自然言語処理研究会,  (2020.7.3).

- Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. 2015. A large annotated corpus for learning natural language inference. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP). 

- Young, Peter, et al. "From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions." Transactions of the Association for Computational Linguistics 2 (2014): 67-78.


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS