KUCI のバックアップ(No.4) - LANGUAGE MEDIA PROCESSING LAB

京都大学常識推論データセット(KUCI) †

本データセットはウェブコーパス7.1億文から構築された日本語常識推論データセットです。
基本イベント間の蓋然的(=ある事柄がある程度起こりうる/真である)関係を問う多肢選択式問題10.4万問から成ります。
これらの問題は、クラウドソーシングによって検証された蓋然的関係を持つイベントペアから自動生成されています。
例えば、次のような問題が含まれます:

電池の減りはやはり早いので、 a. 実際の半導体製造装置は実現しません b. 今回は期間限定でのお届けになります c. 原子炉を手動停止する d. 充電用にＵＳＢケーブル買います

タスクは「与えられた文脈に対して最も適切だと思われる選択肢を選択する」というものです。
上記の場合、"d"が正解となります。

フォーマット †

フォーマットは次のような情報を含むjsonl形式になっています。

{ "id": "0", "label": "d", "agreement": "2", "context": "電池の減りはやはり早いので、", "choice_a": "実際の半導体製造装置は実現しません", "choice_b": "今回は期間限定でのお届けになります", "choice_c": "原子炉を手動停止する", "choice_d": "充電用にＵＳＢケーブル買います" } ...

"agreement"は、文脈と正解選択肢の間に蓋然的関係があると評価したクラウドワーカーの人数を表し、{2, 3, 4}のいずれかの値を取ります。
"context"および"choice_{a, b, c, d}"は、形態素解析器Juman++ 2.0.0-rc3を用いて形態素に分割されています。

ダウンロード †

データセットは、訓練データ・開発データ・テストデータの3つから成ります。
詳細な統計につきましては、[1]をご参照ください。

ご質問等は"nl-resource at nlp.ist.i.kyoto-u.ac.jp"(at=@)までお願いいたします。

デモ †

以下のデモサイトで訓練データの一部を試すことができます。

更新履歴 †

「京都大学常識推論データセット」に名前を変更 - October 7, 2020

ver1.0を公開 - October 6, 2020

参考文献 †

[1] Kazumasa Omura, Daisuke Kawahara and Sadao Kurohashi: A Method for Building a Commonsense Inference Dataset based on Basic Events, In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020).