京都大学常識推論データセット(KUCI)

本データセットはウェブコーパス7.1億文から構築された日本語常識推論データセットです。
基本イベント間の蓋然的(=ある事柄がある程度起こりうる/真である)関係を問う多肢選択式問題10.4万問から成ります。
これらの問題は、クラウドソーシングによって検証された蓋然的関係を持つイベントペアから自動生成されています。
例えば、次のような問題が含まれます:

電池の減りはやはり早いので、
    a. 実際の半導体製造装置は実現しません
    b. 今回は期間限定でのお届けになります
    c. 原子炉を手動停止する
    d. 充電用にUSBケーブル買います

タスクは「与えられた文脈に続く文として、最も適切だと思われる選択肢を選択する」というものです。
上記の場合、"d"が正解となります。

フォーマット

フォーマットは次のような情報を含むjsonl形式になっています。

{
    "id": "0", 
    "label": "d", 
    "agreement": "2",
    "context": "電池 の 減り は やはり 早い ので 、", 
    "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
    "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", 
    "choice_c": "原子 炉 を 手動 停止 する",
    "choice_d": "充電 用 に USB ケーブル 買い ます"
} ...

"agreement"は、文脈と正解選択肢の間に蓋然的関係があると評価したクラウドワーカーの人数を表し、{2, 3, 4}のいずれかの値を取ります。
"context"および"choice_{a, b, c, d}"は、形態素解析器Juman++ 2.0.0-rc3を用いて形態素に分割されています。

ダウンロード

データセットは、訓練データ・開発データ・テストデータの3つから成ります。
詳細な統計につきましては、[1]をご参照ください。

ご質問等は"nl-resource at nlp.ist.i.kyoto-u.ac.jp"(at=@)までお願いいたします。

デモ

以下のデモサイトで訓練データの一部を試すことができます。

更新履歴

参考文献