Last Update: 2024-02-16 [English]
KUCIは、基本的な蓋然的関係を推論する能力(常識推論能力)を訓練/評価するための日本語のデータセットです。
本データセットは基本的なイベント表現間の蓋然的関係を問う多肢選択式問題10.4万問から成ります。
また,本データセットは
という半自動的な構築手法が特徴です。
例えば、以下のような常識推論問題が含まれます:
電池の減りはやはり早いので、 a. 実際の半導体製造装置は実現しません b. 今回は期間限定でのお届けになります c. 原子炉を手動停止する d. 充電用にUSBケーブル買います
タスクは「与えられた文脈に続く文として、最も適切だと考えられる選択肢を選ぶ」というものです。
上記の場合、"d"が正解となります。
cf. [2], [3]
Train | Dev | Test |
83,127 | 10,228 | 10,291 |
上記に加えて、86万問の疑似問題を公開しています。
データフォーマットは JSON Lines を採用しています。
{ "id": 0, "context": "電池 の 減り は やはり 早い ので 、", "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん", "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", "choice_c": "原子 炉 を 手動 停止 する", "choice_d": "充電 用 に USB ケーブル 買い ます" "label": "d", "agreement": 2, "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう" }
キー | 型 | 説明 |
id | int | 各問題の整数のID (0-origin) |
context | str | 文脈 (形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割済み) |
choice_{a, b, c, d} | str | 選択肢 (〃) |
label | str | 正解選択肢に対応する文字 ({a, b, c, d}のいずれか) |
agreement | int | ベースに蓋然的関係があると評価したクラウドワーカーの人数 ({2, 3, 4}のいずれか) |
core_event_pair | str | ベースを構成するコアイベントの組 |
本データセットには Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) を付与しています。
問題等ございましたら "nl-resource at nlp.ist.i.kyoto-u.ac.jp" または "omura at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。
(" at " = @)