KUCI - LANGUAGE MEDIA PROCESSING LAB

Last Update: 2024-02-16 [English]

京都大学常識推論データセット(KUCI) †

KUCIは、基本的な蓋然的関係を推論する能力(常識推論能力)を訓練/評価するための日本語のデータセットです。
本データセットは基本的なイベント表現間の蓋然的関係を問う多肢選択式問題10.4万問から成ります。また，本データセットは

生コーパスからの蓋然的関係を持つ基本的なイベント表現の組の自動抽出
クラウドソーシングによる確認
常識推論問題の自動生成

という半自動的な構築手法が特徴です。
例えば、以下のような常識推論問題が含まれます:

電池の減りはやはり早いので、
  a. 実際の半導体製造装置は実現しません
  b. 今回は期間限定でのお届けになります
  c. 原子炉を手動停止する
  d. 充電用にＵＳＢケーブル買います

タスクは「与えられた文脈に続く文として、最も適切だと考えられる選択肢を選ぶ」というものです。
上記の場合、"d"が正解となります。

↑

用語の定義 †

cf. [2], [3]

蓋然的関係: 一方が他方を引き起こし得る事態間に成立する談話関係
コアイベント: (格フレームから獲得される)高頻度な述語項構造
ベース: 各問題の文脈と正解選択肢の組

↑

統計 †

Train	Dev	Test
83,127	10,228	10,291

上記に加えて、86万問の疑似問題を公開しています。

疑似問題をダウンロード (98MB)

↑

データフォーマット †

データフォーマットは JSON Lines を採用しています。

{
  "id": 0, 
  "context": "電池 の 減り は やはり 早い ので 、", 
  "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
  "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", 
  "choice_c": "原子 炉 を 手動 停止 する",
  "choice_d": "充電 用 に ＵＳＢ ケーブル 買い ます"
  "label": "d", 
  "agreement": 2,
  "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう"
}

キー	型	説明
id	int	各問題の整数のID (0-origin)
context	str	文脈 (形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割済み)
choice_{a, b, c, d}	str	選択肢 (〃)
label	str	正解選択肢に対応する文字 ({a, b, c, d}のいずれか)
agreement	int	ベースに蓋然的関係があると評価したクラウドワーカーの人数 ({2, 3, 4}のいずれか)
core_event_pair	str	ベースを構成するコアイベントの組

↑

ライセンス †

本データセットには Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) を付与しています。問題等ございましたら "nl-resource at nlp.ist.i.kyoto-u.ac.jp" または "omura at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。
(" at " = @)

↑

外部リンク †

GitHub
- データセットの管理をGitHubに移行しました。
デモ
- 訓練データの一部を出題しています。
疑似問題 (98MB)

↑

履歴 †

2024-02-16: ライセンスを付与
2022-09-22: 疑似問題を公開
2020-10-07: データセット名を「京都大学常識推論データセット」に変更
2020-10-06: v1.0を公開

↑

参考文献 †

[1] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohashi.
A Method for Building a Commonsense Inference Dataset based on Basic Events.
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2450–2460, 2020.
[2] Kazumasa Omura and Sadao Kurohashi.
Improving Commonsense Contingent Reasoning by Pseudo-data and its Application to the Related Tasks.
In Proceedings of the 29th International Conference on Computational Linguistics, pages 812-823, 2022.
[3] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohashi.
Building a Commonsense Inference Dataset based on Basic Events and its Application.
Journal of Natural Language Processing, 30(4), pages 1206-1239, 2023.
(in Japanese)