Last Update: 2024-02-16    [English]

京都大学常識推論データセット(KUCI)

KUCIは、基本的な蓋然的関係を推論する能力(常識推論能力)を訓練/評価するための日本語のデータセットです。
本データセットは基本的なイベント表現間の蓋然的関係を問う多肢選択式問題10.4万問から成ります。 また,本データセットは

  1. 生コーパスからの蓋然的関係を持つ基本的なイベント表現の組の自動抽出
  2. クラウドソーシングによる確認
  3. 常識推論問題の自動生成

という半自動的な構築手法が特徴です。
例えば、以下のような常識推論問題が含まれます:

電池の減りはやはり早いので、
  a. 実際の半導体製造装置は実現しません
  b. 今回は期間限定でのお届けになります
  c. 原子炉を手動停止する
  d. 充電用にUSBケーブル買います

タスクは「与えられた文脈に続く文として、最も適切だと考えられる選択肢を選ぶ」というものです。
上記の場合、"d"が正解となります。

用語の定義

cf. [2], [3]

蓋然的関係
一方が他方を引き起こし得る事態間に成立する談話関係
コアイベント
(格フレームから獲得される)高頻度な述語項構造
ベース
各問題の文脈と正解選択肢の組

統計

TrainDevTest
83,12710,22810,291

上記に加えて、86万問の疑似問題を公開しています。

データフォーマット

データフォーマットは JSON Lines を採用しています。

{
  "id": 0, 
  "context": "電池 の 減り は やはり 早い ので 、", 
  "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
  "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", 
  "choice_c": "原子 炉 を 手動 停止 する",
  "choice_d": "充電 用 に USB ケーブル 買い ます"
  "label": "d", 
  "agreement": 2,
  "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう"
}
キー説明
idint各問題の整数のID (0-origin)
contextstr文脈 (形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割済み)
choice_{a, b, c, d}str選択肢 (〃)
labelstr正解選択肢に対応する文字 ({a, b, c, d}のいずれか)
agreementintベースに蓋然的関係があると評価したクラウドワーカーの人数 ({2, 3, 4}のいずれか)
core_event_pairstrベースを構成するコアイベントの組

ライセンス

本データセットには Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) を付与しています。 問題等ございましたら "nl-resource at nlp.ist.i.kyoto-u.ac.jp" または "omura at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。
(" at " = @)

外部リンク

履歴

参考文献