京都大学常識推論データセット(KUCI)

KUCIは基本的なイベント表現間の蓋然的関係(ある程度続けて起こりうる/真である関係)を問う多肢選択式問題10.4万問から成る日本語常識推論データセットです。
本データセットは

  1. (日本語7.1億文から成る)ウェブコーパスからの蓋然的基本イベントペアの自動抽出
  2. クラウドソーシングによる確認
  3. 常識推論問題の自動生成

という半自動的な構築手法が特徴です。
例えば、以下のような問題が含まれます:

電池の減りはやはり早いので、
    a. 実際の半導体製造装置は実現しません
    b. 今回は期間限定でのお届けになります
    c. 原子炉を手動停止する
    d. 充電用にUSBケーブル買います

タスクは「与えられた文脈に続く文として、最も適切だと思われる選択肢を選ぶ」というものです。
上記の場合、"d"が正解となります。

フォーマット

フォーマットは以下のような情報を含むjsonl形式になっています。

{
    "id": 0, 
    "context": "電池 の 減り は やはり 早い ので 、", 
    "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
    "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", 
    "choice_c": "原子 炉 を 手動 停止 する",
    "choice_d": "充電 用 に USB ケーブル 買い ます"
    "label": "d", 
    "agreement": 2,
    "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう"
}, ...

"context"および"choice_{a, b, c, d}"は、形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割されています。
"agreement"は、文脈と正解選択肢の間に蓋然的関係があると評価したクラウドワーカーの人数を表し、{2, 3, 4}のいずれかの値を取ります。

リンク

ご質問等は "omura at nlp.ist.i.kyoto-u.ac.jp" または "nl-resource at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。
(" at " = @)

履歴

参考文献


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS