#author("2021-04-19T21:52:02+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
#author("2024-02-17T14:42:52+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
''Last Update: 2024-02-16''    [[[English]:https://nlp.ist.i.kyoto-u.ac.jp/EN/?KUCI]]

* 京都大学常識推論データセット(KUCI) [#i51a4a40]
本データセットはウェブコーパス7.1億文から構築された日本語常識推論データセットです。~
基本イベント間の蓋然的(=ある事柄がある程度起こりうる/真である)関係を問う多肢選択式問題10.4万問から成ります。~
これらの問題は、クラウドソーシングによって検証された蓋然的関係を持つイベントペアから自動生成されています。~
例えば、次のような問題が含まれます:

KUCIは、基本的な蓋然的関係を推論する能力(''常識推論能力'')を訓練/評価するための日本語のデータセットです。~
本データセットは基本的なイベント表現間の蓋然的関係を問う多肢選択式問題10.4万問から成ります。
また,本データセットは

+ 生コーパスからの蓋然的関係を持つ基本的なイベント表現の組の自動抽出
+ クラウドソーシングによる確認
+ 常識推論問題の自動生成

という半自動的な構築手法が特徴です。~
例えば、以下のような常識推論問題が含まれます:

 電池の減りはやはり早いので、
     a. 実際の半導体製造装置は実現しません
     b. 今回は期間限定でのお届けになります
     c. 原子炉を手動停止する
     d. 充電用にUSBケーブル買います
   a. 実際の半導体製造装置は実現しません
   b. 今回は期間限定でのお届けになります
   c. 原子炉を手動停止する
   d. 充電用にUSBケーブル買います

タスクは「与えられた文脈に続く文として、最も適切だと思われる選択肢を選択する」というものです。~
タスクは「与えられた文脈に続く文として、最も適切だと考えられる選択肢を選ぶ」というものです。~
上記の場合、"d"が正解となります。

** フォーマット [#gb9146a4]
フォーマットは次のような情報を含むjsonl形式になっています。
** 用語の定義 [#t0367ebc]

cf. [2], [3]

: ''蓋然的関係''|一方が他方を引き起こし得る事態間に成立する談話関係
: ''コアイベント''|(格フレームから獲得される)高頻度な述語項構造
: ''ベース''|各問題の文脈と正解選択肢の組

** 統計 [#v2e78023]

|CENTER:Train|CENTER:Dev|CENTER:Test|h
|83,127|10,228|10,291|

上記に加えて、86万問の疑似問題を公開しています。

- [[疑似問題をダウンロード (98MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/pseudo_problems.tar.gz]]

** データフォーマット [#gb9146a4]

データフォーマットは JSON Lines を採用しています。

 {
     "id": "0", 
     "label": "d", 
     "agreement": "2",
     "context": "電池 の 減り は やはり 早い ので 、", 
     "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
     "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", 
     "choice_c": "原子 炉 を 手動 停止 する",
     "choice_d": "充電 用 に USB ケーブル 買い ます"
 } ...
   "id": 0, 
   "context": "電池 の 減り は やはり 早い ので 、", 
   "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
   "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", 
   "choice_c": "原子 炉 を 手動 停止 する",
   "choice_d": "充電 用 に USB ケーブル 買い ます"
   "label": "d", 
   "agreement": 2,
   "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう"
 }

"agreement"は、文脈と正解選択肢の間に蓋然的関係があると評価したクラウドワーカーの人数を表し、{2, 3, 4}のいずれかの値を取ります。~
"context"および"choice_{a, b, c, d}"は、形態素解析器Juman++ 2.0.0-rc3を用いて形態素に分割されています。
|CENTER:キー|CENTER:型|CENTER:説明|h
|id|int|各問題の整数のID (0-origin)|
|context|str|文脈 (形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割済み)|
|choice_{a, b, c, d}|str|選択肢 (〃)|
|label|str|正解選択肢に対応する文字 ({a, b, c, d}のいずれか)|
|agreement|int|ベースに蓋然的関係があると評価したクラウドワーカーの人数 ({2, 3, 4}のいずれか)|
|core_event_pair|str|ベースを構成するコアイベントの組|

** ダウンロード [#r0e8dd9f]
データセットは、訓練データ・開発データ・テストデータの3つから成ります。~
詳細な統計につきましては、[1]をご参照ください。
- [[ダウンロード(37.4MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/KUCI.tar.gz]]
** ライセンス [#vae04968]

ご質問等は"nl-resource at nlp.ist.i.kyoto-u.ac.jp"(at=@)までお願いいたします。
本データセットには [[Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0):https://creativecommons.org/licenses/by-sa/4.0/]] を付与しています。
問題等ございましたら "nl-resource at nlp.ist.i.kyoto-u.ac.jp" または "omura at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。~
(" at " = @)

** デモ [#d79e9e8d]
以下のデモサイトで訓練データの一部を試すことができます。
- [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/website/index.cgi/demos/qa]]
** 外部リンク [#r0e8dd9f]

** 更新履歴 [#f833caab]
-「京都大学常識推論データセット」に名前を変更 - October 7, 2020
-ver1.0を公開 - October 6, 2020
- [[GitHub:https://github.com/ku-nlp/KUCI]]
-- データセットの管理をGitHubに移行しました。
- [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/app/KUCI/]]
-- 訓練データの一部を出題しています。
- [[疑似問題 (98MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/pseudo_problems.tar.gz]]

** 履歴 [#f833caab]

- 2024-02-16: ライセンスを付与
- 2022-09-22: 疑似問題を公開
- 2020-10-07: データセット名を「京都大学常識推論データセット」に変更
- 2020-10-06: v1.0を公開

** 参考文献 [#hdf2eef6]
-[1] Kazumasa Omura, Daisuke Kawahara and Sadao Kurohashi:
A Method for Building a Commonsense Inference Dataset based on Basic Events, 
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020).

- [1] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohashi.~
A Method for Building a Commonsense Inference Dataset based on Basic Events.~
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2450–2460, 2020.
- [2] Kazumasa Omura and Sadao Kurohashi.~
Improving Commonsense Contingent Reasoning by Pseudo-data and its Application to the Related Tasks.~
In Proceedings of the 29th International Conference on Computational Linguistics, pages 812-823, 2022.
- [3] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohashi.~
Building a Commonsense Inference Dataset based on Basic Events and its Application.~
Journal of Natural Language Processing, 30(4), pages 1206-1239, 2023.~
(in Japanese)


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS