#author("2022-09-21T17:21:11+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
#author("2022-09-22T09:09:01+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
* 京都大学常識推論データセット(KUCI) [#i51a4a40]
KUCIは基本的なイベント表現間の蓋然的関係(ある程度続けて起こりうる/真である関係)を問う多肢選択式問題10.4万問から成る日本語常識推論データセットです。~
本データセットは

+ (日本語7.1億文から成る)ウェブコーパスからの蓋然的基本イベントペアの自動抽出
+ クラウドソーシングによる確認
+ 常識推論問題の自動生成

という半自動的な構築手法が特徴です。~
例えば、以下のような問題が含まれます:

 電池の減りはやはり早いので、
     a. 実際の半導体製造装置は実現しません
     b. 今回は期間限定でのお届けになります
     c. 原子炉を手動停止する
     d. 充電用にUSBケーブル買います

タスクは「与えられた文脈に続く文として、最も適切だと思われる選択肢を選ぶ」というものです。~
上記の場合、"d"が正解となります。

** フォーマット [#gb9146a4]
フォーマットは以下のような情報を含むjsonl形式になっています。

 {
     "id": 0, 
     "context": "電池 の 減り は やはり 早い ので 、", 
     "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
     "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", 
     "choice_c": "原子 炉 を 手動 停止 する",
     "choice_d": "充電 用 に USB ケーブル 買い ます"
     "label": "d", 
     "agreement": 2,
     "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう"
 }, ...

"context"および"choice_{a, b, c, d}"は、形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割されています。~
"agreement"は、文脈と正解選択肢の間に蓋然的関係があると評価したクラウドワーカーの人数を表し、{2, 3, 4}のいずれかの値を取ります。~

** リンク [#r0e8dd9f]

- [[KUCI (37.4MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/KUCI.tar.gz]]
- [[KUCI (48.4MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/KUCI.tar.gz]]
-- データセットは訓練データ・開発データ・テストデータの3つから成ります。~
詳細な統計につきましては [1] をご参照ください。
- [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/research/KUCI/]]
-- 訓練データの一部を出題しています。
- 疑似問題
- [[疑似問題 (403.5MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/Pseudo.tar.gz]]
-- 詳細な統計につきましては [2] をご参照ください。
- [[コード:https://github.com/omukazu/KUCI]]

ご質問等は "omura at nlp.ist.i.kyoto-u.ac.jp" または "nl-resource at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。~
(" at " = @)

** 履歴 [#f833caab]
- - September 20, 2022
- 疑似問題およびコードを公開 - September 22, 2022
-「京都大学常識推論データセット」に名前を変更 - October 7, 2020
- ver1.0を公開 - October 6, 2020

** 参考文献 [#hdf2eef6]
- [2] Kazumasa Omura and Sadao Kurohashi:
Improving Commonsense Contingent Reasoning by Pseudo-data and its Application to the Related Tasks, 
In Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022).
-[1] Kazumasa Omura, Daisuke Kawahara and Sadao Kurohashi:
A Method for Building a Commonsense Inference Dataset based on Basic Events, 
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020).


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS