- 追加された行はこの色です。
- 削除された行はこの色です。
#author("2022-09-21T17:21:11+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
#author("2022-09-22T09:09:01+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
* 京都大学常識推論データセット(KUCI) [#i51a4a40]
KUCIは基本的なイベント表現間の蓋然的関係(ある程度続けて起こりうる/真である関係)を問う多肢選択式問題10.4万問から成る日本語常識推論データセットです。~
本データセットは
+ (日本語7.1億文から成る)ウェブコーパスからの蓋然的基本イベントペアの自動抽出
+ クラウドソーシングによる確認
+ 常識推論問題の自動生成
という半自動的な構築手法が特徴です。~
例えば、以下のような問題が含まれます:
電池の減りはやはり早いので、
a. 実際の半導体製造装置は実現しません
b. 今回は期間限定でのお届けになります
c. 原子炉を手動停止する
d. 充電用にUSBケーブル買います
タスクは「与えられた文脈に続く文として、最も適切だと思われる選択肢を選ぶ」というものです。~
上記の場合、"d"が正解となります。
** フォーマット [#gb9146a4]
フォーマットは以下のような情報を含むjsonl形式になっています。
{
"id": 0,
"context": "電池 の 減り は やはり 早い ので 、",
"choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
"choice_b": "今回 は 期間 限定 で の お 届け に なり ます",
"choice_c": "原子 炉 を 手動 停止 する",
"choice_d": "充電 用 に USB ケーブル 買い ます"
"label": "d",
"agreement": 2,
"core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう"
}, ...
"context"および"choice_{a, b, c, d}"は、形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割されています。~
"agreement"は、文脈と正解選択肢の間に蓋然的関係があると評価したクラウドワーカーの人数を表し、{2, 3, 4}のいずれかの値を取ります。~
** リンク [#r0e8dd9f]
- [[KUCI (37.4MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/KUCI.tar.gz]]
- [[KUCI (48.4MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/KUCI.tar.gz]]
-- データセットは訓練データ・開発データ・テストデータの3つから成ります。~
詳細な統計につきましては [1] をご参照ください。
- [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/research/KUCI/]]
-- 訓練データの一部を出題しています。
- 疑似問題
- [[疑似問題 (403.5MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/Pseudo.tar.gz]]
-- 詳細な統計につきましては [2] をご参照ください。
- [[コード:https://github.com/omukazu/KUCI]]
ご質問等は "omura at nlp.ist.i.kyoto-u.ac.jp" または "nl-resource at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。~
(" at " = @)
** 履歴 [#f833caab]
- - September 20, 2022
- 疑似問題およびコードを公開 - September 22, 2022
-「京都大学常識推論データセット」に名前を変更 - October 7, 2020
- ver1.0を公開 - October 6, 2020
** 参考文献 [#hdf2eef6]
- [2] Kazumasa Omura and Sadao Kurohashi:
Improving Commonsense Contingent Reasoning by Pseudo-data and its Application to the Related Tasks,
In Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022).
-[1] Kazumasa Omura, Daisuke Kawahara and Sadao Kurohashi:
A Method for Building a Commonsense Inference Dataset based on Basic Events,
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020).