#author("2023-05-02T01:46:25+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") * 京都大学常識推論データセット(KUCI) [#i51a4a40] KUCIは基本的なイベント表現間の蓋然的関係(ある程度続けて起こりうる/真である関係)を問う多肢選択式問題10.4万問から成る日本語常識推論データセットです。~ 本データセットは + (日本語7.1億文から成る)ウェブコーパスからの蓋然的基本イベントペアの自動抽出 + クラウドソーシングによる確認 + 常識推論問題の自動生成 という半自動的な構築手法が特徴です。~ 例えば、以下のような問題が含まれます: 電池の減りはやはり早いので、 a. 実際の半導体製造装置は実現しません b. 今回は期間限定でのお届けになります c. 原子炉を手動停止する d. 充電用にUSBケーブル買います タスクは「与えられた文脈に続く文として、最も適切だと思われる選択肢を選ぶ」というものです。~ 上記の場合、"d"が正解となります。 ** フォーマット [#gb9146a4] フォーマットは以下のような情報を含むjsonl形式になっています。 { "id": 0, "context": "電池 の 減り は やはり 早い ので 、", "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん", "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", "choice_c": "原子 炉 を 手動 停止 する", "choice_d": "充電 用 に USB ケーブル 買い ます" "label": "d", "agreement": 2, "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう" }, ... "context"および"choice_{a, b, c, d}"は、形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割されています。~ "agreement"は、文脈と正解選択肢の間に蓋然的関係があると評価したクラウドワーカーの人数を表し、{2, 3, 4}のいずれかの値を取ります。~ ** リンク [#r0e8dd9f] - [[KUCI (48.4MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/KUCI.tar.gz]] -- データセットは訓練データ・開発データ・テストデータの3つから成ります。~ 詳細な統計につきましては [1] をご参照ください。 - [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/app/KUCI/]] -- 訓練データの一部を出題しています。 - [[疑似問題 (403.5MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/Pseudo.tar.gz]] -- 詳細な統計につきましては [2] をご参照ください。 - [[コード:https://github.com/omukazu/KUCI]] ご質問等は "omura at nlp.ist.i.kyoto-u.ac.jp" または "nl-resource at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。~ (" at " = @) ** 履歴 [#f833caab] - 疑似問題およびコードを公開 - September 22, 2022 -「京都大学常識推論データセット」に名前を変更 - October 7, 2020 - ver1.0を公開 - October 6, 2020 ** 参考文献 [#hdf2eef6] - [2] Kazumasa Omura and Sadao Kurohashi: Improving Commonsense Contingent Reasoning by Pseudo-data and its Application to the Related Tasks, In Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022). -[1] Kazumasa Omura, Daisuke Kawahara and Sadao Kurohashi: A Method for Building a Commonsense Inference Dataset based on Basic Events, In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020).