KUCI のバックアップ差分(No.13) - LANGUAGE MEDIA PROCESSING LAB

#author("2023-05-02T01:46:25+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") #author("2024-02-16T13:27:12+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") ''Last Update: 2024-02-16'' * 京都大学常識推論データセット(KUCI) [#i51a4a40] KUCIは基本的なイベント表現間の蓋然的関係(ある程度続けて起こりうる/真である関係)を問う多肢選択式問題10.4万問から成る日本語常識推論データセットです。~ 本データセットは + (日本語7.1億文から成る)ウェブコーパスからの蓋然的基本イベントペアの自動抽出 KUCIは、基本的な蓋然的関係を推論する能力(''常識推論能力'')を訓練/評価するための日本語のデータセットです。~ 本データセットは基本的なイベント表現間の蓋然的関係を問う多肢選択式問題10.4万問から成ります。また，本データセットは + 生コーパスからの蓋然的関係を持つ基本的なイベント表現の組の自動抽出 + クラウドソーシングによる確認 + 常識推論問題の自動生成という半自動的な構築手法が特徴です。~ 例えば、以下のような問題が含まれます: 例えば、以下のような常識推論問題が含まれます: 電池の減りはやはり早いので、 a. 実際の半導体製造装置は実現しません b. 今回は期間限定でのお届けになります c. 原子炉を手動停止する d. 充電用にＵＳＢケーブル買います a. 実際の半導体製造装置は実現しません b. 今回は期間限定でのお届けになります c. 原子炉を手動停止する d. 充電用にＵＳＢケーブル買いますタスクは「与えられた文脈に続く文として、最も適切だと思われる選択肢を選ぶ」というものです。~ タスクは「与えられた文脈に続く文として、最も適切だと考えられる選択肢を選ぶ」というものです。~ 上記の場合、"d"が正解となります。 ** フォーマット [#gb9146a4] フォーマットは以下のような情報を含むjsonl形式になっています。 ** 用語の定義 [#t0367ebc] cf. [2], [3] : ''蓋然的関係''|一方が他方を引き起こし得る事態間に成立する談話関係 : ''コアイベント''|(格フレームから獲得される)高頻度な述語項構造 : ''ベース''|各問題の文脈と正解選択肢の組 ** 統計 [#v2e78023] |CENTER:Train|CENTER:Dev|CENTER:Test|h |83,127|10,228|10,291| 上記に加えて、86万問の疑似問題を公開しています。 - [[疑似問題をダウンロード (98MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/pseudo_problems.tar.gz]] ** データフォーマット [#gb9146a4] データフォーマットは JSON Lines を採用しています。 { "id": 0, "context": "電池の減りはやはり早いので、", "choice_a": "実際の半導体製造装置は実現しません", "choice_b": "今回は期間限定でのお届けになります", "choice_c": "原子炉を手動停止する", "choice_d": "充電用にＵＳＢケーブル買います" "label": "d", "agreement": 2, "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう" }, ... "id": 0, "context": "電池の減りはやはり早いので、", "choice_a": "実際の半導体製造装置は実現しません", "choice_b": "今回は期間限定でのお届けになります", "choice_c": "原子炉を手動停止する", "choice_d": "充電用にＵＳＢケーブル買います" "label": "d", "agreement": 2, "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう" } "context"および"choice_{a, b, c, d}"は、形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割されています。~ "agreement"は、文脈と正解選択肢の間に蓋然的関係があると評価したクラウドワーカーの人数を表し、{2, 3, 4}のいずれかの値を取ります。~ |CENTER:キー|CENTER:型|CENTER:説明|h |id|int|各問題の整数のID (0-origin)| |context|str|文脈 (形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割済み)| |choice_{a, b, c, d}|str|選択肢 (〃)| |label|str|正解選択肢に対応する文字 ({a, b, c, d}のいずれか)| |agreement|int|ベースに蓋然的関係があると評価したクラウドワーカーの人数 ({2, 3, 4}のいずれか)| |core_event_pair|str|ベースを構成するコアイベントの組| ** リンク [#r0e8dd9f] ** ライセンス [#vae04968] - [[KUCI (48.4MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/KUCI.tar.gz]] -- データセットは訓練データ・開発データ・テストデータの3つから成ります。~ 詳細な統計につきましては [1] をご参照ください。本データセットには [[Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0):https://creativecommons.org/licenses/by-sa/4.0/]] を付与しています。問題等ございましたら "nl-resource at nlp.ist.i.kyoto-u.ac.jp" または "omura at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。~ (" at " = @) ** 外部リンク [#r0e8dd9f] - [[GitHub:https://github.com/ku-nlp/KUCI]] -- データセットの管理をGitHubに移行しました。 - [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/app/KUCI/]] -- 訓練データの一部を出題しています。 - [[疑似問題 (403.5MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/Pseudo.tar.gz]] -- 詳細な統計につきましては [2] をご参照ください。 - [[コード:https://github.com/omukazu/KUCI]] - [[疑似問題 (98MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/pseudo_problems.tar.gz]] ご質問等は "omura at nlp.ist.i.kyoto-u.ac.jp" または "nl-resource at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。~ (" at " = @) ** 履歴 [#f833caab] - 疑似問題およびコードを公開 - September 22, 2022 -「京都大学常識推論データセット」に名前を変更 - October 7, 2020 - ver1.0を公開 - October 6, 2020 - 2024-02-16: ライセンスを付与 - 2022-09-22: 疑似問題を公開 - 2020-10-07: データセット名を「京都大学常識推論データセット」に変更 - 2020-10-06: v1.0を公開 ** 参考文献 [#hdf2eef6] - [2] Kazumasa Omura and Sadao Kurohashi: Improving Commonsense Contingent Reasoning by Pseudo-data and its Application to the Related Tasks, In Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022). -[1] Kazumasa Omura, Daisuke Kawahara and Sadao Kurohashi: A Method for Building a Commonsense Inference Dataset based on Basic Events, In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020). - [1] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohashi.~ A Method for Building a Commonsense Inference Dataset based on Basic Events.~ In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2450–2460, 2020. - [2] Kazumasa Omura and Sadao Kurohashi.~ Improving Commonsense Contingent Reasoning by Pseudo-data and its Application to the Related Tasks.~ In Proceedings of the 29th International Conference on Computational Linguistics, pages 812-823, 2022. - [3] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohashi.~ Building a Commonsense Inference Dataset based on Basic Events and its Application.~ Journal of Natural Language Processing, 30(4), pages 1206-1239, 2023.~ (in Japanese)