* 日本語Wikipedia入力誤りデータセット(嘘) [#se0f4e25]
本データセットはWikipedeiaの修正履歴から獲得した日本語入力誤りデータセットです。
Wikipediaの版間で文単位の差分を取り、それらをフィルタリングすることで、入力誤りとその修正文ペアを抽出しています。
データセットには4種類の入力誤りデータ、誤字・脱字・衍字・漢字誤変換が含まれており、合計約50万文ペアです。
詳細については参考文献を参照してください。
#author("2024-02-17T14:42:52+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
''Last Update: 2024-02-16''    [[[English]:https://nlp.ist.i.kyoto-u.ac.jp/EN/?KUCI]]

** データ形式 [#xe09a773]
データは以下のようなjsonl形式です。
* 京都大学常識推論データセット(KUCI) [#i51a4a40]

 {"category": "kanji-conversion", "page": "366", "pre_rev": "72387", "post_rev": "77423", "pre_loss": 122.24, "post_loss": 120.72, "pre_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入場した。", "post_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入城した。", "diffs": [{"pre": "入場", "post": "入城"}]}
KUCIは、基本的な蓋然的関係を推論する能力(''常識推論能力'')を訓練/評価するための日本語のデータセットです。~
本データセットは基本的なイベント表現間の蓋然的関係を問う多肢選択式問題10.4万問から成ります。
また,本データセットは

categoryは入力誤りの種類(substitutionは誤字、deletionは脱字、insertionは衍字、kanji-conversionは漢字誤変換)、pageはWikipediaの記事ページID、pre_rev(post_rev)は修正前(後)のWikipediaの修正版ID、pre_loss(post_loss)は修正前(後)の文を文字単位LSTM言語モデルに入力したときの合計損失値、pre_text(post_text)は修正前(後)の文、diffsはpre_textとpost_textの形態素単位の差分です。
+ 生コーパスからの蓋然的関係を持つ基本的なイベント表現の組の自動抽出
+ クラウドソーシングによる確認
+ 常識推論問題の自動生成

** ダウンロード [#r963338c]
データセットはtrainセットとtestセットがあります。
trainセットと違い、testセットはクラウドソーシングの評価結果でフィルタリングをしているので、よりノイズが小さいデータセットとなっています。
- [[ダウンロード(68.1MB):http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd.tar.gz]]
// - [[trainセットのダウンロード(67.5MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_train.tar.gz]]
// - [[testセットのダウンロード(1.2MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_test.tar.gz]]
という半自動的な構築手法が特徴です。~
例えば、以下のような常識推論問題が含まれます:

** ライセンス [#p5cffc36]
このデータセットのライセンスは、日本語Wikipediaのライセンスと同じ、CC-BY-SA 3.0に従います。
詳しくは[[日本語Wikipediaのライセンス:https://ja.wikipedia.org/wiki/Wikipedia:%E8%91%97%E4%BD%9C%E6%A8%A9]]を参照してください。
// https://ja.wikipedia.org/wiki/Wikipedia:著作権
 電池の減りはやはり早いので、
   a. 実際の半導体製造装置は実現しません
   b. 今回は期間限定でのお届けになります
   c. 原子炉を手動停止する
   d. 充電用にUSBケーブル買います

** 更新履歴 [#o3d91436]
- 2020/04/25 公開
タスクは「与えられた文脈に続く文として、最も適切だと考えられる選択肢を選ぶ」というものです。~
上記の場合、"d"が正解となります。

** 参考文献 [#cc0eebd3]
- [1] 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: Wikipediaの修正履歴を用いた日本語入力誤りデータセットの構築, 言語処理学会第26回年次大会, 2020.
- [2] Yu Tanaka, Yugo Murawaki, Daisuke Kawahara, Sadao Kurohashi: Building a Japanese Typo Dataset from Wikipedia's Revision History, ACL 2020 Student Research Workshop.
** 用語の定義 [#t0367ebc]

cf. [2], [3]

: ''蓋然的関係''|一方が他方を引き起こし得る事態間に成立する談話関係
: ''コアイベント''|(格フレームから獲得される)高頻度な述語項構造
: ''ベース''|各問題の文脈と正解選択肢の組

** 統計 [#v2e78023]

|CENTER:Train|CENTER:Dev|CENTER:Test|h
|83,127|10,228|10,291|

上記に加えて、86万問の疑似問題を公開しています。

- [[疑似問題をダウンロード (98MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/pseudo_problems.tar.gz]]

** データフォーマット [#gb9146a4]

データフォーマットは JSON Lines を採用しています。

 {
   "id": 0, 
   "context": "電池 の 減り は やはり 早い ので 、", 
   "choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ん",
   "choice_b": "今回 は 期間 限定 で の お 届け に なり ます", 
   "choice_c": "原子 炉 を 手動 停止 する",
   "choice_d": "充電 用 に USB ケーブル 買い ます"
   "label": "d", 
   "agreement": 2,
   "core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル/けーぶる,ヲ,買う/かう"
 }

|CENTER:キー|CENTER:型|CENTER:説明|h
|id|int|各問題の整数のID (0-origin)|
|context|str|文脈 (形態素解析器 Juman++ Version: 2.0.0-rc3 を用いて形態素に分割済み)|
|choice_{a, b, c, d}|str|選択肢 (〃)|
|label|str|正解選択肢に対応する文字 ({a, b, c, d}のいずれか)|
|agreement|int|ベースに蓋然的関係があると評価したクラウドワーカーの人数 ({2, 3, 4}のいずれか)|
|core_event_pair|str|ベースを構成するコアイベントの組|

** ライセンス [#vae04968]

本データセットには [[Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0):https://creativecommons.org/licenses/by-sa/4.0/]] を付与しています。
問題等ございましたら "nl-resource at nlp.ist.i.kyoto-u.ac.jp" または "omura at nlp.ist.i.kyoto-u.ac.jp" までお願いいたします。~
(" at " = @)

** 外部リンク [#r0e8dd9f]

- [[GitHub:https://github.com/ku-nlp/KUCI]]
-- データセットの管理をGitHubに移行しました。
- [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/app/KUCI/]]
-- 訓練データの一部を出題しています。
- [[疑似問題 (98MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KUCI/pseudo_problems.tar.gz]]

** 履歴 [#f833caab]

- 2024-02-16: ライセンスを付与
- 2022-09-22: 疑似問題を公開
- 2020-10-07: データセット名を「京都大学常識推論データセット」に変更
- 2020-10-06: v1.0を公開

** 参考文献 [#hdf2eef6]

- [1] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohashi.~
A Method for Building a Commonsense Inference Dataset based on Basic Events.~
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2450–2460, 2020.
- [2] Kazumasa Omura and Sadao Kurohashi.~
Improving Commonsense Contingent Reasoning by Pseudo-data and its Application to the Related Tasks.~
In Proceedings of the 29th International Conference on Computational Linguistics, pages 812-823, 2022.
- [3] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohashi.~
Building a Commonsense Inference Dataset based on Basic Events and its Application.~
Journal of Natural Language Processing, 30(4), pages 1206-1239, 2023.~
(in Japanese)


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS