* 日本語Wikipedia入力誤りデータセット(嘘) [#se0f4e25]
本データセットはWikipedeiaの修正履歴から獲得した日本語入力誤りデータセットです。
Wikipediaの版間で文単位の差分を取り、それらをフィルタリングすることで、入力誤りとその修正文ペアを抽出しています。
データセットには4種類の入力誤りデータ、誤字・脱字・衍字・漢字誤変換が含まれており、合計約50万文ペアです。
詳細については参考文献を参照してください。
* 日本語常識推論データセット [#se0f4e25]
本データセットはウェブテキスト7.1億文から作成された日本語常識推論データセットです。

** データ形式 [#xe09a773]
データは以下のようなjsonl形式です。

 {"category": "kanji-conversion", "page": "366", "pre_rev": "72387", "post_rev": "77423", "pre_loss": 122.24, "post_loss": 120.72, "pre_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入場した。", "post_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入城した。", "diffs": [{"pre": "入場", "post": "入城"}]}

categoryは入力誤りの種類(substitutionは誤字、deletionは脱字、insertionは衍字、kanji-conversionは漢字誤変換)、pageはWikipediaの記事ページID、pre_rev(post_rev)は修正前(後)のWikipediaの修正版ID、pre_loss(post_loss)は修正前(後)の文を文字単位LSTM言語モデルに入力したときの合計損失値、pre_text(post_text)は修正前(後)の文、diffsはpre_textとpost_textの形態素単位の差分です。

** ダウンロード [#r963338c]
データセットはtrainセットとtestセットがあります。
trainセットと違い、testセットはクラウドソーシングの評価結果でフィルタリングをしているので、よりノイズが小さいデータセットとなっています。
- [[ダウンロード(68.1MB):http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd.tar.gz]]
// - [[trainセットのダウンロード(67.5MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_train.tar.gz]]
// - [[testセットのダウンロード(1.2MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_test.tar.gz]]

** ライセンス [#p5cffc36]
このデータセットのライセンスは、日本語Wikipediaのライセンスと同じ、CC-BY-SA 3.0に従います。
詳しくは[[日本語Wikipediaのライセンス:https://ja.wikipedia.org/wiki/Wikipedia:%E8%91%97%E4%BD%9C%E6%A8%A9]]を参照してください。
// https://ja.wikipedia.org/wiki/Wikipedia:著作権

** 更新履歴 [#o3d91436]
- 2020/04/25 公開

** 参考文献 [#cc0eebd3]
- [1] 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: Wikipediaの修正履歴を用いた日本語入力誤りデータセットの構築, 言語処理学会第26回年次大会, 2020.
- [2] Yu Tanaka, Yugo Murawaki, Daisuke Kawahara, Sadao Kurohashi: Building a Japanese Typo Dataset from Wikipedia's Revision History, ACL 2020 Student Research Workshop.


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS