#author("2021-03-16T20:48:25+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
#author("2021-03-18T17:18:21+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
* 日本語Wikipedia入力誤りデータセット (v1) [#k8e3f267]
※このページは旧バージョンのページです。

本データセットはWikipedeiaの修正履歴から獲得した日本語入力誤りデータセットです。
Wikipediaの版間で文単位の差分を取り、それらをフィルタリングすることで、入力誤りとその修正文ペアを抽出しています。
データセットには4種類の入力誤りデータ、誤字・脱字・衍字・漢字誤変換が含まれており、合計約50万文ペアです。
詳細については参考文献を参照してください。

** データ形式 [#mc1077e9]
データは以下のようなjsonl形式です。

 {"category": "kanji-conversion", "page": "366", "pre_rev": "72387", "post_rev": "77423", "pre_loss": 122.24, "post_loss": 120.72, "pre_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入場した。", "post_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入城した。", "diffs": [{"pre": "入場", "post": "入城"}]}

categoryは入力誤りの種類(substitutionは誤字、deletionは脱字、insertionは衍字、kanji-conversionは漢字誤変換)、pageはWikipediaの記事ページID、pre_rev(post_rev)は修正前(後)のWikipediaの修正版ID、pre_loss(post_loss)は修正前(後)の文を文字単位LSTM言語モデルに入力したときの合計損失値、pre_text(post_text)は修正前(後)の文、diffsはpre_textとpost_textの形態素単位の差分です。

** ダウンロード [#l24a22e9]
データセットはtrainセットとtestセットがあります。
trainセットと違い、testセットはクラウドソーシングの評価結果でフィルタリングをしているので、よりノイズが小さいデータセットとなっています。
- [[ダウンロード(68.1MB):http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd.tar.gz&name=JWTD.tar.gz]]
// - [[trainセットのダウンロード(67.5MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_train.tar.gz&name=JWTD-train.tar.gz]]
// - [[testセットのダウンロード(1.2MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_test.tar.gz&name=JWTD-test.tar.gz]]
- [[ダウンロード(68.1MB):https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd.tar.gz&name=JWTD.tar.gz]]
// - [[trainセットのダウンロード(67.5MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_train.tar.gz&name=JWTD-train.tar.gz]]
// - [[testセットのダウンロード(1.2MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_test.tar.gz&name=JWTD-test.tar.gz]]

** ライセンス [#sa2fb834]
このデータセットのライセンスは、日本語Wikipediaのライセンスと同じ、CC-BY-SA 3.0に従います。
詳しくは[[日本語Wikipediaのライセンス:https://ja.wikipedia.org/wiki/Wikipedia:%E8%91%97%E4%BD%9C%E6%A8%A9]]を参照してください。
// https://ja.wikipedia.org/wiki/Wikipedia:著作権

** 更新履歴 [#j9b68652]
- 2020/04/25 公開

** 参考文献 [#c5167638]
- [1] 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: Wikipediaの修正履歴を用いた日本語入力誤りデータセットの構築, 言語処理学会第26回年次大会, 2020.
- [2] Yu Tanaka, Yugo Murawaki, Daisuke Kawahara, Sadao Kurohashi: Building a Japanese Typo Dataset from Wikipedia's Revision History, ACL 2020 Student Research Workshop.

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS