#author("2021-03-16T20:48:25+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") #author("2021-03-18T17:18:21+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") * 日本語Wikipedia入力誤りデータセット (v1) [#k8e3f267] ※このページは旧バージョンのページです。 本データセットはWikipedeiaの修正履歴から獲得した日本語入力誤りデータセットです。 Wikipediaの版間で文単位の差分を取り、それらをフィルタリングすることで、入力誤りとその修正文ペアを抽出しています。 データセットには4種類の入力誤りデータ、誤字・脱字・衍字・漢字誤変換が含まれており、合計約50万文ペアです。 詳細については参考文献を参照してください。 ** データ形式 [#mc1077e9] データは以下のようなjsonl形式です。 {"category": "kanji-conversion", "page": "366", "pre_rev": "72387", "post_rev": "77423", "pre_loss": 122.24, "post_loss": 120.72, "pre_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入場した。", "post_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入城した。", "diffs": [{"pre": "入場", "post": "入城"}]} categoryは入力誤りの種類(substitutionは誤字、deletionは脱字、insertionは衍字、kanji-conversionは漢字誤変換)、pageはWikipediaの記事ページID、pre_rev(post_rev)は修正前(後)のWikipediaの修正版ID、pre_loss(post_loss)は修正前(後)の文を文字単位LSTM言語モデルに入力したときの合計損失値、pre_text(post_text)は修正前(後)の文、diffsはpre_textとpost_textの形態素単位の差分です。 ** ダウンロード [#l24a22e9] データセットはtrainセットとtestセットがあります。 trainセットと違い、testセットはクラウドソーシングの評価結果でフィルタリングをしているので、よりノイズが小さいデータセットとなっています。 - [[ダウンロード(68.1MB):http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd.tar.gz&name=JWTD.tar.gz]] // - [[trainセットのダウンロード(67.5MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_train.tar.gz&name=JWTD-train.tar.gz]] // - [[testセットのダウンロード(1.2MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_test.tar.gz&name=JWTD-test.tar.gz]] - [[ダウンロード(68.1MB):https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd.tar.gz&name=JWTD.tar.gz]] // - [[trainセットのダウンロード(67.5MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_train.tar.gz&name=JWTD-train.tar.gz]] // - [[testセットのダウンロード(1.2MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_test.tar.gz&name=JWTD-test.tar.gz]] ** ライセンス [#sa2fb834] このデータセットのライセンスは、日本語Wikipediaのライセンスと同じ、CC-BY-SA 3.0に従います。 詳しくは[[日本語Wikipediaのライセンス:https://ja.wikipedia.org/wiki/Wikipedia:%E8%91%97%E4%BD%9C%E6%A8%A9]]を参照してください。 // https://ja.wikipedia.org/wiki/Wikipedia:著作権 ** 更新履歴 [#j9b68652] - 2020/04/25 公開 ** 参考文献 [#c5167638] - [1] 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: Wikipediaの修正履歴を用いた日本語入力誤りデータセットの構築, 言語処理学会第26回年次大会, 2020. - [2] Yu Tanaka, Yugo Murawaki, Daisuke Kawahara, Sadao Kurohashi: Building a Japanese Typo Dataset from Wikipedia's Revision History, ACL 2020 Student Research Workshop.