日本語Wikipedia入力誤りデータセット

本データセットはWikipedeiaの修正履歴から獲得した日本語入力誤りデータセットです。 Wikipediaの版間で文単位の差分を取り、それらをフィルタリングすることで、入力誤りとその修正文ペアを抽出しています。 データセットには4種類の入力誤りデータ、誤字・脱字・衍字・漢字誤変換が含まれており、合計約50万文ペアです。 詳細については参考文献を参照してください。

データ形式

データは以下のようなjsonl形式です。

{"category": "kanji-conversion", "page": "366", "pre_rev": "72387", "post_rev": "77423", "pre_loss": 122.24, "post_loss": 120.72, "pre_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入場した。", "post_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入城した。", "diffs": [{"pre": "入場", "post": "入城"}]}

categoryは入力誤りの種類(substitusionは誤字、deletionは脱字、insertionは衍字、kanji-conversionは漢字誤変換)、pageはWikipediaの記事ページID、pre_rev(post_rev)は修正前(後)のWikipediaの修正版ID、pre_loss(post_loss)は修正前(後)の文を文字単位LSTM言語モデルに入力したときの合計損失値、pre_text(post_text)は修正前(後)の文、diffsはpre_textとpost_textの形態素単位の差分です。

ダウンロード

データセットはtrainセットとtestセットがあります。 trainセットと違い、testセットはクラウドソーシングの評価結果でフィルタリングをしているので、よりノイズが小さいデータセットとなっています。

ライセンス

このデータセットのライセンスは、日本語Wikipediaのライセンスと同じ、CC-BY-SA 3.0に従います。 詳しくは日本語Wikipediaのライセンスを参照してください。

更新履歴

参考文献