日本語Wikipedia入力誤りデータセット

日本語Wikipedia入力誤りデータセット (v2) †

本データセットはWikipedeiaの編集履歴から獲得した日本語入力誤りデータセットです。 Wikipediaの版間で差分を取ることで編集のある文ペアを取得し、それらに対しマイニングとフィルタリングを行うことで、入力誤りとその訂正文ペアを抽出しています。データセットには、誤字・脱字・衍字・転字・漢字誤変換カテゴリの入力誤りが含まれており、合計約70万文ペアです。詳細については参考文献を参照してください。 (なお、参考文献記載の上記カテゴリのデータに加えて、参考文献で構築した入力誤り訂正システムにおける対数尤度に基づいて収集した、その他カテゴリのデータも収録しています。)

データ形式 †

データは以下のようなjsonl形式です。

{"page": "104269", "title": "啓蒙思想", "pre_rev": "4708902", "post_rev": "4708909", "pre_text": "カントはヒュームによってうちたれられた純粋理性と実践理性の分析的立場を継承し徹底した。", "post_text": "カントはヒュームによってうちたてられた純粋理性と実践理性の分析的立場を継承し徹底した。", "diffs": [{"pre_str": "うちたれ", "post_str": "うちたて", "pre_bart_likelihood": -36.39, "post_bart_likelihood": -14.44, "category": "substitution"}], "lstm_average_likelihood": -3.66}

pageはWikipediaの記事ページID、titleは記事タイトル、pre_rev (post_rev) は訂正前 (後) のWikipediaの版ID、pre_text (post_text) は訂正前 (後) の文、diffs内のpre_str (post_str) はpre_textとpost_textの形態素単位の差分、pre_bart_likelihood (post_bart_likelihood) は事前学習済みBARTモデルにおける訂正前 (後) の文の対数尤度、categoryは入力誤りの種類 (substitutionは誤字、deletionは脱字、insertionは衍字、transpositionは転字、kanji-conversionは漢字誤変換、othersはその他)、lstm_average_likelihoodは文字単位LSTM言語モデルにおける訂正後の文の対数尤度の文字単位平均です。

ダウンロード †

データセットには学習用 (train)、テストセット (test)、入力誤り評価データ (gold) があります。詳細については参考文献を参照してください。

ライセンス †

このデータセットのライセンスは、日本語Wikipediaのライセンスと同じ、CC-BY-SA 3.0に従います。詳しくは日本語Wikipediaのライセンスを参照してください。

更新履歴 †

2021/03/16 公開

参考文献 †

田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良, 言語処理学会第27回年次大会, 2021.

旧バージョン †

本データセットの旧バージョン (v1) はこちらです。