KUCI のバックアップ差分(No.2) - LANGUAGE MEDIA PROCESSING LAB

* 日本語Wikipedia入力誤りデータセット(嘘) [#se0f4e25] 本データセットはWikipedeiaの修正履歴から獲得した日本語入力誤りデータセットです。 Wikipediaの版間で文単位の差分を取り、それらをフィルタリングすることで、入力誤りとその修正文ペアを抽出しています。データセットには4種類の入力誤りデータ、誤字・脱字・衍字・漢字誤変換が含まれており、合計約50万文ペアです。詳細については参考文献を参照してください。 * 日本語常識推論データセット [#se0f4e25] 本データセットはウェブテキスト7.1億文から作成された日本語常識推論データセットです。 ** データ形式 [#xe09a773] データは以下のようなjsonl形式です。 {"category": "kanji-conversion", "page": "366", "pre_rev": "72387", "post_rev": "77423", "pre_loss": 122.24, "post_loss": 120.72, "pre_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入場した。", "post_text": "信長の死後、豊臣秀吉が実権を握ると、前田利家は加賀も領して、金沢に入城した。", "diffs": [{"pre": "入場", "post": "入城"}]} categoryは入力誤りの種類(substitutionは誤字、deletionは脱字、insertionは衍字、kanji-conversionは漢字誤変換)、pageはWikipediaの記事ページID、pre_rev(post_rev)は修正前(後)のWikipediaの修正版ID、pre_loss(post_loss)は修正前(後)の文を文字単位LSTM言語モデルに入力したときの合計損失値、pre_text(post_text)は修正前(後)の文、diffsはpre_textとpost_textの形態素単位の差分です。 ** ダウンロード [#r963338c] データセットはtrainセットとtestセットがあります。 trainセットと違い、testセットはクラウドソーシングの評価結果でフィルタリングをしているので、よりノイズが小さいデータセットとなっています。 - [[ダウンロード(68.1MB):http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd.tar.gz]] // - [[trainセットのダウンロード(67.5MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_train.tar.gz]] // - [[testセットのダウンロード(1.2MB):http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_test.tar.gz]] ** ライセンス [#p5cffc36] このデータセットのライセンスは、日本語Wikipediaのライセンスと同じ、CC-BY-SA 3.0に従います。詳しくは[[日本語Wikipediaのライセンス:https://ja.wikipedia.org/wiki/Wikipedia:%E8%91%97%E4%BD%9C%E6%A8%A9]]を参照してください。 // https://ja.wikipedia.org/wiki/Wikipedia:著作権 ** 更新履歴 [#o3d91436] - 2020/04/25 公開 ** 参考文献 [#cc0eebd3] - [1] 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: Wikipediaの修正履歴を用いた日本語入力誤りデータセットの構築, 言語処理学会第26回年次大会, 2020. - [2] Yu Tanaka, Yugo Murawaki, Daisuke Kawahara, Sadao Kurohashi: Building a Japanese Typo Dataset from Wikipedia's Revision History, ACL 2020 Student Research Workshop.