[日本語] /
[English]
京都大学
大学院情報学研究科
知能情報学コース
言語メディア分野(
工学部電気電子工学科
)
研究室へのアクセス
Top
メンバー
研究紹介
研究内容
研究助成一覧
学位取得者一覧
研究発表一覧
2024年度
2023年度
2022年度
2021年度
2020年度
2019年度
2018年度
2017年度
2016年度
2015年度
2014年度
2013年度
2012年度
2011年度
2010年度
2009年度
2008年度
2007年度
2006年度
NLPリソース
===ツール===
日本語解析器KWJA
形態素解析システムJUMAN
形態素解析システムJuman++
構文解析システムKNP
┗ PyKNP
解析結果汎用表示ツール
機械翻訳システムKyotoEBMT
===データ===
京大テキストコーパス
京大ウェブ文書リードコーパス
京大格フレーム
京大名詞格フレーム
日本語Wikipedia入力誤りデータ
基本料理知識ベース
BERT日本語Pretrainedモデル
RTE評価データ
日英中基本文データ
日本語SNLI(JSNLI)データセット
京都大学常識推論データセット
述部意味関係コーパス
ASPEC
SCTB
CTB5.0 Re-annotation
CTB5 chara POS annotation
TriTechDict
内部ページ
開始行:
* 日本語Wikipedia入力誤りデータセット (v1) [#k8e3f267]
※このページは旧バージョンのページです。
本データセットはWikipedeiaの修正履歴から獲得した日本語入...
Wikipediaの版間で文単位の差分を取り、それらをフィルタリン...
データセットには4種類の入力誤りデータ、誤字・脱字・衍字・...
詳細については参考文献を参照してください。
** データ形式 [#mc1077e9]
データは以下のようなjsonl形式です。
{"category": "kanji-conversion", "page": "366", "pre_rev...
categoryは入力誤りの種類(substitutionは誤字、deletionは脱...
** ダウンロード [#l24a22e9]
データセットはtrainセットとtestセットがあります。
trainセットと違い、testセットはクラウドソーシングの評価結...
- [[ダウンロード(68.1MB):https://nlp.ist.i.kyoto-u.ac.jp/...
// - [[trainセットのダウンロード(67.5MB):https://nlp.ist....
// - [[testセットのダウンロード(1.2MB):https://nlp.ist.i....
** ライセンス [#sa2fb834]
このデータセットのライセンスは、日本語Wikipediaのライセン...
詳しくは[[日本語Wikipediaのライセンス:https://ja.wikipedi...
// https://ja.wikipedia.org/wiki/Wikipedia:著作権
** 更新履歴 [#j9b68652]
- 2020/04/25 公開
** 参考文献 [#c5167638]
- [1] 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: Wikipediaの修...
- [2] Yu Tanaka, Yugo Murawaki, Daisuke Kawahara, Sadao K...
終了行:
* 日本語Wikipedia入力誤りデータセット (v1) [#k8e3f267]
※このページは旧バージョンのページです。
本データセットはWikipedeiaの修正履歴から獲得した日本語入...
Wikipediaの版間で文単位の差分を取り、それらをフィルタリン...
データセットには4種類の入力誤りデータ、誤字・脱字・衍字・...
詳細については参考文献を参照してください。
** データ形式 [#mc1077e9]
データは以下のようなjsonl形式です。
{"category": "kanji-conversion", "page": "366", "pre_rev...
categoryは入力誤りの種類(substitutionは誤字、deletionは脱...
** ダウンロード [#l24a22e9]
データセットはtrainセットとtestセットがあります。
trainセットと違い、testセットはクラウドソーシングの評価結...
- [[ダウンロード(68.1MB):https://nlp.ist.i.kyoto-u.ac.jp/...
// - [[trainセットのダウンロード(67.5MB):https://nlp.ist....
// - [[testセットのダウンロード(1.2MB):https://nlp.ist.i....
** ライセンス [#sa2fb834]
このデータセットのライセンスは、日本語Wikipediaのライセン...
詳しくは[[日本語Wikipediaのライセンス:https://ja.wikipedi...
// https://ja.wikipedia.org/wiki/Wikipedia:著作権
** 更新履歴 [#j9b68652]
- 2020/04/25 公開
** 参考文献 [#c5167638]
- [1] 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: Wikipediaの修...
- [2] Yu Tanaka, Yugo Murawaki, Daisuke Kawahara, Sadao K...
ページ名: