#author("2022-06-08T10:28:19+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") #author("2023-02-06T19:05:54+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") * 京都大学テキストコーパス [#n7bded37] 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。 さらに、このうちの約1万文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。 さらに、社説記事を除く約2万文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。 ** ダウンロード [#adae4df1] - GitHubリポジトリ: https://github.com/ku-nlp/KyotoCorpus - 過去のバージョン -- [[京都大学テキストコーパス Version 4.0:https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0.tar.gz&name=KyotoCorpus4.0.tar.gz]] (7,990,765 bytes) --- [[形態素・構文情報のタグ付け基準マニュアル:https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0/doc/syn_guideline.pdf]] --- [[格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル:https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0/doc/rel_guideline.pdf]]~ ※ これらのマニュアルはコーパスのパッケージにも同梱されています。 -- [[京都大学テキストコーパス Version 3.0:https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus3.0.tar.gz&name=KyotoCorpus3.0.tar.gz]] (6,050,373 bytes) 注意点:本パッケージに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれていません。コーパス本来の形に変換するには毎日新聞1995年版CD-ROMが必要です。毎日新聞CD-ROMの入手方法については[[日外アソシエーツのウェブページ:https://www.nichigai.co.jp/sales/corpus.html]]に情報があります。