* 京都大学テキストコーパス Version 4.0 [#n7bded37]

毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。

さらに、このうちの5,000文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。

** ダウンロード [#adae4df1]
// - [[京都大学テキストコーパス Version 4.0:http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0.tar.gz&name=KyotoCorpus4.0.tar.gz]]をダウンロード (7,990,765 bytes)
- [[京都大学テキストコーパス Version 4.0:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0.tar.gz]]をダウンロード (7,990,765 bytes)
- [[形態素・構文情報のタグ付け基準マニュアル:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0/doc/syn_guideline.pdf]]
- [[格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0/doc/rel_guideline.pdf]]~
※ これらのマニュアルはコーパスのパッケージにも同梱されています。

注意点:本パッケージに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれていません。コーパス本来の形に変換するには毎日新聞1995年版CD-ROMが必要です。毎日新聞CD-ROMの入手方法については[[日外アソシエーツのウェブページ:http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html]]に情報があります。

- 旧バージョン
// -- [[京都大学テキストコーパス Version 3.0:http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus3.0.tar.gz&name=KyotoCorpus3.0.tar.gz]] (6,050,373 bytes)
-- [[京都大学テキストコーパス Version 3.0:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus3.0.tar.gz]] (6,050,373 bytes)

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS