京都大学テキストコーパス Version 4.0

毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。

さらに、このうちの5,000文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。

ダウンロード

注意点:本パッケージに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれていません。コーパス本来の形に変換するには毎日新聞1995年版CD-ROMが必要です。毎日新聞CD-ROMの入手方法については日外アソシエーツのウェブページに情報があります。