#author("2022-06-08T10:28:19+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
#author("2023-02-06T19:05:54+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
* 京都大学テキストコーパス [#n7bded37]

毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。

さらに、このうちの約1万文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。
さらに、社説記事を除く約2万文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。

** ダウンロード [#adae4df1]
- GitHubリポジトリ: https://github.com/ku-nlp/KyotoCorpus
- 過去のバージョン
-- [[京都大学テキストコーパス Version 4.0:https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0.tar.gz&name=KyotoCorpus4.0.tar.gz]] (7,990,765 bytes)
--- [[形態素・構文情報のタグ付け基準マニュアル:https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0/doc/syn_guideline.pdf]]
--- [[格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル:https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0/doc/rel_guideline.pdf]]~
※ これらのマニュアルはコーパスのパッケージにも同梱されています。
-- [[京都大学テキストコーパス Version 3.0:https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus3.0.tar.gz&name=KyotoCorpus3.0.tar.gz]] (6,050,373 bytes)

注意点:本パッケージに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれていません。コーパス本来の形に変換するには毎日新聞1995年版CD-ROMが必要です。毎日新聞CD-ROMの入手方法については[[日外アソシエーツのウェブページ:https://www.nichigai.co.jp/sales/corpus.html]]に情報があります。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS