* 京都大学ウェブ文書リードコーパス [#k21e3183]

さまざまなウェブ文書のリード(冒頭)3文に各種言語情報を人手で付与したテキス
トコーパスです。5000文書、15000文に対して、形態素・固有表現・構文・格関
係、照応・省略関係、共参照の情報を付与しています。これらの情報は、形態
素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析を行い、そ
の結果を人手で修正したものです。また、上記5000文書を含む10000文書、
30000文について、節間の談話関係をクラウドソーシングを利用して付与してい
ます。
本コーパスは、さまざまなWeb文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。Web文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。

言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。談話関係以外の情報は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析を行い、その結果を専門家が修正したものです。談話関係については、クラウドソーシングを利用して付与しています。


** ダウンロード [#i6326d09]

準備中です。


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS