KWDLC のバックアップ(No.5) - LANGUAGE MEDIA PROCESSING LAB

京都大学ウェブ文書リードコーパス †

本コーパスは、さまざまなWeb文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。Web文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。

言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。談話関係以外の情報は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析を行い、その結果を専門家が修正したものです。談話関係については、クラウドソーシングを利用して付与しています。

ダウンロード †

コーパス †

京都大学ウェブ文書リードコーパス Version 1.0をダウンロード (準備中)

マニュアル †

文献情報 †

萩行正嗣, 河原大輔, 黒橋禎夫.
多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析,
自然言語処理, Vol.21, No.2, pp.213-248, 2014.

Daisuke Kawahara, Yuichiro Machida, Tomohide Shibata, Sadao Kurohashi, Hayato Kobayashi and Manabu Sassano.
Rapid Development of a Corpus with Discourse Annotations using Two-stage Crowdsourcing,
In Proceedings of the 25th International Conference on Computational Linguistics, pp.269-278, 2014.

Masatsugu Hangyo, Daisuke Kawahara and Sadao Kurohashi.
Building a Diverse Document Leads Corpus Annotated with Semantic Relations,
In Proceedings of the 26th Pacific Asia Conference on Language Information and Computing, pp.535-544, 2012.