KWDLC - LANGUAGE MEDIA PROCESSING LAB

京都大学ウェブ文書リードコーパス †

本コーパスは、さまざまなウェブ文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。ウェブ文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。

言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。言語情報の付与は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析し、その結果を専門家が修正することによって行いました。談話関係については、専門家によって付与した小規模なコーパスに加え、クラウドソーシングによって付与した大規模なコーパスが含まれます。

ダウンロード †

コーパス †

GitHubリポジトリ: https://github.com/ku-nlp/KWDLC

過去のバージョン

京都大学ウェブ文書リードコーパス Version 1.0 (bzip2圧縮; 4,527,262 bytes): ダウンロードページ

マニュアル †

更新履歴 †

GitHubに移行 - 2019/11/6

1.0 - 2016/6/9公開

文献情報 †

萩行正嗣, 河原大輔, 黒橋禎夫.
多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析,
自然言語処理, Vol.21, No.2, pp.213-248, 2014.

Daisuke Kawahara, Yuichiro Machida, Tomohide Shibata, Sadao Kurohashi, Hayato Kobayashi and Manabu Sassano.
Rapid Development of a Corpus with Discourse Annotations using Two-stage Crowdsourcing,
In Proceedings of the 25th International Conference on Computational Linguistics, pp.269-278, 2014.

Masatsugu Hangyo, Daisuke Kawahara and Sadao Kurohashi.
Building a Diverse Document Leads Corpus Annotated with Semantic Relations,
In Proceedings of the 26th Pacific Asia Conference on Language Information and Computing, pp.535-544, 2012.

岸本裕大, 村脇有吾, 河原大輔, 黒橋禎夫.
日本語談話関係解析：タスク設計・談話標識の自動認識・コーパスアノテーション,
自然言語処理, Vol.27, No.4, pp.889-931, 2020.

謝辞 †

本コーパスの作成には、科学研究費補助金基盤研究(B)「多様なテキストへの高次アノテーションに基づく文脈理解モデルの明確化」(研究課題番号:24300053, 研究代表者: 黒橋禎夫)、および科学技術振興機構 CREST 研究領域「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」「知識に基づく構造的言語処理の確立と知識インフラの構築」 (研究代表者: 黒橋禎夫)の助成を受けました。また、クラウドソーシングを利用した談話関係のアノテーションは、ヤフー株式会社の支援の元に行いました。ここに謝意を表します。

問い合わせ先 †

本コーパスの不具合等はGitHubのIssuesへ報告するようお願いします。その他のご意見、ご質問は nl-resource あっと nlp.ist.i.kyoto-u.ac.jp宛にお願いいたします。コーパスに含まれる文書への典拠情報の付与、文書の削除などをご希望の場合にもこのメールアドレスにご連絡をお願いします。