京都大学ウェブ文書リードコーパス

本コーパスは、さまざまなウェブ文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。ウェブ文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。

言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。言語情報の付与は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析し、その結果を専門家が修正することによって行いました。談話関係については、専門家によって付与した小規模なコーパスに加え、クラウドソーシングによって付与した大規模なコーパスが含まれます。

ダウンロード

コーパス

マニュアル

更新履歴

文献情報

謝辞

本コーパスの作成には、科学研究費補助金 基盤研究(B)「多様なテキストへの高次アノテーションに基づく文脈理解モデルの明確化 」(研究課題番号:24300053, 研究代表者: 黒橋禎夫)、および科学技術振興機構 CREST 研究領域「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」「知識に基づく構造的言語処理の確立と知識インフラの構築」 (研究代表者: 黒橋禎夫)の助成を受けました。また、クラウドソーシングを利用した談話関係のアノテーションは、ヤフー株式会社の支援の元に行いました。ここに謝意を表します。

問い合わせ先

本コーパスの不具合等はGitHubのIssuesへ報告するようお願いします。その他のご意見、ご質問は nl-resource あっと nlp.ist.i.kyoto-u.ac.jp宛にお願いいたします。コーパスに含まれる文書への典拠情報の付与、文書の削除などをご希望の場合にもこのメールアドレスにご連絡をお願いします。