* 京都大学ウェブ文書リードコーパス [#k21e3183]

本コーパスは、さまざまなウェブ文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。ウェブ文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。

言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。談話関係以外の情報は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析を行い、その結果を専門家が修正したものです。談話関係については、クラウドソーシングを利用して付与しています。


** ダウンロード [#i6326d09]

*** コーパス [#h45e8db1]
- [[京都大学ウェブ文書リードコーパス Version 1.0:http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0.tar.bz2&name=KWDLC-1.0.tar.bz2]] (bzip2圧縮; 4,526,420 bytes)  &color(red){[New!]};
- [[京都大学ウェブ文書リードコーパス Version 1.0:http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0.tar.bz2&name=KWDLC-1.0.tar.bz2]] (bzip2圧縮; 4,526,420 bytes)
// &color(red){[New!]};

*** マニュアル [#e2ad73e1]
- [[形態素・構文情報のタグ付け基準マニュアル:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/syn_guideline.pdf]]
- [[格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/rel_guideline.pdf]]
- [[談話関係のタグ付け基準マニュアル:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/disc_guideline.pdf]]~
※ これらのマニュアルはコーパスのパッケージにも同梱されています。


** 更新履歴 [#n84b0b68]
- 1.0 - 2016/3/31公開


** 文献情報 [#c62c4b59]
- 萩行正嗣, 河原大輔, 黒橋禎夫.~
多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析, ~
自然言語処理, Vol.21, No.2, pp.213-248, 2014.
- Daisuke Kawahara, Yuichiro Machida, Tomohide Shibata, Sadao Kurohashi, Hayato Kobayashi and Manabu Sassano.~
Rapid Development of a Corpus with Discourse Annotations using Two-stage Crowdsourcing, ~
In Proceedings of the 25th International Conference on Computational Linguistics, pp.269-278, 2014.
- Masatsugu Hangyo, Daisuke Kawahara and Sadao Kurohashi.~
Building a Diverse Document Leads Corpus Annotated with Semantic Relations, ~
In Proceedings of the 26th Pacific Asia Conference on Language Information and Computing, pp.535-544, 2012.


** 謝辞 [#q837c98d]
本コーパスの作成には、科学研究費補助金 基盤研究(B)「多様なテキストへの高次アノテーションに基づく文脈理解モデルの明確化 」(研究課題番号:24300053, 研究代表者: 黒橋禎夫)、および科学技術振興機構 CREST 研究領域「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」「知識に基づく構造的言語処理の確立と知識インフラの構築」 (研究代表者: 黒橋禎夫)の助成を受けました。また、クラウドソーシングを利用した談話関係のアノテーションは、ヤフー株式会社の支援の元に行いました。ここに謝意を表します。


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS