KWDLC のバックアップ差分(No.8) - LANGUAGE MEDIA PROCESSING LAB

* 京都大学ウェブ文書リードコーパス [#k21e3183] 本コーパスは、さまざまなウェブ文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。ウェブ文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。談話関係以外の情報は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析を行い、その結果を専門家が修正したものです。談話関係については、クラウドソーシングを利用して付与しています。 ** ダウンロード [#i6326d09] *** コーパス [#h45e8db1] - [[京都大学ウェブ文書リードコーパス Version 1.0:http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0.tar.bz2&name=KWDLC-1.0.tar.bz2]] (bzip2圧縮; 4,526,420 bytes) &color(red){[New!]}; - [[京都大学ウェブ文書リードコーパス Version 1.0:http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0.tar.bz2&name=KWDLC-1.0.tar.bz2]] (bzip2圧縮; 4,526,420 bytes) // &color(red){[New!]}; *** マニュアル [#e2ad73e1] - [[形態素・構文情報のタグ付け基準マニュアル:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/syn_guideline.pdf]] - [[格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/rel_guideline.pdf]] - [[談話関係のタグ付け基準マニュアル:http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/disc_guideline.pdf]]~ ※ これらのマニュアルはコーパスのパッケージにも同梱されています。 ** 更新履歴 [#n84b0b68] - 1.0 - 2016/3/31公開 ** 文献情報 [#c62c4b59] - 萩行正嗣, 河原大輔, 黒橋禎夫.~ 多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析, ~ 自然言語処理, Vol.21, No.2, pp.213-248, 2014. - Daisuke Kawahara, Yuichiro Machida, Tomohide Shibata, Sadao Kurohashi, Hayato Kobayashi and Manabu Sassano.~ Rapid Development of a Corpus with Discourse Annotations using Two-stage Crowdsourcing, ~ In Proceedings of the 25th International Conference on Computational Linguistics, pp.269-278, 2014. - Masatsugu Hangyo, Daisuke Kawahara and Sadao Kurohashi.~ Building a Diverse Document Leads Corpus Annotated with Semantic Relations, ~ In Proceedings of the 26th Pacific Asia Conference on Language Information and Computing, pp.535-544, 2012. ** 謝辞 [#q837c98d] 本コーパスの作成には、科学研究費補助金基盤研究(B)「多様なテキストへの高次アノテーションに基づく文脈理解モデルの明確化」(研究課題番号:24300053, 研究代表者: 黒橋禎夫)、および科学技術振興機構 CREST 研究領域「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」「知識に基づく構造的言語処理の確立と知識インフラの構築」 (研究代表者: 黒橋禎夫)の助成を受けました。また、クラウドソーシングを利用した談話関係のアノテーションは、ヤフー株式会社の支援の元に行いました。ここに謝意を表します。