#author("2022-07-13T09:58:01+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
#author("2022-07-13T09:59:09+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
* 京都大学ウェブ文書リードコーパス [#k21e3183]

本コーパスは、さまざまなウェブ文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。ウェブ文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。

言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。言語情報の付与は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析し、その結果を専門家が修正することによって行いました。談話関係については、専門家によって付与した小規模なコーパスに加え、クラウドソーシングによって付与した大規模なコーパスが含まれます。


** ダウンロード [#i6326d09]

*** コーパス [#h45e8db1]
- GitHubリポジトリ: https://github.com/ku-nlp/KWDLC
- 過去のバージョン
-- 京都大学ウェブ文書リードコーパス Version 1.0 (bzip2圧縮; 4,527,262 bytes): [[ダウンロードページ:https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KWDLC/download_kwdlc.cgi]]~
// ※ ダウンロードするには、お名前とメールアドレスを入力し、ダウンロード条件に同意していただく必要があります。
// - [[京都大学ウェブ文書リードコーパス Version 1.0:https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0.tar.bz2&name=KWDLC-1.0.tar.bz2]] (bzip2圧縮; 4,526,420 bytes)
// &color(red){[New!]};

*** マニュアル [#e2ad73e1]
- [[形態素・構文情報のタグ付け基準マニュアル:https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/syn_guideline.pdf]]
- [[格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル:https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/rel_guideline.pdf]]
- [[談話関係のタグ付け基準マニュアル:https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KWDLC-1.0/doc/disc_guideline.pdf]]~
※ これらのマニュアルはコーパスのパッケージにも同梱されています。


** 更新履歴 [#n84b0b68]
- GitHubに移行 - 2019/11/6
- 1.0 - 2016/6/9公開


** 文献情報 [#c62c4b59]
- 萩行正嗣, 河原大輔, 黒橋禎夫.~
多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析, ~
自然言語処理, Vol.21, No.2, pp.213-248, 2014.
- Daisuke Kawahara, Yuichiro Machida, Tomohide Shibata, Sadao Kurohashi, Hayato Kobayashi and Manabu Sassano.~
Rapid Development of a Corpus with Discourse Annotations using Two-stage Crowdsourcing, ~
In Proceedings of the 25th International Conference on Computational Linguistics, pp.269-278, 2014.
- Masatsugu Hangyo, Daisuke Kawahara and Sadao Kurohashi.~
Building a Diverse Document Leads Corpus Annotated with Semantic Relations, ~
In Proceedings of the 26th Pacific Asia Conference on Language Information and Computing, pp.535-544, 2012.
- 岸本裕大, 村脇有吾, 河原大輔, 黒橋禎夫.~
日本語談話関係解析:タスク設計・談話標識の自動認識・ コーパスアノテーション,~
自然言語処理, Vol.27, No.4, pp.889-931, 2020.


** 謝辞 [#q837c98d]
本コーパスの作成には、科学研究費補助金 基盤研究(B)「多様なテキストへの高次アノテーションに基づく文脈理解モデルの明確化 」(研究課題番号:24300053, 研究代表者: 黒橋禎夫)、および科学技術振興機構 CREST 研究領域「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」「知識に基づく構造的言語処理の確立と知識インフラの構築」 (研究代表者: 黒橋禎夫)の助成を受けました。また、クラウドソーシングを利用した談話関係のアノテーションは、ヤフー株式会社の支援の元に行いました。ここに謝意を表します。


** 問い合わせ先 [#o03d5d32]
本コーパスの不具合等は[[GitHubのIssues>https://github.com/ku-nlp/KWDLC/issues]]へ報告するようお願いします。その他のご意見、ご質問は nl-resource あっと nlp.ist.i.kyoto-u.ac.jp宛にお願いいたします。コーパスに含まれる文書への典拠情報の付与、文書の削除などをご希望の場合にもこのメールアドレスにご連絡をお願いします。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS