不満調査データセットタグ付きコーパス

概要

本コーパスは、様々な言語アノテーション付き不満文書で構成される日本語テキストコーパスです。不満文書は、日本の消費者の意見データ収集および分析サービスである不満買取センターが収集したものです。このコーパスには、家庭用電化製品、病院、情報技術(IT)、スーパーマーケット、旅行、交通といった様々なジャンルの不満文書が含まれており、654文書(1,282文)で構成されています。

言語アノテーションは、形態素、固有表現、係り受け、ゼロ照応を含む述語項構造、及び共参照の注釈で構成されます。係り受けや格構造及び照応の解析器と、形態素解析器 Juman++ で自動解析した結果を人手で修正して注釈付けしました。

ダウンロード

不満調査データセットタグ付きコーパス Version 1.0 (zip圧縮; 1,894,781 bytes)

配布するファイル

アノテーションガイドライン

アノテーションガイドラインは、"doc"ディレクトリにあります。形態素と係り受けのガイドラインは "syn_guideline.pdf"、述語項構造と共参照のガイドラインは "rel_guideline.pdf" です。固有表現のガイドラインは、IREXのウェブサイト(http://nlp.cs.nyu.edu/irex/)をご参照ください。

コーパスのデータ形式

このコーパスのフォーマットは、以下のとおりです。

# S-ID:fuman-trip-0000000001-1
* 2D
+ 3D 
太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0
は は は 助詞 9 副助詞 2 * 0 * 0
* 2D
+ 2D 
京都 きょうと 京都 名詞 6 地名 4 * 0 * 0
+ 3D <NE:ORGANIZATION:京都大学> 
大学 だいがく 大学 名詞 6 普通名詞 1 * 0 * 0
に に に 助詞 9 格助詞 1 * 0 * 0
* -1D
+ -1D <rel type="ガ" target="太郎" sid="fuman-trip-0000000001-1" id="0"/><rel type="ニ" target="大学" sid="fuman-trip-0000000001-1" id="2"/>
行った いった 行く 動詞 2 * 0 子音動詞カ行促音便形 3 タ形 10
EOS

このデータ形式の詳細については、 京都大学ウェブ文書リードコーパスの文書をご参照ください。

参考文献

謝辞

このコーパスは、株式会社 Insight Tech 様のご協力を得て構築しました。ご協力に深く感謝いたします。

著作権

不満文書の著作権は、株式会社 Insight Tech 様に帰属します。 アノテーション情報の著作権は、京都大学黒橋研究室に帰属します。

ライセンス

このコーパスのライセンスは、CC BY-NC-SA4.0の対象となります。 このコーパスの使用目的は、学術研究に限定されます。

連絡先

このコーパスについて質問や問題がある場合は、"nl-resource at nlp.ist.i.kyoto-u.ac.jp"(at=@) 宛にメールを送信してください。