#author("2021-01-18T10:28:11+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
#author("2021-03-18T17:10:40+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
* 不満調査データセットタグ付きコーパス [#kd7f5400]

** 概要 [#y8475186]
本コーパスは、様々な言語アノテーション付き不満文書で構成される日本語テキストコーパスです。不満文書は、日本の消費者の意見データ収集および分析サービスである不満買取センターが収集したものです。このコーパスには、家庭用電化製品、病院、情報技術(IT)、スーパーマーケット、旅行、交通といった様々なジャンルの不満文書が含まれており、654文書(1,282文)で構成されています。

言語アノテーションは、形態素、固有表現、係り受け、ゼロ照応を含む述語項構造、及び共参照の注釈で構成されます。係り受けや格構造及び照応の解析器と、形態素解析器 Juman++ で自動解析した結果を人手で修正して注釈付けしました。


** ダウンロード [#n3add5b3]
[[不満調査データセットタグ付きコーパス Version 1.0:http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/Annotated-FKC-Corpus/Annotated-FKC-Corpus-Ver.1.0.zip&name=Annotated-FKC-Corpus]] (zip圧縮; 1,894,781 bytes)
[[不満調査データセットタグ付きコーパス Version 1.0:https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/Annotated-FKC-Corpus/Annotated-FKC-Corpus-Ver.1.0.zip&name=Annotated-FKC-Corpus]] (zip圧縮; 1,894,781 bytes)


** 配布するファイル [#w35f8089]
- knp/ : 形態素、固有表現、係り受け、述語項構造、及び共参照を注釈付けしたコーパス
- org/ : テキストコーパス
- doc/ : アノテーションガイドライン
- id/ : 訓練データとテストデータを分割した文書IDファイル


** アノテーションガイドライン [#mcc2433a]
アノテーションガイドラインは、"doc"ディレクトリにあります。形態素と係り受けのガイドラインは "syn_guideline.pdf"、述語項構造と共参照のガイドラインは "rel_guideline.pdf" です。固有表現のガイドラインは、IREXのウェブサイト(http://nlp.cs.nyu.edu/irex/)をご参照ください。


** コーパスのデータ形式 [#lade5732]

このコーパスのフォーマットは、以下のとおりです。

 # S-ID:fuman-trip-0000000001-1
 * 2D
 + 3D 
 太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0
 は は は 助詞 9 副助詞 2 * 0 * 0
 * 2D
 + 2D 
 京都 きょうと 京都 名詞 6 地名 4 * 0 * 0
 + 3D <NE:ORGANIZATION:京都大学> 
 大学 だいがく 大学 名詞 6 普通名詞 1 * 0 * 0
 に に に 助詞 9 格助詞 1 * 0 * 0
 * -1D
 + -1D <rel type="ガ" target="太郎" sid="fuman-trip-0000000001-1" id="0"/><rel type="ニ" target="大学" sid="fuman-trip-0000000001-1" id="2"/>
 行った いった 行く 動詞 2 * 0 子音動詞カ行促音便形 3 タ形 10
 EOS

このデータ形式の詳細については、[[ 京都大学ウェブ文書リードコーパスの文書:https://github.com/ku-nlp/KWDLC#format-of-the-corpus-annotated-with-annotations-of-morphology-named-entities-dependencies-predicate-argument-structures-and-coreferences]]をご参照ください。


** 参考文献 [#lbdb1e01]
- 萩行正嗣, 河原大輔, 黒橋禎夫. 多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析, 自然言語処理, Vol.21, No.2, pp.213-248, 2014.
https://doi.org/10.5715/jnlp.21.213


** 謝辞 [#n069d808]
このコーパスは、株式会社 Insight Tech 様のご協力を得て構築しました。ご協力に深く感謝いたします。


** 著作権 [#l1291e98]
不満文書の著作権は、株式会社 Insight Tech 様に帰属します。
アノテーション情報の著作権は、京都大学黒橋研究室に帰属します。


** ライセンス [#y387e3b5]
このコーパスのライセンスは、[[CC BY-NC-SA4.0:https://creativecommons.org/licenses/by-nc-sa/4.0/]]の対象となります。
このコーパスの使用目的は、学術研究に限定されます。


** 連絡先 [#c59e1a88]
このコーパスについて質問や問題がある場合は、"nl-resource at nlp.ist.i.kyoto-u.ac.jp"(at=@) 宛にメールを送信してください。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS