#author("2024-03-29T15:20:49+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
* 技術者インタビュー対話コーパス (Expert Interview Dialog Corpus: EIDC) [#u8537a60]

EIDCは、オンラインビデオ通話を用いて、特定ドメインにおける技能者からインタビュアーが技能のコツを積極的に引き出そうとしているインタビュー対話の動画・音声・書き起こしテキスト、および意味フレームを付与したテキストのコーパスです。ドメインは料理・園芸ドメインから構成され、コーパスの規模は10~15分のインタビュー (i) 料理308対話 (ii)園芸100対話です。対話の参加者として、技能者はプロか愛好家が、インタビュアーにはインタビュー経験のある者かその経験のない者が参加しています。本コーパスは、国立研究開発法人新エネルギー・産業技術総合開発機構 (NEDO) の委託業務 (JPNP20006) の結果得られたものです。

対話データの収集において、料理ドメインでは、最初の20対話が暫定的な条件で予備収集したもので(Interview_1~Interview_20)、残りの288対話は最終的な条件で本収集したものです。園芸ドメインの100対話では、料理ドメインと同等の条件で収録したものが含まれます。収集条件の詳細に関しては技術資料 (NEDO_CIDC_report.pdf) を参照してください。

** ダウンロード [#obf97189]
料理インタビュー対話コーパスの利用をご希望される方は、下記の利用申請フォームをご入力ください。入力されたメールアドレス宛に連絡いたします。

[[利用申請フォーム:https://docs.google.com/forms/d/e/1FAIpQLSc69EO2daGxRrO6c-1dTAu_dgEtN5rHAGtSCX6CsnOImqBdoA/viewform]]


** 詳細 [#sb87076f]
- 料理・園芸ドメイン
-- 料理・園芸ドメインの各データを格納しています。両ドメインで共通したファイルが格納されています。

- 対話情報 (info.csv)
-- インタビューの各対話に関する情報です。一列目は対話のID、二列目から五列目は技能者についての情報、六列目から九列目はインタビュアーについての情報、十列目から十三列目はインタビューの事前提出資料に関する情報(十二、十三行目は本収集のみ)、十四列目から二十列目は対話後に行ったアンケートの回答結果です。インタビューの事前提出資料とアンケートの詳細については、技術資料 (NEDO_CIDC_report.pdf) を参照してください。

- 料理インタビュー対話動画 (video/)
-- インタビューの対話画面をZoomの録画機能で録画した動画ファイル(.mp4)です。

- 料理インタビュー対話音声 (audio/)
-- インタビューの対話画面をZoomの録音機能で録音した音声ファイル(.wav)です。技能者側のみの音声(Interview_#_s.wav)、インタビュー側のみの音声(Interview_#_i.wav)、両者の声が一緒に録音された音声(Interview_#.wav)の3種類があります。なお、料理ドメインの予備実験で集めた20対話は両者の声が一緒に録音された音声のみです。

- インタビュー対話書き起こし (transcript/)
-- インタビューの発話内容を書き起こしたテキストファイル(.xml)です。書き起こしの方法については技術資料 (NEDO_CIDC_report.pdf) を参照してください。

- 画像 (image/)
-- 事前に技能者に提出させた、特定技能の手順を示す画像です。

- 意味フレーム(semantic_frame_annotation/)
-- インタビューの書き起こしデータに対して、各ドメインの知識構造を示すために重要なイベントを意味フレームの観点から記述したものです。タグには、イベントの特徴づけに欠かせないフレームタイプ・フレーム要素・指定要素タグ、同一イベントを表す述語の共参照関係タグ、および、述語や項に対する属性タグが含まれています。アノテーションにはBrat (https://brat.nlplab.org/index.html) を使用し、タグ付け済みのファイルが.ann形式で格納されています。アノテーション仕様の詳細については、アノテーションガイドラインを参照してください。

** ライセンス [#z31ad552]
CIDCは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際ライセンス (CC BY-NC-SA, https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ja ) の下に提供されています。

** 参考文献 [#u2c4a84c]
- [1] Taro Okahisa, Ribeka Tanaka, Takashi Kodama, Yin Jou Huang and Sadao Kurohashi. (2022). “Constructing a Culinary Interview Dialogue Corpus with Video Conferencing Tool.” In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp. 3131–3139.
- [2] 岡久 太郎, 田中 リベカ, 児玉 貴志, Yin Jou Huang, 黒橋 禎夫. (2022) “ウェブ会議システムを利用した料理インタビュー対話コーパス.” 言語処理学会 第28回年次大会.
- [3] Taishi Chika, Taro Okahisa, Takashi Kodama, Yin Jou Huang, Yugo Murawaki and Sadao Kurohashi. (2024)  “Domain Transferable Semantic Frames for Technical Interview Dialogues.” In Proceedings of LREC-COLING 2024.


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS