技術者インタビュー対話コーパス (Expert Interview Dialog Corpus: EIDC) †
EIDCは、オンラインビデオ通話を用いて、特定ドメインにおける技能者からインタビュアーが技能のコツを積極的に引き出そうとしているインタビュー対話の動画・音声・書き起こしテキスト、および意味フレームを付与したテキストのコーパスです。ドメインは料理・園芸ドメインから構成され、コーパスの規模は10~15分のインタビュー (i) 料理308対話 (ii)園芸100対話です。対話の参加者として、技能者はプロか愛好家が、インタビュアーにはインタビュー経験のある者かその経験のない者が参加しています。本コーパスは、国立研究開発法人新エネルギー・産業技術総合開発機構 (NEDO) の委託業務 (JPNP20006) の結果得られたものです。
対話データの収集において、料理ドメインでは、最初の20対話が暫定的な条件で予備収集したもので(Interview_1~Interview_20)、残りの288対話は最終的な条件で本収集したものです。園芸ドメインの100対話では、料理ドメインと同等の条件で収録したものが含まれます。収集条件の詳細に関しては技術資料 (NEDO_CIDC_report.pdf) を参照してください。
ダウンロード †
料理インタビュー対話コーパスの利用をご希望される方は、下記の利用申請フォームをご入力ください。入力されたメールアドレス宛に連絡いたします。
利用申請フォーム
詳細 †
- 料理・園芸ドメイン
- 料理・園芸ドメインの各データを格納しています。両ドメインで共通したファイルが格納されています。
- 対話情報 (info.csv)
- インタビューの各対話に関する情報です。一列目は対話のID、二列目から五列目は技能者についての情報、六列目から九列目はインタビュアーについての情報、十列目から十三列目はインタビューの事前提出資料に関する情報(十二、十三行目は本収集のみ)、十四列目から二十列目は対話後に行ったアンケートの回答結果です。インタビューの事前提出資料とアンケートの詳細については、技術資料 (NEDO_CIDC_report.pdf) を参照してください。
- 料理インタビュー対話動画 (video/)
- インタビューの対話画面をZoomの録画機能で録画した動画ファイル(.mp4)です。
- 料理インタビュー対話音声 (audio/)
- インタビューの対話画面をZoomの録音機能で録音した音声ファイル(.wav)です。技能者側のみの音声(Interview_#_s.wav)、インタビュー側のみの音声(Interview_#_i.wav)、両者の声が一緒に録音された音声(Interview_#.wav)の3種類があります。なお、料理ドメインの予備実験で集めた20対話は両者の声が一緒に録音された音声のみです。
- インタビュー対話書き起こし (transcript/)
- インタビューの発話内容を書き起こしたテキストファイル(.xml)です。書き起こしの方法については技術資料 (NEDO_CIDC_report.pdf) を参照してください。
- 画像 (image/)
- 事前に技能者に提出させた、特定技能の手順を示す画像です。
- 意味フレーム(semantic_frame_annotation/)
- インタビューの書き起こしデータに対して、各ドメインの知識構造を示すために重要なイベントを意味フレームの観点から記述したものです。タグには、イベントの特徴づけに欠かせないフレームタイプ・フレーム要素・指定要素タグ、同一イベントを表す述語の共参照関係タグ、および、述語や項に対する属性タグが含まれています。アノテーションにはBrat (https://brat.nlplab.org/index.html) を使用し、タグ付け済みのファイルが.ann形式で格納されています。アノテーション仕様の詳細については、アノテーションガイドラインを参照してください。
ライセンス †
CIDCは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際ライセンス (CC BY-NC-SA, https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ja ) の下に提供されています。
参考文献 †
- [1] Taro Okahisa, Ribeka Tanaka, Takashi Kodama, Yin Jou Huang and Sadao Kurohashi. (2022). “Constructing a Culinary Interview Dialogue Corpus with Video Conferencing Tool.” In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp. 3131–3139.
- [2] 岡久 太郎, 田中 リベカ, 児玉 貴志, Yin Jou Huang, 黒橋 禎夫. (2022) “ウェブ会議システムを利用した料理インタビュー対話コーパス.” 言語処理学会 第28回年次大会.
- [3] Taishi Chika, Taro Okahisa, Takashi Kodama, Yin Jou Huang, Yugo Murawaki and Sadao Kurohashi. (2024) “Domain Transferable Semantic Frames for Technical Interview Dialogues.” In Proceedings of LREC-COLING 2024.