技能者インタビュー対話コーパス (Expert Interview Dialog Corpus: EIDC) †
EIDCは、オンラインビデオ通話を用いて、特定ドメインにおける技能者からインタビュアーが技能のコツを積極的に引き出そうとしているインタビュー対話の動画・音声・書き起こしテキスト、および各種アノテーションを付与したコーパスです。ドメインは料理・園芸ドメインから構成され、コーパスの規模は10~15分のインタビュー (i) 料理308対話 (ii) 園芸100対話です。対話の参加者として、技能者はプロか愛好家が、インタビュアーにはインタビュー経験のある者かその経験のない者が参加しています。本コーパスは、国立研究開発法人新エネルギー・産業技術総合開発機構 (NEDO) の委託業務 (JPNP20006) の結果得られたものです。
対話データの収集において、料理ドメインでは、最初の20対話が暫定的な条件で予備収集したもので (Interview_1~Interview_20)、残りの288対話は最終的な条件で本収集したものです。園芸ドメインの100対話では、料理ドメインと同等の条件で収録したものが含まれます。収集条件の詳細に関しては技術資料 [1] を参照してください。
アノテーションでは以下の情報を付与しています: (i)意味フレームに基づく技能の知識構造 (ii)コツ発話 (iii)発話意図 (iv)パラ言語情報。(i-ii) の仕様につきましては [2] を、(iii-iv) についての詳細は [3] をご参照ください。
ダウンロード †
料理インタビュー対話コーパスの利用をご希望される方は、下記の利用申請フォームをご入力ください。入力されたメールアドレス宛に連絡いたします。
利用申請フォーム
各ファイルの概要 †
対話情報 (../meta_info/info.csv) †
- 料理インタビューの各対話に関する情報です。一列目は対話のID、二列目から五列目は技能者についての情報、六列目から九列目はインタビュアーについての情報、十列目から十三列目はインタビューの事前提出資料に関する情報(十二、十三行目は本収集のみ)、十四列目から二十列目は対話後に行ったアンケートの回答結果です。インタビューの事前提出資料とアンケートの詳細については、技術資料 [1] を参照してください。
各種アノテーション (../annotations/) †
- 発話意図 (../annotations/dialog_intent_annotation/)
- 対話内で展開されるやりとりの連鎖を明らかにするため、「質問」「確認」等の発話意図 (談話行為) をタグ付けしたものです。アノテーションにはBrat (https://brat.nlplab.org/) を用いており、料理ドメインは15対話、園芸ドメインは10対話分収録されています。アノテーションの仕様については、タグ付けマニュアル (Annotation_Guidelines_Dialog_Intent.pdf) を参照してください。
- コツ発話 (../annotations/key_utterance/)
- コツ発話とは、初心者等は理解していないと思われる作業における重要なポイント・発展的な事項を含む発話を指します。当該技能のアノテーションはBratを用いており、料理ドメインは300対話、園芸ドメインは100対話分収録されています。アノテーションの仕様については、タグ付けマニュアル (Annotation_Guidelines_Key_Utterance.pdf) を参照してください。
- パラ言語 (../annotations/paralanguage_annotation/)
- フィラーやジェスチャーなどの様々なパラ言語情報をタグ付けしたものです。当該技能のアノテーションにはELAN (https://archive.mpi.nl/tla/elan) を用いており、料理ドメインは20対話、園芸ドメインは14対話分収録されています。アノテーションの仕様については、タグ付けマニュアル (Annotation_Guidelines_Paralanguage.pdf) を参照してください。
- 意味フレーム (../annotations/semantic_frame_annotation/)
- フレーム意味論の枠組みに従い、対話を通して明らかとなった技能の知識構造にアノテーションを付与したものです。述語を中心とした意味フレーム (フレームタイプ) に対して、項や付加詞として機能するフレーム要素や指定要素が付与されています。アノテーションはBratを用いており、料理ドメインは308対話、園芸ドメインは100対話分収録されています。アノテーションの仕様については、タグ付けマニュアル (Annotation_Guidelines_SFA_{Cooking,Gardening}.pdf) を参照してください。
メディアファイル・転記テキスト (../interviews_XXX-YYY/) †
- インタビュー対話動画 (../interviews_XXX-YYY/video/)
- インタビューの対話画面をZoomの録画機能で録画した動画ファイル(.mp4)です。
- インタビュー対話音声 (../interviews_XXX-YYY/audio/)
- インタビューの対話画面をZoomの録音機能で録音した音声ファイル (.wav) です。技能者側のみの音声(Interview_#_s.wav)、インタビュー側のみの音声(Interview_#_i.wav)、両者の声が一緒に録音された音声(Interview_#.wav)の3種類があります。なお、予備実験で集めた料理ドメインの20対話は両者の声が一緒に録音された音声のみです。
- インタビュー対話書き起こし (../interviews_XXX-YYY/transcript/)
- インタビューの発話内容を書き起こしたテキストファイル (.xml) です。書き起こしの方法については技術資料 [1] を参照してください。
- 画像 (../interviews_XXX-YYY/image/)
- 事前に技能者に提出させた、技能の工程や手順を示す画像です。
ライセンス †
CIDCは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際ライセンス (CC BY-NC-SA, https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ja ) の下に提供されています。
参考文献 †
- [1] Taro Okahisa, Ribeka Tanaka, Takashi Kodama, Yin Jou Huang and Sadao Kurohashi. (2022). “Constructing a Culinary Interview Dialogue Corpus with Video Conferencing Tool.” In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp. 3131–3139.
- [2] 岡久 太郎, 田中 リベカ, 児玉 貴志, Yin Jou Huang, 黒橋 禎夫. (2022) “ウェブ会議システムを利用した料理インタビュー対話コーパス.” 言語処理学会 第28回年次大会.
- [3] Taishi Chika, Taro Okahisa, Takashi Kodama, Yin Jou Huang, Yugo Murawaki and Sadao Kurohashi. (2024) “Domain Transferable Semantic Frames for Technical Interview Dialogues.” In Proceedings of LREC-COLING 2024.
- [4] 岡久太郎, 田中リベカ, 児玉貴志, Yin Jou Huang, 村脇有吾, 黒橋禎夫. コツを引き出す対話設定におけるオンライン料理インタビュー対話コーパスの構築. 自然言語処理, Vol. 30, No. 2, pp. 773–799, 2023.
- [5] 近大志, 岡久太郎, Yin Jou Huang, 樽谷洋希, 松田思鵬, 村脇有吾, 黒橋禎夫. 技能者インタビュー対話コーパス (EIDC) v.2.0: コツ発話の同定に向けた相互行為アノテーション. 言語処理学会第31回年次大会発表論文集. 2025.
更新履歴 †
v.2.0 (2025/3/1):
- コーパスの日本語呼称を技能者インタビュー対話コーパスに変更
- 各種アノテーションの追加
- 参考文献の更新