料理インタビュー対話コーパス (Culinary Interview Dialog Corpus: CIDC) †
CIDCは、オンラインビデオ通話を用いて、料理ドメインにおける技能者からインタビュアーが料理のコツを積極的に引き出そうとしているインタビュー対話の動画・音声・書き起こしテキストのコーパスです。コーパスの規模は10~15分のインタビュー308対話です。対話の参加者として、技能者は料理のプロか料理好きが、インタビュアーはインタビュー経験のある者かその経験のない者が参加しています。本コーパスは、国立研究開発法人新エネルギー・産業技術総合開発機構 (NEDO) の委託業務 (JPNP20006) の結果得られたものです。
対話データの収集において、最初の20対話は暫定的な条件で予備収集したもので(Interview_1~Interview_20)、残りの288対話は最終的な条件で本収集したものです。
ダウンロード †
データセットのダウンロードは以下のリンクからお願いします.
詳細 †
- 対話情報 (info.csv)
- 料理インタビューの各対話に関する情報です。一列目は対話のID、二列目から五列目は技能者についての情報、六列目から九列目はインタビュアーについての情報、十列目から十三列目はインタビューの事前提出資料に関する情報(本収集のみ)、十四列目から二十列目は対話後に行ったアンケートの回答結果です。インタビューの事前提出資料とアンケートの詳細については、技術資料 (NEDO_CIDC_report.pdf) を参照してください。
- 料理インタビュー対話動画 (video/)
- 料理インタビューの対話画面をZoomの録画機能で録画した動画ファイル(.mp4)です。
- 料理インタビュー対話音声 (audio/)
- 料理インタビューの対話画面をZoomの録音機能で録音した音声ファイル(.wav)です。技能者側のみの音声(Interview_#_s.wav)、インタビュー側のみの音声(Interview_#_i.wav)、両者の声が一緒に録音された音声(Interview_#.wav)の3種類があります。なお、予備実験で集めた20対話は両者の声が一緒に録音された音声のみです。
- 料理インタビュー対話書き起こし (transcript/)
- 料理インタビューの発話内容を書き起こしたテキストファイル(.xml)です。書き起こしの方法については技術資料 (NEDO_CIDC_report.pdf) を参照してください。
ライセンス †
CIDCは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際ライセンス (https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ja ) の下に提供されています。
参考文献 †
- [1] Taro Okahisa, Ribeka Tanaka, Takashi Kodama, Yin Jou Huang and Sadao Kurohashi. (2022). “Constructing a Culinary Interview Dialogue Corpus with Video Conferencing Tool.” In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pp. 3131–3139.
- [2] 岡久 太郎, 田中 リベカ, 児玉 貴志, Yin Jou Huang, 黒橋 禎夫. (2022) “ウェブ会議システムを利用した料理インタビュー対話コーパス.” 言語処理学会 第28回年次大会.