CIDC のバックアップ(No.1) - LANGUAGE MEDIA PROCESSING LAB

日本語映画推薦対話データセット-fake　(JMRD) †

本データセットは映画推薦を題材にした，外部知識に基づいた日本語対話データセットです．推薦者側の発話には外部知識として映画情報が紐付けられています．対話収集はクラウドソーシングを用いて行い，約5,000対話，平均23ターンからなるデータセットとなっています．

データの詳細はGithubをご参照ください．

ダウンロード †

データセットのダウンロードは以下のGithubリポジトリからお願いします．

問い合わせ †

GithubのIssuesへの投稿をお願いします

参考文献 †

[1] 児玉貴志, 田中リベカ, 黒橋禎夫: 外部知識に基づく発話生成に向けた日本語映画推薦対話データセットの構築, 言語処理学会第27回年次大会 (NLP 2021), pp.864-869, 北九州, 2021. pdf

[2] Takashi Kodama, Ribeka Tanaka, and Sadao Kurohashi: Construction of Hierarchical Structured Knowledge-based Recommendation Dialogue Dataset and Dialogue System, In Proceedings of The 2nd DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering, pp.83-92, Dublin, Ireland, 2022. pdf

日本語映画推薦対話データセット-fake (JMRD) †

ダウンロード †

問い合わせ †

参考文献 †

日本語映画推薦対話データセット-fake　(JMRD) †