運転ドメインQAデータセット †
運転ドメインQAデータセットは、ウェブ上で公開されている運転ドメインのブログ記事を基に構築しており、述語項構造QAデータセット(PAS-QAデータセット)と文章読解QAデータセット(RC-QAデータセット)で構成されています。PAS-QAデータセットは、ガ格、ヲ格及びニ格について省略されている項の先行詞を問う問題であり、ガ格は12,468問、ヲ格は1,497問、ニ格は387問作成しました。また、RC-QAデータセットは文章の中から質問に対する答えを抽出する問題であり、20,007問作成しました。QAデータセットの形式は、PAS-QAデータセットのガ格とRC-QAデータセットについてはSQuAD1.0と同じであり、PAS-QAデータセットのヲ格とニ格についてはSQuAD2.0と同じです。QAデータセットの作成には、大規模かつ短期間でデータセットを作成可能なクラウドソーシングを利用しました。SQuADのデータ形式とデータセットの構築方法については、参考文献をご参照ください。
ダウンロード †
運転ドメインQAデータセット Version 1.0 (tar.gz圧縮; 4,527,262 bytes): ダウンロードページ
※ ダウンロードするには、お名前とメールアドレスを入力し、ダウンロード条件に同意していただく必要があります。
更新履歴 †
- Version 1.0 - 2019/10/25公開
参考文献 †
- 高橋 憲生、柴田 知秀、河原 大輔、黒橋 禎夫
ドメインを限定した機械読解モデルに基づく述語項構造解析
言語処理学会 第25回年次大会 発表論文集 (2019年3月)
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/B1-4.pdf
- Norio Takahashi, Tomohide Shibata, Daisuke Kawahara and Sadao Kurohashi.
Machine Comprehension Improves Domain-Specific Japanese Predicate-Argument Structure Analysis,
In Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Workshop MRQA: Machine Reading for Question Answering, 2019.
https://mrqa.github.io/assets/papers/42_Paper.pdf
- Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev and Percy Liang.
SQuAD: 100,000+ Questions for Machine Comprehension of Text,
In EMNLP2016, pages 2383–2392.
https://www.aclweb.org/anthology/D16-1264.pdf
※SQuAD1.0に関する論文
- Pranav Rajpurkar, Robin Jia, and Percy Liang.
Know what you don’t know: Unanswerable questions for SQuAD,
In ACL2018, pages 784–789.
https://www.aclweb.org/anthology/P18-2124.pdf
※SQuAD2.0に関する論文
問い合わせ先 †
本データセットに関するご意見、ご質問は nl-resource あっと nlp.ist.i.kyoto-u.ac.jp宛にお願いいたします。データセットに含まれるブログ記事への典拠情報の付与、ブログ記事の削除などをご希望の場合にもこのメールアドレスにご連絡をお願いします。