運転ドメインQAデータセット

運転ドメインQAデータセットは、ウェブ上で公開されている運転ドメインのブログ記事を基に構築しており、述語項構造QAデータセット(PAS-QAデータセット)と文章読解QAデータセット(RC-QAデータセット)で構成されています。PAS-QAデータセットは、ガ格、ヲ格及びニ格について省略されている項の先行詞を問う問題であり、ガ格は12,468問、ヲ格は3,151問、ニ格は1,069問作成しました。また、RC-QAデータセットは文章の中から質問に対する答えを抽出する問題であり、20,007問作成しました。QAデータセットの形式は、PAS-QAデータセットのガ格とRC-QAデータセットについてはSQuAD1.0と同じであり、PAS-QAデータセットのヲ格とニ格についてはSQuAD2.0と同じです。QAデータセットの作成には、大規模かつ短期間でデータセットを作成可能なクラウドソーシングを利用しました。SQuADのデータ形式とデータセットの構築方法については、参考文献をご参照ください。   

ダウンロード

運転ドメインQAデータセット Version 1.0 (tar.gz圧縮; 4,527,262 bytes): ダウンロードページ
※ ダウンロードするには、お名前とメールアドレスを入力し、ダウンロード条件に同意していただく必要があります。
  
各QAデータセットのファイル名は以下のとおりです。

データセット用途ファイル名
RC-QAtrainDDQA-1.0_RC-QA_train.json
RC-QAdevDDQA-1.0_RC-QA_dev.json
RC-QAtestDDQA-1.0_RC-QA_test.json
PAS-QA(ガ格)trainDDQA-1.0_PAS-QA-NOM_train.json
PAS-QA(ガ格)devDDQA-1.0_PAS-QA-NOM_dev.json
PAS-QA(ガ格)testDDQA-1.0_PAS-QA-NOM_test.json
PAS-QA(ヲ格)trainDDQA-1.0_PAS-QA-ACC_train.json
PAS-QA(ヲ格)devDDQA-1.0_PAS-QA-ACC_dev.json
PAS-QA(ヲ格)testDDQA-1.0_PAS-QA-ACC_test.json
PAS-QA(ニ格)trainDDQA-1.0_PAS-QA-DAT_train.json
PAS-QA(ニ格)devDDQA-1.0_PAS-QA-DAT_dev.json
PAS-QA(ニ格)testDDQA-1.0_PAS-QA-DAT_test.json

  

更新履歴

参考文献

問い合わせ先

本データセットに関するご意見、ご質問は nl-resource あっと nlp.ist.i.kyoto-u.ac.jp宛にお願いいたします。データセットに含まれるブログ記事への典拠情報の付与、ブログ記事の削除などをご希望の場合にもこのメールアドレスにご連絡をお願いします。


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS