[日本語] /
[English]
京都大学
大学院情報学研究科
知能情報学コース
言語メディア分野(
工学部電気電子工学科
)
研究室へのアクセス
Top
メンバー
研究紹介
研究内容
研究助成一覧
学位取得者一覧
研究発表一覧
2024年度
2023年度
2022年度
2021年度
2020年度
2019年度
2018年度
2017年度
2016年度
2015年度
2014年度
2013年度
2012年度
2011年度
2010年度
2009年度
2008年度
2007年度
2006年度
NLPリソース
===ツール===
日本語解析器KWJA
形態素解析システムJUMAN
形態素解析システムJuman++
構文解析システムKNP
┗ PyKNP
解析結果汎用表示ツール
機械翻訳システムKyotoEBMT
===データ===
京大テキストコーパス
京大ウェブ文書リードコーパス
京大格フレーム
京大名詞格フレーム
日本語Wikipedia入力誤りデータ
基本料理知識ベース
BERT日本語Pretrainedモデル
RTE評価データ
日英中基本文データ
日本語SNLI(JSNLI)データセット
京都大学常識推論データセット
述部意味関係コーパス
ASPEC
SCTB
CTB5.0 Re-annotation
CTB5 chara POS annotation
TriTechDict
内部ページ
開始行:
''Last Update: 2024-02-16'' [[[Eng...
* 京都大学常識推論データセット(KUCI) [#i51a4a40]
KUCIは、基本的な蓋然的関係を推論する能力(''常識推論能力''...
本データセットは基本的なイベント表現間の蓋然的関係を問う...
また,本データセットは
+ 生コーパスからの蓋然的関係を持つ基本的なイベント表現の...
+ クラウドソーシングによる確認
+ 常識推論問題の自動生成
という半自動的な構築手法が特徴です。~
例えば、以下のような常識推論問題が含まれます:
電池の減りはやはり早いので、
a. 実際の半導体製造装置は実現しません
b. 今回は期間限定でのお届けになります
c. 原子炉を手動停止する
d. 充電用にUSBケーブル買います
タスクは「与えられた文脈に続く文として、最も適切だと考え...
上記の場合、"d"が正解となります。
** 用語の定義 [#t0367ebc]
cf. [2], [3]
: ''蓋然的関係''|一方が他方を引き起こし得る事態間に成立す...
: ''コアイベント''|(格フレームから獲得される)高頻度な述語...
: ''ベース''|各問題の文脈と正解選択肢の組
** 統計 [#v2e78023]
|CENTER:Train|CENTER:Dev|CENTER:Test|h
|83,127|10,228|10,291|
上記に加えて、86万問の疑似問題を公開しています。
- [[疑似問題をダウンロード (98MB):https://nlp.ist.i.kyoto...
** データフォーマット [#gb9146a4]
データフォーマットは JSON Lines を採用しています。
{
"id": 0,
"context": "電池 の 減り は やはり 早い ので 、",
"choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ...
"choice_b": "今回 は 期間 限定 で の お 届け に なり ...
"choice_c": "原子 炉 を 手動 停止 する",
"choice_d": "充電 用 に USB ケーブル 買い ます"
"label": "d",
"agreement": 2,
"core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル...
}
|CENTER:キー|CENTER:型|CENTER:説明|h
|id|int|各問題の整数のID (0-origin)|
|context|str|文脈 (形態素解析器 Juman++ Version: 2.0.0-rc...
|choice_{a, b, c, d}|str|選択肢 (〃)|
|label|str|正解選択肢に対応する文字 ({a, b, c, d}のいずれ...
|agreement|int|ベースに蓋然的関係があると評価したクラウド...
|core_event_pair|str|ベースを構成するコアイベントの組|
** ライセンス [#vae04968]
本データセットには [[Creative Commons Attribution-ShareAl...
問題等ございましたら "nl-resource at nlp.ist.i.kyoto-u.ac...
(" at " = @)
** 外部リンク [#r0e8dd9f]
- [[GitHub:https://github.com/ku-nlp/KUCI]]
-- データセットの管理をGitHubに移行しました。
- [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/app/KUCI...
-- 訓練データの一部を出題しています。
- [[疑似問題 (98MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-re...
** 履歴 [#f833caab]
- 2024-02-16: ライセンスを付与
- 2022-09-22: 疑似問題を公開
- 2020-10-07: データセット名を「京都大学常識推論データセ...
- 2020-10-06: v1.0を公開
** 参考文献 [#hdf2eef6]
- [1] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohas...
A Method for Building a Commonsense Inference Dataset bas...
In Proceedings of the 2020 Conference on Empirical Method...
- [2] Kazumasa Omura and Sadao Kurohashi.~
Improving Commonsense Contingent Reasoning by Pseudo-data...
In Proceedings of the 29th International Conference on Co...
- [3] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohas...
Building a Commonsense Inference Dataset based on Basic E...
Journal of Natural Language Processing, 30(4), pages 1206...
(in Japanese)
終了行:
''Last Update: 2024-02-16'' [[[Eng...
* 京都大学常識推論データセット(KUCI) [#i51a4a40]
KUCIは、基本的な蓋然的関係を推論する能力(''常識推論能力''...
本データセットは基本的なイベント表現間の蓋然的関係を問う...
また,本データセットは
+ 生コーパスからの蓋然的関係を持つ基本的なイベント表現の...
+ クラウドソーシングによる確認
+ 常識推論問題の自動生成
という半自動的な構築手法が特徴です。~
例えば、以下のような常識推論問題が含まれます:
電池の減りはやはり早いので、
a. 実際の半導体製造装置は実現しません
b. 今回は期間限定でのお届けになります
c. 原子炉を手動停止する
d. 充電用にUSBケーブル買います
タスクは「与えられた文脈に続く文として、最も適切だと考え...
上記の場合、"d"が正解となります。
** 用語の定義 [#t0367ebc]
cf. [2], [3]
: ''蓋然的関係''|一方が他方を引き起こし得る事態間に成立す...
: ''コアイベント''|(格フレームから獲得される)高頻度な述語...
: ''ベース''|各問題の文脈と正解選択肢の組
** 統計 [#v2e78023]
|CENTER:Train|CENTER:Dev|CENTER:Test|h
|83,127|10,228|10,291|
上記に加えて、86万問の疑似問題を公開しています。
- [[疑似問題をダウンロード (98MB):https://nlp.ist.i.kyoto...
** データフォーマット [#gb9146a4]
データフォーマットは JSON Lines を採用しています。
{
"id": 0,
"context": "電池 の 減り は やはり 早い ので 、",
"choice_a": "実際 の 半導体 製造 装置 は 実現 し ませ ...
"choice_b": "今回 は 期間 限定 で の お 届け に なり ...
"choice_c": "原子 炉 を 手動 停止 する",
"choice_d": "充電 用 に USB ケーブル 買い ます"
"label": "d",
"agreement": 2,
"core_event_pair": "減り/へりv,ガ,早い/はやい|ケーブル...
}
|CENTER:キー|CENTER:型|CENTER:説明|h
|id|int|各問題の整数のID (0-origin)|
|context|str|文脈 (形態素解析器 Juman++ Version: 2.0.0-rc...
|choice_{a, b, c, d}|str|選択肢 (〃)|
|label|str|正解選択肢に対応する文字 ({a, b, c, d}のいずれ...
|agreement|int|ベースに蓋然的関係があると評価したクラウド...
|core_event_pair|str|ベースを構成するコアイベントの組|
** ライセンス [#vae04968]
本データセットには [[Creative Commons Attribution-ShareAl...
問題等ございましたら "nl-resource at nlp.ist.i.kyoto-u.ac...
(" at " = @)
** 外部リンク [#r0e8dd9f]
- [[GitHub:https://github.com/ku-nlp/KUCI]]
-- データセットの管理をGitHubに移行しました。
- [[デモ:https://lotus.kuee.kyoto-u.ac.jp/~omura/app/KUCI...
-- 訓練データの一部を出題しています。
- [[疑似問題 (98MB):https://nlp.ist.i.kyoto-u.ac.jp/nl-re...
** 履歴 [#f833caab]
- 2024-02-16: ライセンスを付与
- 2022-09-22: 疑似問題を公開
- 2020-10-07: データセット名を「京都大学常識推論データセ...
- 2020-10-06: v1.0を公開
** 参考文献 [#hdf2eef6]
- [1] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohas...
A Method for Building a Commonsense Inference Dataset bas...
In Proceedings of the 2020 Conference on Empirical Method...
- [2] Kazumasa Omura and Sadao Kurohashi.~
Improving Commonsense Contingent Reasoning by Pseudo-data...
In Proceedings of the 29th International Conference on Co...
- [3] Kazumasa Omura, Daisuke Kawahara, and Sadao Kurohas...
Building a Commonsense Inference Dataset based on Basic E...
Journal of Natural Language Processing, 30(4), pages 1206...
(in Japanese)
ページ名: