[日本語] /
[English]
京都大学
大学院情報学研究科
知能情報学コース
言語メディア分野(
工学部電気電子工学科
)
研究室へのアクセス
Top
メンバー
研究紹介
研究内容
研究助成一覧
学位取得者一覧
研究発表一覧
2024年度
2023年度
2022年度
2021年度
2020年度
2019年度
2018年度
2017年度
2016年度
2015年度
2014年度
2013年度
2012年度
2011年度
2010年度
2009年度
2008年度
2007年度
2006年度
NLPリソース
===ツール===
日本語解析器KWJA
形態素解析システムJUMAN
形態素解析システムJuman++
構文解析システムKNP
┗ PyKNP
解析結果汎用表示ツール
機械翻訳システムKyotoEBMT
===データ===
京大テキストコーパス
京大ウェブ文書リードコーパス
京大格フレーム
京大名詞格フレーム
日本語Wikipedia入力誤りデータ
基本料理知識ベース
BERT日本語Pretrainedモデル
RTE評価データ
日英中基本文データ
日本語SNLI(JSNLI)データセット
京都大学常識推論データセット
述部意味関係コーパス
ASPEC
SCTB
CTB5.0 Re-annotation
CTB5 chara POS annotation
TriTechDict
内部ページ
開始行:
* 不満調査データセットタグ付きコーパス [#kd7f5400]
** 概要 [#y8475186]
本コーパスは、様々な言語アノテーション付き不満文書で構成...
言語アノテーションは、形態素、固有表現、係り受け、ゼロ照...
** ダウンロード [#n3add5b3]
[[不満調査データセットタグ付きコーパス Version 1.0:https:...
** 配布するファイル [#w35f8089]
- knp/ : 形態素、固有表現、係り受け、述語項構造、及び共参...
- org/ : テキストコーパス
- doc/ : アノテーションガイドライン
- id/ : 訓練データとテストデータを分割した文書IDファイル
** アノテーションガイドライン [#mcc2433a]
アノテーションガイドラインは、"doc"ディレクトリにあります...
** コーパスのデータ形式 [#lade5732]
このコーパスのフォーマットは、以下のとおりです。
# S-ID:fuman-trip-0000000001-1
* 2D
+ 3D
太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0
は は は 助詞 9 副助詞 2 * 0 * 0
* 2D
+ 2D
京都 きょうと 京都 名詞 6 地名 4 * 0 * 0
+ 3D <NE:ORGANIZATION:京都大学>
大学 だいがく 大学 名詞 6 普通名詞 1 * 0 * 0
に に に 助詞 9 格助詞 1 * 0 * 0
* -1D
+ -1D <rel type="ガ" target="太郎" sid="fuman-trip-00000...
行った いった 行く 動詞 2 * 0 子音動詞カ行促音便形 3 タ...
EOS
このデータ形式の詳細については、[[ 京都大学ウェブ文書リー...
** 参考文献 [#lbdb1e01]
- 萩行正嗣, 河原大輔, 黒橋禎夫. 多様な文書の書き始めに対...
https://doi.org/10.5715/jnlp.21.213
** 謝辞 [#n069d808]
このコーパスは、株式会社 Insight Tech 様のご協力を得て構...
** 著作権 [#l1291e98]
不満文書の著作権は、株式会社 Insight Tech 様に帰属します。
アノテーション情報の著作権は、京都大学黒橋研究室に帰属し...
** ライセンス [#y387e3b5]
このコーパスのライセンスは、[[CC BY-NC-SA4.0:https://crea...
このコーパスの使用目的は、学術研究に限定されます。
** 連絡先 [#c59e1a88]
このコーパスについて質問や問題がある場合は、"nl-resource ...
終了行:
* 不満調査データセットタグ付きコーパス [#kd7f5400]
** 概要 [#y8475186]
本コーパスは、様々な言語アノテーション付き不満文書で構成...
言語アノテーションは、形態素、固有表現、係り受け、ゼロ照...
** ダウンロード [#n3add5b3]
[[不満調査データセットタグ付きコーパス Version 1.0:https:...
** 配布するファイル [#w35f8089]
- knp/ : 形態素、固有表現、係り受け、述語項構造、及び共参...
- org/ : テキストコーパス
- doc/ : アノテーションガイドライン
- id/ : 訓練データとテストデータを分割した文書IDファイル
** アノテーションガイドライン [#mcc2433a]
アノテーションガイドラインは、"doc"ディレクトリにあります...
** コーパスのデータ形式 [#lade5732]
このコーパスのフォーマットは、以下のとおりです。
# S-ID:fuman-trip-0000000001-1
* 2D
+ 3D
太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0
は は は 助詞 9 副助詞 2 * 0 * 0
* 2D
+ 2D
京都 きょうと 京都 名詞 6 地名 4 * 0 * 0
+ 3D <NE:ORGANIZATION:京都大学>
大学 だいがく 大学 名詞 6 普通名詞 1 * 0 * 0
に に に 助詞 9 格助詞 1 * 0 * 0
* -1D
+ -1D <rel type="ガ" target="太郎" sid="fuman-trip-00000...
行った いった 行く 動詞 2 * 0 子音動詞カ行促音便形 3 タ...
EOS
このデータ形式の詳細については、[[ 京都大学ウェブ文書リー...
** 参考文献 [#lbdb1e01]
- 萩行正嗣, 河原大輔, 黒橋禎夫. 多様な文書の書き始めに対...
https://doi.org/10.5715/jnlp.21.213
** 謝辞 [#n069d808]
このコーパスは、株式会社 Insight Tech 様のご協力を得て構...
** 著作権 [#l1291e98]
不満文書の著作権は、株式会社 Insight Tech 様に帰属します。
アノテーション情報の著作権は、京都大学黒橋研究室に帰属し...
** ライセンス [#y387e3b5]
このコーパスのライセンスは、[[CC BY-NC-SA4.0:https://crea...
このコーパスの使用目的は、学術研究に限定されます。
** 連絡先 [#c59e1a88]
このコーパスについて質問や問題がある場合は、"nl-resource ...
ページ名: