[日本語] /
[English]
京都大学
大学院情報学研究科
知能情報学コース
言語メディア分野(
工学部電気電子工学科
)
研究室へのアクセス
Top
メンバー
研究紹介
研究内容
研究助成一覧
学位取得者一覧
研究発表一覧
2024年度
2023年度
2022年度
2021年度
2020年度
2019年度
2018年度
2017年度
2016年度
2015年度
2014年度
2013年度
2012年度
2011年度
2010年度
2009年度
2008年度
2007年度
2006年度
NLPリソース
===ツール===
日本語解析器KWJA
形態素解析システムJUMAN
形態素解析システムJuman++
構文解析システムKNP
┗ PyKNP
解析結果汎用表示ツール
機械翻訳システムKyotoEBMT
===データ===
京大テキストコーパス
京大ウェブ文書リードコーパス
京大格フレーム
京大名詞格フレーム
日本語Wikipedia入力誤りデータ
基本料理知識ベース
BERT日本語Pretrainedモデル
RTE評価データ
日英中基本文データ
日本語SNLI(JSNLI)データセット
京都大学常識推論データセット
述部意味関係コーパス
ASPEC
SCTB
CTB5.0 Re-annotation
CTB5 chara POS annotation
TriTechDict
内部ページ
開始行:
* BART日本語Pretrainedモデル [#w3c74830]
BARTは、encoder-decoder型のpretrainingモデルで、BARTの公...
今回、日本語テキストのみを使ってpretrainingしましたので公...
&color(red){2023/05/09追記: Hugging Face hubでも公開して...
** 詳細 [#raa3abd8]
- 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全...
-- Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentenceP...
- Base: 6 encoder-decoder layers, 768 hidden, Large: 12 e...
- Base: 50万step, Large: 25万step
-- Baseは4GPU (Tesla V100) で約2週間、Largeは約1ヶ月
- 語彙数: 32,000
- batchサイズ: 512
** 使用法 [#r1a2e991]
[[次のページ:https://github.com/utanaka2000/fairseq/blob/...
- 注意: 上記ページのコマンドは[[fairseqをforkしたリポジト...
- 追記
-- 2021/03/16 : v2.0をアップロードしました。v1とはpretrai...
-- 2020/11/10 : Base v1.0のモデルに不備があり、pretrainin...
** ライセンス [#k0e35505]
MIT License
** 参考文献 [#c5167638]
- 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: 日本語Wikipediaの...
** 更新履歴 [#gf008af6]
- 2023/05/09 Hugging Face hub でも公開
- 2021/03/17 参考文献の追加
- 2021/03/16 v2.0をアップロード
- 2020/11/10 Baseのv1.1をアップロード
- 2020/10/28 公開
終了行:
* BART日本語Pretrainedモデル [#w3c74830]
BARTは、encoder-decoder型のpretrainingモデルで、BARTの公...
今回、日本語テキストのみを使ってpretrainingしましたので公...
&color(red){2023/05/09追記: Hugging Face hubでも公開して...
** 詳細 [#raa3abd8]
- 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全...
-- Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentenceP...
- Base: 6 encoder-decoder layers, 768 hidden, Large: 12 e...
- Base: 50万step, Large: 25万step
-- Baseは4GPU (Tesla V100) で約2週間、Largeは約1ヶ月
- 語彙数: 32,000
- batchサイズ: 512
** 使用法 [#r1a2e991]
[[次のページ:https://github.com/utanaka2000/fairseq/blob/...
- 注意: 上記ページのコマンドは[[fairseqをforkしたリポジト...
- 追記
-- 2021/03/16 : v2.0をアップロードしました。v1とはpretrai...
-- 2020/11/10 : Base v1.0のモデルに不備があり、pretrainin...
** ライセンス [#k0e35505]
MIT License
** 参考文献 [#c5167638]
- 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: 日本語Wikipediaの...
** 更新履歴 [#gf008af6]
- 2023/05/09 Hugging Face hub でも公開
- 2021/03/17 参考文献の追加
- 2021/03/16 v2.0をアップロード
- 2020/11/10 Baseのv1.1をアップロード
- 2020/10/28 公開
ページ名: