BART日本語Pretrainedモデル †
BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは英語pretrainedモデルと多言語pretrainedモデルが公開されています。
今回、日本語テキストのみを使ってpretrainingしましたので公開します。
詳細 †
- 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全角に正規化)
- Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentencePieceでsubwordに分割したもの
- Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers, 1024-hidden
- Base: 50万step, Large: 25万step
- Baseは4GPU (Tesla V100) で約2週間、largeは約1ヶ月
- 語彙数: 32,000
- batchサイズ: 512
使用法 †
次のページを参照してください。
ライセンス †
MIT License
更新履歴 †