BART日本語Pretrainedモデル †
BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは英語pretrainedモデルと多言語pretrainedモデルが公開されています。
公開されている多言語pretrainedモデルを使って、日本語のタスクでfinetuningすることも可能ですが、
公開モデルの日本語文のtoken分割単位は適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubword分割したものをtoken分割単位として日本語テキストのみ(Wikipedia)でpretrainingしました。
詳細 †
- 入力テキスト: 日本語Wikipedia全て(約1800万文、半角を全角に正規化)
- Juman++(v2.0.0)で形態素に分割し、さらにSentencePieceでsubwordに分割したもの
- Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers, 1024-hidden
- Base: 50万step, Large: 25万step
- Baseは4GPU(Tesla V100)で約2週間、largeは約1ヶ月
- 語彙数: 32,000
- batchサイズ: 512
使用法 †
次のページを参照してください。
ライセンス †
MIT License
更新履歴 †