BART日本語Pretrainedモデルのバックアップ(No.2)

BART日本語Pretrainedモデル †

BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは英語pretrainedモデルと多言語pretrainedモデルが公開されています。公開されている多言語pretrainedモデルを使って、日本語のタスクでfinetuningすることも可能ですが、公開モデルの日本語文のtoken分割単位は適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubword分割したものをtoken分割単位として日本語テキストのみ(Wikipedia)でpretrainingしました。

詳細 †

入力テキスト: 日本語Wikipedia全て(約1800万文、半角を全角に正規化)

Juman++(v2.0.0)で形態素に分割し、さらにSentencePieceでsubwordに分割したもの

Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers, 1024-hidden

Base: 50万step, Large: 25万step

Baseは4GPU(Tesla V100)で約2週間、largeは約1ヶ月

語彙数: 32,000

batchサイズ: 512

使用法 †

次のページを参照してください。

注意: 上記ページのコマンドはfairseqをforkしたリポジトリのjapanese_bart_pretrained_modelブランチのコードが必要です。

ライセンス †

MIT License

更新履歴 †

2020/10/26 公開