BART日本語Pretrainedモデル †
BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは英語pretrainedモデルと多言語pretrainedモデルが公開されています。
今回、日本語テキストのみを使ってpretrainingしましたので公開します。
2023/05/09追記: Hugging Face hubでも公開しています (Base, Large)。
詳細 †
- 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全角に正規化)
- Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentencePieceでsubwordに分割したもの
- Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers, 1024-hidden
- Base: 50万step, Large: 25万step
- Baseは4GPU (Tesla V100) で約2週間、Largeは約1ヶ月
- 語彙数: 32,000
- batchサイズ: 512
使用法 †
次のページを参照してください。
- 注意: 上記ページのコマンドはfairseqをforkしたリポジトリのjapanese_bart_pretrained_modelブランチのコードが必要です。
- 追記
- 2021/03/16 : v2.0をアップロードしました。v1とはpretraining時のタスクの種類が異なります。v1のタスクはtext infillingのみ、v2はtext infillingとsentence permutationを行っています。
- 2020/11/10 : Base v1.0のモデルに不備があり、pretrainingが不十分なモデルだったため、修正したBase v1.1をアップロードしました。(Large v1.0に不備はありません。)
ライセンス †
MIT License
参考文献 †
- 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良, 言語処理学会第27回年次大会, 2021.
更新履歴 †
- 2023/05/09 Hugging Face hub でも公開
- 2021/03/17 参考文献の追加
- 2021/03/16 v2.0をアップロード
- 2020/11/10 Baseのv1.1をアップロード
- 2020/10/28 公開