BART日本語Pretrainedモデルの変更点 - LANGUAGE MEDIA PROCESSING LAB

#author("2021-03-17T09:51:27+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") #author("2023-06-02T17:28:03+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab") * BART日本語Pretrainedモデル [#w3c74830] BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは[[英語pretrainedモデル:https://github.com/pytorch/fairseq/blob/33cefe372812f42eb6b1fb5dcc07f3f7f810c5ea/examples/bart/README.md]]と[[多言語pretrainedモデル:https://github.com/pytorch/fairseq/tree/33cefe372812f42eb6b1fb5dcc07f3f7f810c5ea/examples/mbart]]が公開されています。今回、日本語テキストのみを使ってpretrainingしましたので公開します。 &color(red){2023/05/09追記: Hugging Face hubでも公開しています ([[Base>https://huggingface.co/ku-nlp/bart-base-japanese]], [[Large>https://huggingface.co/ku-nlp/bart-large-japanese]])。}; ** 詳細 [#raa3abd8] - 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全角に正規化) -- Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentencePieceでsubwordに分割したもの - Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers, 1024-hidden - Base: 50万step, Large: 25万step -- Baseは4GPU (Tesla V100) で約2週間、Largeは約1ヶ月 - 語彙数: 32,000 - batchサイズ: 512 ** 使用法 [#r1a2e991] [[次のページ:https://github.com/utanaka2000/fairseq/blob/japanese_bart_pretrained_model/JAPANESE_BART_README.md]]を参照してください。 - 注意: 上記ページのコマンドは[[fairseqをforkしたリポジトリ:https://github.com/utanaka2000/fairseq]]のjapanese_bart_pretrained_modelブランチのコードが必要です。 - 追記 -- 2021/03/16 : v2.0をアップロードしました。v1とはpretraining時のタスクの種類が異なります。v1のタスクはtext infillingのみ、v2はtext infillingとsentence permutationを行っています。 -- 2020/11/10 : Base v1.0のモデルに不備があり、pretrainingが不十分なモデルだったため、修正したBase v1.1をアップロードしました。(Large v1.0に不備はありません。) ** ライセンス [#k0e35505] MIT License ** 参考文献 [#c5167638] - 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良, 言語処理学会第27回年次大会, 2021. ** 更新履歴 [#gf008af6] - 2023/05/09 Hugging Face hub でも公開 - 2021/03/17 参考文献の追加 - 2021/03/16 v2.0をアップロード - 2020/11/10 Baseのv1.1をアップロード - 2020/10/28 公開