#author("2021-03-17T09:51:27+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
#author("2023-06-02T17:28:03+09:00","default:kurohashi_kawahara_lab","kurohashi_kawahara_lab")
* BART日本語Pretrainedモデル [#w3c74830]

BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは[[英語pretrainedモデル:https://github.com/pytorch/fairseq/blob/33cefe372812f42eb6b1fb5dcc07f3f7f810c5ea/examples/bart/README.md]]と[[多言語pretrainedモデル:https://github.com/pytorch/fairseq/tree/33cefe372812f42eb6b1fb5dcc07f3f7f810c5ea/examples/mbart]]が公開されています。

今回、日本語テキストのみを使ってpretrainingしましたので公開します。

&color(red){2023/05/09追記: Hugging Face hubでも公開しています ([[Base>https://huggingface.co/ku-nlp/bart-base-japanese]], [[Large>https://huggingface.co/ku-nlp/bart-large-japanese]])。};

** 詳細 [#raa3abd8]
- 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全角に正規化)
-- Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentencePieceでsubwordに分割したもの
- Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers, 1024-hidden
- Base: 50万step, Large: 25万step
-- Baseは4GPU (Tesla V100) で約2週間、Largeは約1ヶ月
- 語彙数: 32,000
- batchサイズ: 512

** 使用法 [#r1a2e991]
[[次のページ:https://github.com/utanaka2000/fairseq/blob/japanese_bart_pretrained_model/JAPANESE_BART_README.md]]を参照してください。
- 注意: 上記ページのコマンドは[[fairseqをforkしたリポジトリ:https://github.com/utanaka2000/fairseq]]のjapanese_bart_pretrained_modelブランチのコードが必要です。 
- 追記 
-- 2021/03/16 : v2.0をアップロードしました。v1とはpretraining時のタスクの種類が異なります。v1のタスクはtext infillingのみ、v2はtext infillingとsentence permutationを行っています。
-- 2020/11/10 : Base v1.0のモデルに不備があり、pretrainingが不十分なモデルだったため、修正したBase v1.1をアップロードしました。(Large v1.0に不備はありません。)

** ライセンス [#k0e35505]
MIT License

** 参考文献 [#c5167638]
- 田中佑, 村脇有吾, 河原大輔, 黒橋禎夫: 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良, 言語処理学会第27回年次大会, 2021.

** 更新履歴 [#gf008af6]
- 2023/05/09 Hugging Face hub でも公開
- 2021/03/17 参考文献の追加
- 2021/03/16 v2.0をアップロード
- 2020/11/10 Baseのv1.1をアップロード
- 2020/10/28 公開

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS