[日本語] /
[English]
京都大学
大学院情報学研究科
知能情報学コース
言語メディア分野(
工学部電気電子工学科
)
研究室へのアクセス
Top
メンバー
研究紹介
研究内容
研究助成一覧
学位取得者一覧
研究発表一覧
2024年度
2023年度
2022年度
2021年度
2020年度
2019年度
2018年度
2017年度
2016年度
2015年度
2014年度
2013年度
2012年度
2011年度
2010年度
2009年度
2008年度
2007年度
2006年度
NLPリソース
===ツール===
日本語解析器KWJA
形態素解析システムJUMAN
形態素解析システムJuman++
構文解析システムKNP
┗ PyKNP
解析結果汎用表示ツール
機械翻訳システムKyotoEBMT
===データ===
京大テキストコーパス
京大ウェブ文書リードコーパス
京大格フレーム
京大名詞格フレーム
日本語Wikipedia入力誤りデータ
基本料理知識ベース
BERT日本語Pretrainedモデル
RTE評価データ
日英中基本文データ
日本語SNLI(JSNLI)データセット
京都大学常識推論データセット
述部意味関係コーパス
ASPEC
SCTB
CTB5.0 Re-annotation
CTB5 chara POS annotation
TriTechDict
内部ページ
開始行:
* BERT日本語Pretrainedモデル [#p7ab9b26]
近年提案されたBERTが様々なタスクで精度向上を達成していま...
多言語pretrainedモデルには日本語も含まれていますので日本...
&color(red){2022年1月21日追記};: このモデルは古くなってい...
** ダウンロード [#k1aa6ee3]
BERTのモデルはBASEとLARGEの2種類があります。また、通常版...
- BASE 通常版: [[Japanese_L-12_H-768_A-12_E-30_BPE.zip:ht...
- BASE WWM版: [[Japanese_L-12_H-768_A-12_E-30_BPE_WWM.zip...
- LARGE WWM版: [[Japanese_L-24_H-1024_A-16_E-30_BPE_WWM.z...
公式で配布されているpretrainedモデルと同様のファイル形式...
- TensorFlow checkpoint (bert_model.ckpt.meta, bert_model...
- 語彙リストファイル (vocab.txt)
- configファイル (bert_config.json)
が含まれています。また、pytorch版BERT ([[pytorch-pretrain...
(更新: 19/11/15) pytorch-pretrained-BERTは[[transformers:...
- BASE 通常版: [[Japanese_L-12_H-768_A-12_E-30_BPE_transf...
- BASE WWM版: [[Japanese_L-12_H-768_A-12_E-30_BPE_WWM_tra...
- LARGE WWM版: [[Japanese_L-24_H-1024_A-16_E-30_BPE_WWM_t...
** 詳細 [#r6199008]
以下に日本語pretrainedモデルの詳細を示します。
- 入力テキスト: 日本語Wikipedia全て (約1,800万文, 半角を...
- 入力テキストに[[Juman++:https://github.com/ku-nlp/juman...
- BERT_{BASE} (12-layer, 768-hidden, 12-heads) もしくは B...
- 30 epoch (BASEの場合、1GPU (GeForce GTX 1080 Tiを利用)...
-- 最新のGPUを使う、もしくは、Multi-GPUを使えるプログラム...
- 語彙数: 32,000 (形態素、subwordを含む)
- max_seq_length: 128
BERTの[[公式スクリプト:https://github.com/google-research...
export BERT_BASE_DIR=/path/to/Japanese_L-12_H-768_A-12_E...
python run_classifier.py \
...
--vocab_file=$BERT_BASE_DIR/vocab.txt \
--bert_config_file=$BERT_BASE_DIR/bert_config.json \
--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
--do_lower_case=False
入力テキストは半角を全角に正規化し、Juman++ (v2.0.0-rc2)...
注意: --do_lower_case=False オプションをつけてください。...
# text = self._tokenize_chinese_chars(text)
pytorch-pretrained-BERTでfinetuningする場合 (examples/run...
python run_classifier.py \
..
--bert_model $BERT_BASE_DIR
のようにしてモデルを指定し、--do_lower_case オプションを...
(更新: 19/11/15)
transformersでfinetuningする場合 (examples/run_glue.py)、
python run_glue.py \
--model_type bert \
--model_name_or_path $BERT_BASE_DIR \
..
のようにしてモデルを指定してください。transformersではモ...
なお、形態素解析を行わず、文に対してSentencepieceを用いて...
** 各タスクにおける精度 [#fb233636]
*** 構文解析 (基本句係り受け精度のF1) [#z526697f]
|モデル|ニュース|ウェブ|h
|BASE|93.57|92.23|
|BASE WWM|93.62|92.42|
|LARGE WWM|94.11|92.80|
※「ニュース」は京都大学テキストコーパス、「ウェブ」は京都...
** 参考文献 [#c8ee1db1]
柴田 知秀, 河原 大輔, 黒橋 禎夫: BERTによる日本語構文解析...
** 公開モデルを試していただいたサイト [#n18d5d52]
- [[BERT導入手順おさらい個人メモ:https://qiita.com/takaha...
- [[PYTORCHでBERTの日本語学習済みモデルを利用する - 文章...
- [[BERTによる文書分類:https://orizuru.io/blog/machine-le...
- [[BERTの日本語事前学習済みモデルでテキスト埋め込みをや...
- [[自然言語処理で注目のBERT ~取り敢えず動かしてみる編~:h...
- [[pytorch-transformersを触ってみる②:http://kento1109.ha...
- [[すぐに試せる日本語BERTのDocker Imageを作ってみた:http...
- [[BERTについて解説!日本語モデルを使って予測をしてみよ...
** ライセンス [#h539a5ce]
- [[Apache License, Version 2.0:http://www.apache.org/lic...
終了行:
* BERT日本語Pretrainedモデル [#p7ab9b26]
近年提案されたBERTが様々なタスクで精度向上を達成していま...
多言語pretrainedモデルには日本語も含まれていますので日本...
&color(red){2022年1月21日追記};: このモデルは古くなってい...
** ダウンロード [#k1aa6ee3]
BERTのモデルはBASEとLARGEの2種類があります。また、通常版...
- BASE 通常版: [[Japanese_L-12_H-768_A-12_E-30_BPE.zip:ht...
- BASE WWM版: [[Japanese_L-12_H-768_A-12_E-30_BPE_WWM.zip...
- LARGE WWM版: [[Japanese_L-24_H-1024_A-16_E-30_BPE_WWM.z...
公式で配布されているpretrainedモデルと同様のファイル形式...
- TensorFlow checkpoint (bert_model.ckpt.meta, bert_model...
- 語彙リストファイル (vocab.txt)
- configファイル (bert_config.json)
が含まれています。また、pytorch版BERT ([[pytorch-pretrain...
(更新: 19/11/15) pytorch-pretrained-BERTは[[transformers:...
- BASE 通常版: [[Japanese_L-12_H-768_A-12_E-30_BPE_transf...
- BASE WWM版: [[Japanese_L-12_H-768_A-12_E-30_BPE_WWM_tra...
- LARGE WWM版: [[Japanese_L-24_H-1024_A-16_E-30_BPE_WWM_t...
** 詳細 [#r6199008]
以下に日本語pretrainedモデルの詳細を示します。
- 入力テキスト: 日本語Wikipedia全て (約1,800万文, 半角を...
- 入力テキストに[[Juman++:https://github.com/ku-nlp/juman...
- BERT_{BASE} (12-layer, 768-hidden, 12-heads) もしくは B...
- 30 epoch (BASEの場合、1GPU (GeForce GTX 1080 Tiを利用)...
-- 最新のGPUを使う、もしくは、Multi-GPUを使えるプログラム...
- 語彙数: 32,000 (形態素、subwordを含む)
- max_seq_length: 128
BERTの[[公式スクリプト:https://github.com/google-research...
export BERT_BASE_DIR=/path/to/Japanese_L-12_H-768_A-12_E...
python run_classifier.py \
...
--vocab_file=$BERT_BASE_DIR/vocab.txt \
--bert_config_file=$BERT_BASE_DIR/bert_config.json \
--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
--do_lower_case=False
入力テキストは半角を全角に正規化し、Juman++ (v2.0.0-rc2)...
注意: --do_lower_case=False オプションをつけてください。...
# text = self._tokenize_chinese_chars(text)
pytorch-pretrained-BERTでfinetuningする場合 (examples/run...
python run_classifier.py \
..
--bert_model $BERT_BASE_DIR
のようにしてモデルを指定し、--do_lower_case オプションを...
(更新: 19/11/15)
transformersでfinetuningする場合 (examples/run_glue.py)、
python run_glue.py \
--model_type bert \
--model_name_or_path $BERT_BASE_DIR \
..
のようにしてモデルを指定してください。transformersではモ...
なお、形態素解析を行わず、文に対してSentencepieceを用いて...
** 各タスクにおける精度 [#fb233636]
*** 構文解析 (基本句係り受け精度のF1) [#z526697f]
|モデル|ニュース|ウェブ|h
|BASE|93.57|92.23|
|BASE WWM|93.62|92.42|
|LARGE WWM|94.11|92.80|
※「ニュース」は京都大学テキストコーパス、「ウェブ」は京都...
** 参考文献 [#c8ee1db1]
柴田 知秀, 河原 大輔, 黒橋 禎夫: BERTによる日本語構文解析...
** 公開モデルを試していただいたサイト [#n18d5d52]
- [[BERT導入手順おさらい個人メモ:https://qiita.com/takaha...
- [[PYTORCHでBERTの日本語学習済みモデルを利用する - 文章...
- [[BERTによる文書分類:https://orizuru.io/blog/machine-le...
- [[BERTの日本語事前学習済みモデルでテキスト埋め込みをや...
- [[自然言語処理で注目のBERT ~取り敢えず動かしてみる編~:h...
- [[pytorch-transformersを触ってみる②:http://kento1109.ha...
- [[すぐに試せる日本語BERTのDocker Imageを作ってみた:http...
- [[BERTについて解説!日本語モデルを使って予測をしてみよ...
** ライセンス [#h539a5ce]
- [[Apache License, Version 2.0:http://www.apache.org/lic...
ページ名: