huggingfaceのtransformersで5分で試せる!日本語bertのインストールから動作確認までcolaboratoryにて確認できる!

huggingfaceのtransformersが日本語の事前学習モデルを追加してくれました。

そのおかげで日本語のbertを簡単に試す出来るようになりました。

これでまた、自然言語の機械学習をしやすくなったと言えます。

今回は、colaboratory上で日本語のbertを使って、元の文章を別の文章(単語を入れ替える)にしてみます。

ためしたこと

今回は、colaboratoryで、日本語のBertを使って日本語の文章の一部をMASKして別の文章を作るのを試します。

bertは、ライブラリーをインストールすればjupyter notebookでも動きますが、ローカルPCへのライブラリーインストールは意外に面倒なので、より手軽に試せるcolaboratoryで動くようにしました。

日本語bertを使って単語の予測をするまでの流れ

  1. mecabなどの形態素ライブラリーをインストールする
  2. pythonからmecabを呼び出せるようにmecab-python3をインストールする
  3. fugashi,ipadicのインストール
  4. transformersのインストール
  5. 日本語の事前学習モデルを読み込む
  6. tokenizerを使って文字列をベクトル化する
  7. 学習済みモデルを使って予測(Predict)
  8. ベクトル化されたものを元の文字列に戻す
  9. 予測された単語を得ることが出来る

日本語のモデル情報

https://huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking

詳細な説明は、実際のコードを使いながら解説!

ここからは、実装例を示します。

まとめ

以上、huggingfaceのtransformersを使った日本語のBertの使い方例でした。

次回は、fine-tuningを使って実際にtwitterの感情分類をしてみたいと思います!

機械学習は、プログラミング経験があればすぐにできるだろう?と思ったことはないだろうか?残念ながらAIに関しては、プログラミング言語を一つ取得することと全く別でした。では、どのように習得すればよいかと考えたときに、ひとつの解決策がAIジョブカレに通うことです。
スポンサーリンク
PR




PR




シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
PR