AI開発企業のrinna、日本語に特化したGPT-2の
大規模言語モデルをオープンソースとして公開

AI開発企業のrinnaは、日本語に特化したGPT-2の大規模言語モデルを構築し、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHubとNLPモデルライブラリ HuggingFaceにて、オープンソースとして公開した。

言語モデルは、言語データの機械学習をもとに会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの。優れた言語モデルとは確率を正確に推定できるもので、「確率(吾輩は猫である)>確率(吾輩が猫である)」と推定できれば、言語モデルの能力が証明されることになる。

そして、GPT-2は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)である。「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成できる。

今回、rinnaが公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章の自動生成が可能。ユーザー/研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することもできるという。

▲デモ1:講演の感想のコンテキストで文章生成

▲デモ2:書籍の紹介のコンテキストで文章生成

たとえばPrefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成するように微調整できるそうだ。

また、今回公開したのは、GPT2-mediumという中規模サイズのモデルで、今後はパフォーマンスとコストのトレードオフに基づいてユーザー/研究者が最善の選択をできるように、異なるサイズのモデルも公開する予定。そのほか、異なるデータでトレーニングした新しいモデルの公開も計画している。End