チャットボット「りんな」を開発するrinnaは2021年8月25日、大規模言語モデルのGPT-2とBERTを用いて75ギガバイト(GB)の日本語データで学習したモデルをオープンソースとして公開した。文章生成などのAI(人工知能)アプリケーションに自由に応用できる。

 2015年に登場したりんなは、米Microsoft(マイクロソフト)が開発した中国語版チャットボット「Xiaoice(シャオアイス)」をベースにした技術だ。Xiaoiceの開発部門は2020年にケイマン諸島に本社を置くBombax Corporation(ボンバックスコーポレーション)として独立しており、rinnaはボンバックスの子会社となる。

 現在のりんなやXiaoiceには、GPT-2やBERTの基礎の技術である自己注意機構(SA、Self Attention)のTransformerが使われている。その経験を生かして同社がつくったGPT-2やBERTのモデルを公開した。75GBの日本語データを学習するのに米NVIDIA(エヌビディア)のGPU「Tesla V100」を8個搭載するマシンを最大45日間稼働させており、Microsoft Azureの料金に換算すると100万円以上かかるという。そうして学習させたモデルが無償で活用できる。なおBERTについて実際に公開したのは改良版のRoBERTaのモデルである。

 GPT-2は文章中に出てくる「次の単語」をその単語の前に出てきた単語を踏まえて予測するモデルであり、BERTは予測したい単語の前後にある単語を踏まえて予測するモデルだ。

「生命、宇宙、そして万物についての究極の疑問の答えは」に続く文章をGPT-2モデルに生成させた結果
出所:rinna
[画像のクリックで拡大表示]
「4年に1度[MASK]は開かれる」の[MASK]の部分をRoBERTaモデルに予測させた結果
出所:rinna
[画像のクリックで拡大表示]

 いずれのモデルも、文章生成や質問応答などのタスクに応用できる。専門領域の文章を追加で学習させると、その領域の知識を反映した文章などが生成可能になる。