金融業界向け自然言語処理技術の検証開始

〜金融版BERTモデルの開発〜

 

 株式会社NTTデータ(以下、NTTデータ)は、金融版BERTを用いた自然言語処理技術に関して、銀行や証券会社などの金融関連企業を募り、2020年7月以降順次、実証検証を開始します。

 金融版BERTとは、近年自然言語処理において注目を集めているBERT(注1)を、金融業界向けにNTTデータが独自に特化させた言語モデルです。金融専門用語や特有の文脈を含む文書を解析する際に、その都度言語モデルの学習を行う必要がなくなり、学習工程を短縮しつつ、高精度の結果を得ることが可能になります。BERTには今までの自然言語処理技術では難しかった文脈を踏まえた解析が可能という特長があり、本言語モデルの適用により、金融業界コールセンターにおけるFAQ回答引き当てや、営業日報からの情報抽出など、自然言語処理技術を要するさまざまな処理の精度向上が期待できます。

 今後NTTデータは、金融版BERTを活用し2020年度に5件の実証検証を行い、2021年度中にサービス提供を開始します。

【背景】

 自然言語処理技術のビジネス活用に向けた研究が進み、金融業界においてもチャットボットによる顧客対応高度化や審査支援による業務効率化などに活用されつつあります。一方、金融業界の文章は、業界特有の専門性の高い用語や言い回しが多く、辞書整備や多数のルール構築が必要になるなど、自然言語処理技術の適用のためには多大な労力と時間がかかっていました。また、日本語金融文書へのBERT適用には、まず日本語向けのBERTモデルが必要ですが、大規模なコーパス(注2)で学習させた日本語モデルは少ない(注3)といった課題もありました。

 このような課題に対し、NTTデータでは大規模コーパスで学習させたNTT版BERTを元に、独自に収集した金融関連文書を用いて金融版BERTを開発し、ビジネス適用の実証検証を開始することとしました。

 ※図は添付の関連資料を参照

【概要・特長】

 Googleの発表したBERTモデルは13GB以上(注4)のコーパスで学習させたものです。一方、公開されている日本語向けBERTモデルの大半が日本語Wikipediaコーパス(3GB程)で学習させたものでした。NTTメディアインテリジェンス研究所では、日本語Wikipediaに加えニュースサイトやブログより収集した大規模コーパス(12.7GB)を用いており、日本最大規模のコーパスで学習させたBERTモデル(NTT版BERT(注5))を開発しました。

 金融版BERTは、NTT版BERTにNTTデータで独自に収集した金融関連文書を用い、金融文書向けに追加学習したモデルです。特定分野のコーパスで学習させたBERTモデルは、その分野のタスクにおいては一般的なコーパスで学習させたBERTモデルより高い精度を達成するという結果が報告されています。(注6)

 ※以下は添付リリースを参照

 

 

リリース本文中の「関連資料」は、こちらのURLからご覧ください。

https://release.nikkei.co.jp/attach_file/0537531_01.png

添付リリース

https://release.nikkei.co.jp/attach_file/0537531_02.pdf