見出し画像

生成AIに対するデータの重要性


はじめに


こんにちは。株式会社SHIFTで日々ChatGPTを楽しく仕事に使っております、小島です!

今回は各社で活用の幅が広がりつつある生成AIに関して、その学習用のデータの重要性についてご紹介します。

データについて


生成AIに限らず、AI(本記事では機械学習、深層学習含む)には必要なデータを与え、学習させることで、そのAI自体の精度を高めることができます。 昨今ではAIの構造を複雑化、高度化することによる精度の高め方もありますが、今回は学習させるデータと生成AIの精度の間には非常に関連性があり、精度を高める一要素として非常に重要度が高いことを世界の論文を基にご紹介します。

論文から分かるデータの重要性


2021年に発表されました論文「On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?」では、生成AIでは今や主流となって使われている大規模言語モデル(LLM)についての潜在的なリスクについて何点か論述されています。

その中でも、「データによる社会的偏見や差別的内容の学習」や、「言語多様性への影響」について言及されています。 これらについて順に解説していきます。

データによる社会的偏見や差別的内容の学習


生成AIの精度を高めるためには大量の学習用データが必要不可欠です。
その際、学習用に使われるデータとして実際の現実社会で起きた内容を基に作られるのが当たり前なわけですが、その結果、現実社会における偏見や差別も同時に学習してしまう危険性があります。

例えば、もしある人間のプロフィールを確認することによってその人の今後の将来性がどのようなものかを出力できる生成AIを開発したとします。
その時に、現実社会のデータを学習させておくと、人種によって犯罪を起こしやすいとされたり、生涯年収の変動が生まれてしまいます。
しかし、本来その生成AIに期待されていることは、人種などの偏見を除いて、その人の潜在的能力を基にその人の将来性を予測することです。
現実社会で偏見がある限りは、AIもその法則性を学習してしまうため、結果的にAIも人間と同様に偏見を持ってしまうという事になります。

言語多様性への影響


次に、そもそも学習用データで扱われるデータの言語についての偏りが生まれてしまう事が懸念されます。

今や知らない人の方が少ないとまで言われるChatGPTですが、こちらは過去にネット上にあげられた大量の情報を学習用データとして組み込むことで限りなく汎用性の高い生成AIとして開発されています。

しかし、ネット上にある情報のほとんどが英語圏のものです。そのため、例えば日本語で書かれた情報も全体からするとごくわずかしかないため、日本に関わる学習データとしては、比較的情報が少ないと言えます。
そのため、生成AIでは英語を使って指示を出した方が精度が高いと言われることもあります。

そうなってしまうと、英語以外の精度が低くなってしまうという可能性が生まれてしまい、これもまたデータによる精度の偏りが発生する問題が出てくる事になります。
特に顕著なのが翻訳機能を持つAIの精度です。
昔から英語から日本語へ訳されるときは、正しい日本語で翻訳されることが少なく、精度が低くて使えないと言われていましたが、それは単にAIが悪いのではなくて学習用データに日本語の情報が少ないからです。
つまり、英語圏で生活しているかそれ以外で生活しているかでAIの利便性に偏りが生まれると言えます。

だからこそ、日本でも独自の生成AIを開発することでその差を埋められるようにすることは非常に大きな社会的意義をもたらすとも言えます。
(なので日本で活躍されているAIの開発者たちには本当に頭が上がりません・・・!ありがとうございます!)

まとめ


以上が生成AIで活用する学習用データの重要性についてのご紹介でした!

生成AIは、その膨大な学習用データから得た知識を活用して、私たちの問題解決を支援してくれる非常に頼りになるツールです。
しかし、そもそも学習させてきたデータ自体に偏りがあると、人間と同じく偏った判断や回答をしてしまうことを念頭に置き、活用する際には人間によるチェックもお忘れなきようお願いします。


執筆者プロフィール:小島 悠(こじま ゆう)
2023年4月に株式会社SHIFTへ入社。 新卒で金融機関でシステムインフラの運用・保守を経験後、 サブスクの研修提供サービスとして起業に挑戦。 その後、経験を活かしてAI・IT企業研修を提供するベンチャーへ転職。 AIの開発等を経験する事により、今後のAIの普及を確信し、SHIFTへジョイン。 ChatGPTをはじめとする生成系AIにドはまりし、ビジネスへの可能性を信じている。

お問合せはお気軽に

SHIFTについて(コーポレートサイト)

SHIFTのサービスについて(サービスサイト)

SHIFTの導入事例

お役立ち資料はこちら

SHIFTの採用情報はこちら

PHOTO:UnspalshGrowtika