GPT-3やDALL·E 2は、私たちに何をもたらすのか?

GPT-3やDALL·E 2は、私たちに何をもたらすのでしょうか?いずれも、人間が入力した言葉を参考に、人工知能が自動的に人間が作成したような文章を作ったり、画像を生成したりしてくれます。そのレベルの進化が飛躍的に向上しており、人間以上のアウトプットを生み出すようになり始めてきました。

GPT-3やDALL·E 2は、人間のクリエイティビティを超えてゆくのか。

「GPT-3」が生み出しているもの

OpenAIが開発した言語モデルのGPT-3は、人間が入力した言葉を参考に、そこから続く文章をかなり正確に予測する能力があり、簡単な文章を入力するだけで、人間が書いたと思うような文章を自動生成してくれます。
テスト結果によると、人間がGPT-3が生成したことを検知できる割合は52%である結果が出ています。人工知能が生成する文章の半数は人間が区別できないレベルで、人間が書いたような文章を作り上げることができるのです。

画像生成AI「DALL·E 2」とは

2022年4月に、OpenAI は、DALL·E 2(ダリツー)を発表しました。画家サルバドール・ダリが名前の由来になっており、文章から画像を自動生成できるのが特徴のAIです。
OpenAIが開発したDALL·E 2は、Google が開発した「Imagen」と同じように、画像生成の技術として、Diffusion Model(拡散モデル)を使っています。
「拡散モデル」は、元データにノイズが徐々に付加されていき、トレーニングデータを破損して、最終的にガウシアンノイズとなると考えることで、逆のプロセスをモデル化することでデータを生成してゆく方法です。
ガウシアンノイズとは、信号のデータ点が正規分布(ガウス分布)を持つノイズのことを指します。パラメータから生成すべき画像の特徴を認識し、画像の特徴を再現してゆきます。
Imagenが、DALL·E 2よりも優れている点が、エンコーダーの違いで、Imagenでは文章をパラメータに変換する時に、46億個ものパラメータを使っていると言われています。

Googleの画像生成AI「Parti」とは

Googleが新たな画像生成AI「Parti」を発表し、現在、Google では、文章から画像を自動生成できるAIとして、ImagenとPartiの両方が提供されています。
どちらかだけで良いのではないかという疑問点がありますが、Partiは自己回帰モデルと呼ばれているTransformerという深層学習モデルをベースとしています。「DALL·E 2」やGoogle が開発した「Imagen」で使われているDiffusion Model(拡散モデル)とは異なる仕組みです。PartiとImagenの技術には、それぞれ強みと弱みがあります。この両方について、継続的にテストすることで、最適なモデルの活用方法を検証しているのです。
なぜなら、AIは、学習データの質によって、倫理的に問題のある画像を生み出す可能性があるからです。
例えば、学習用データに差別的な表現が含まれていると、差別的な画像を生成してしまうことが問題になっています。例えば、DALL·Eに社長(CEO)の画像を自動生成させると、白人男性が出てくるなどサンプルデータの数がそのまま偏りになって現れてしまうのです。こうした問題を解消するためには、さまざまな学習モデルに学習させた結果を検証し続ける必要があります。

人工知能は、人間のクリエイティビティを超えてゆくのか。

長い間、人工知能は、人間のクリエイティビティを模倣することはできないと言われてきました。しかし、今の技術では、複数のアートを組み合わせることにより、新たなアートを生み出せるようになり始めています。
芸術として評価の高い作品から評価させるアートのポイントを学習しているのです。アメリカの実業家ジェームズ・W・ヤング氏の著書『アイデアのつくり方』の中で、アイデアとは既存の要素の新しい組み合わせにすぎないとの言葉が出てきますが、もし既存の要素の新しい組み合わせから成り立っているのあれば、パーターンの組み合わせを無数にできる人工知能が新しいクリエイティビティを発揮できる可能性は高いのです。
全く新しい発想を思いつくこともあるのかもしれませんが、多くの人にとっては、既存の要素の新しい組み合わせから導き出させる答えの方が、興味が湧き上がるのではないでしょうか。