2022年のAIを振り返る

2022年のAIで話題になったことというと、なんと言っても、「Midjourney」と「ChatGPT」だろう。

画像を生成するAI

まずは、Midjourneyのように、画像を生成してくれるAIの話題をまとめる。Midjourneyは、ジェネレーティブAIと呼ばれるもので、テキストから画像を生成してくれるAIだ。

テキストから画像を起こしてくれるAI 「Midjourney」

私も、実際に試していて、歌詞の情景を映像にしてもらった。

[wpmem_logged_out] つづきは、無料メルマガ会員になると読めます！ [/wpmem_logged_out] [wpmem_logged_in]

YOASOBIの群青が好きなので、その一節を #midjourney に描いてもらいました。
歌詞が映像になるなんて、想像をはるかに超えて嬉しい。 pic.twitter.com/pfcgWua1wI
— 小泉耕二 (@k2izumi) August 25, 2022

｢絵を描くAI｣というと、イーロン・マスクらが出資しているAI機関、「OpenAI」の画像生成AIである、｢DALL-E2｣が有名だ。そこに、グーグルはDALL-E2の性能を上回る｢Imagen｣を発表し、さらに大規模な作画AI｢Parti｣も発表している。

｢Midjourney｣は、こうした流れのなかで、Leap Motionと呼ばれるハンドトラッキングの企業を創業したデビッド・ホルツ氏が開発したものだ。

Midjourneyをはじめとして、映像を作成してくれるジェネレーティブAIの動きとしては、以下のようだ。

まず、なんらかのテキストを入力する
入力されたテキストをもとにニューラルネットワークが作画する
作画された画像を別のニューラルネットワークが、元のテキストの内容との距離で評価する
1-3を繰り返してテキストの内容に近い画像を生成する

初めの入力となるテキストは、日本語でもよいのだが、実際は英語に変換されて投入される。これは英語圏で作られたAIなので当然と言えば当然だが、学習する素材がないとAIは鍛えられない。

何が言いたいのか？というと、ジブリ風の画像を作ることはできても、マイナーなアニメ風の画像をつくることは難しいということなのだ。

逆に言えば、私が試したような歌詞のような情景を伝える文書に関しては、英語圏の方と感性さえ同じであれば、思ったような映像が作れるようになるということでもあるのだ。

オープンソースのジェネレーティブAI 「Stable Diffusion」

Stability AIがリリースした「Stable Diffusion」は、なんとオープンソースだ。これをベースにして特化形AIを作ることもできる。

実際、二次元に特化したようなAIも登場していて、Midjourneyのように、AIが知っているか、知らないかによって解釈が左右される取り組みができそうだ。

余談だが、「AIいらすとや」と呼ばれる、「いらすとや」風の画像を作ってくれるスマートフォンアプリも登場していて、これまで画像AIというと「認識する」方が多かったが、今年は「生み出す」AIが豊作だったと言える。

ジェネレーティブAIの課題

ジェネレーティブAIを作るのには、教師画像が必要だ。ジブリ風を実現できている以上、ジブリの画像が教師データとして使われている可能性は高い。

こうなると、著作権が問題になってくるわけだ。

その一方で、レンタルフォトなどを行うShutterstockは、OpenAIとの提携を推進していて、新たなる創造性を模索するとしている。

来年は、単なる技術的進化にとどまらず、こういった創造性や権利に関する議論も増えてきそうだ。

これまでのチャットを大きく凌ぐ、対話型AI

これまで、チャットというと、自然言語対話の分野が話題となることが多かった。AIが店員をやるレストランに一般の方が予約をしてみるといったシーンで使われるようなものだ。

しかし、最近発表されたChatGPTは、これまでの対話型AIの性能を大きく超えてきたことで話題になった。

プログラムも作ってくれるし、なんでも答えてくれるAI 「ChatGPT」

こちらはまだ最近の話なので記憶に新しい話題だ。私も、実際にChatGPTにインタビューしてみたりしている。

こちらは、「OpenAI」の技術で、テキストを入力すると、その内容に返答するという対話型AIだ。

対話と言っても、自然言語での会話だけでなく、いろんな問いを投げかけると答えてくれる。

これまで、この手の質問はWikipediaを頼ってきたという人も、今後はChatGPTのようなAIに問い合わせるようになるのかもしれない。

そして、ChatGPTの凄さは対話にとどまらない。例えば、俳句を読んでくれと頼めば俳句を読むし、オチのあるドラマを作ることさえできるのだ。

昨今、世界で起きる戦争に関しても、SNSやネットニュースによる誘導が見られるが、こういった「もっともらしい」文書を量産できるAIが登場したことで、今後我々はますます何が本当なのか、わからなくなる時代が来たと考えるべきなのかもしれない。

また、ChatGPTは、プログラムコードも作成してくれるので、ちょっとしたゲームであればプログラムを覚えなくても自分で作れるようになる。

これは、近い将来、ゲームではなく、なにか仕事に使うようなプログラムを作る際も、AIにお願いすれば作ってくれる、となる可能性もあり、よくあるシステムに関してはプログラマが作る必要がなくなるということを意味するのかもしれない。

イーロン・マスク、Twitterを買収、AIチームを解散

イーロンマスクが6兆円ものお金でTwitterを買収したことも今年のビッグニュースの一つだろう。この、巨大買収劇の中で、TwitterのAIチームはひとりを残して解散されている。

TwitterのAIチームは、倫理委員会をおいていて、人種やジェンダー、政治的バイアスに関して公平性を保とうとしたり、「バイアス発見報奨金」を出し、一般からも問題を募っていた。

こういったアルゴリズムに正解はない。問題があることを発見し、一つ一つ潰していくしかないのだ。

マスク氏はソースコードを公開すればよい、と言っているが、AIのアルゴリズムだけ公開しても、教師データがなんなのか？など、ソースコード以外の要素も多くあり、チューニングの如何で「どんな投稿が拡散されるか」のサジ加減が決まるわけなので、コードの公開にあまり意味がないような気もする。

一方、今回のAIチームの解散によって、チューニングの中身を知っている中の人同士でのアルゴリズムに関する議論がされなくなり、誰かの思惑で「正義」が決まってしまうとなると、それはそれで問題になるのではないだろうか。

ドローンとAIと戦争

世界で起きている戦争において、ドローンを活用した攻撃が行われるようになっている。

ドローンは無人なので、攻撃する側にとっては安全な攻撃手段だが、攻撃される側からすれば恐ろしい兵器だ。

昨今のAIの精度を考えると、攻撃目標をピンポイントで「ある人」に設定したり、自律的に飛行して目標に突撃、自爆すると言ったことも容易といえる。

こうなると戦争やテロのあり方も大きく変わることは容易に想像がつく。

国内でも、有人地域での目視外飛行（Level4）が可能となった今、こういった安全性を考慮したルール作りと安全対策を行うことが重要になるだろう。

この10年、AIは飛躍的な進化を遂げていて、産業利用だけでなく、これまでではアニメや映画の世界でしか実現されてこなかったことが、どんどん現実にできてきている。

いずれにせよ、今後必ず問われる「AIの倫理」について、我々は議論すべき時が来ていると言える。

[/wpmem_logged_in]