AIの進化は止まらない！Googleのマルチモーダル生成AI

2024年6月13日 2024年5月30日

atake

【Google開発の最新生成AIジェミニ】

昨年１２月頭ごろに発表されたAIですがご存知でしょうか？？

今回はこのジェミニについて紹介します。

Gemini（ジェミニ）とは？

ジェミニは生成AIの名前になりますが、タイトルにもあるマルチモーダル生成AIという言葉。
この言葉がこの生成AIのキモになります。

マルチモーダルAIというのは、テキストだけでなく、画像、動画、音声などの異なる複数の情報を理解ができるAIという意味です。

ChatGPTでも動画や画像の内容を理解させたりできます。
しかしながら、ChatGPT単体では理解ができずプラグインを取り込むことでそれが可能となります。

Geminiに関してはというと、最初からテキスト、音声、映像などの内容を理解できるように開発をされました。
これにより、このAI一つで複数の種類のでデータを一度に処理することができます。

さらにすごいのは、より人間らしい会話ができるようになっています。

百聞は一見にしかず。まずはこちらをご覧ください。
マルチモーダルの意味がよくわかるGeminiのデモ動画はこちら
　　　↓
https://www.youtube.com/watch?v=UIZAiXYceBI

動画内で出てきますが、画面に映った内容を見てAIが答えています。
また、質問者との回答にも流暢に答えており対応の幅の広さが窺えます。
ただ、この動画自体はライブ収録ではなく編集して投稿されたようです。
生成AIのいい部分を抜粋して載せた動画になります。

Geminiでは以下の
3種類のバージョンが用意されています。
・Gemini Ultra
・Gemini Pro
・Gemini Nano

この中で一番高性能な「Gemini Ultra」については数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせで知識と問題解決能力をテストした結果、90.00% をスコアをたたき出しました。

これは、人間の専門家を上回るパフォーマンスなんだそうです。

また、「Gemini Ultra」のスコアはほとんど全ての項目でGPT-4を上回るものでした。

＊英文になります。

あくまで個人的な見解ですが、ChatGPTが誰でも使えるように公開されてから凄まじい速度で各社がAIを開発しています。

また、機能の進化も著しく、次から次へと新しい機能が実装をされています。

パソコン、そしてインターネットが出現した時と同じようにAIもそのうち生活の一部として必要不可欠になっていく気がします。

先のことは誰にもわかりませんが、「分からないから使わない」ではなく「分かっているけど使わない」という心構えで、なるべく新しいモノに触れて行きたいなと思います。