Gemini
概要
Geminiは、Googleが開発した、テキスト、画像、音声、動画、プログラムコードなど、異なる種類の情報を同時に処理・理解できるマルチモーダルなAIモデルの総称です。
IT・技術的側面
設計段階から複数のメディア形式を同時に処理できるように最適化されています。テキストデータのみを学習したモデルと比較して、映像の内容を音声で説明したり、図解からコードを生成したりといった、メディア間の相互変換を高い精度で実行します。Googleのクラウドインフラと密接に連携し、TPU(Tensor Processing Unit)などの専用計算資源を活用して高速な推論を行います。
ビジネス的価値
オフィスツールとの統合により、会議の録画データからの議事録作成や、プレゼンテーション資料の自動生成を効率化します。また、画像とテキストを組み合わせた高度な検索や分析が可能になるため、Eコマースや製造業における検品プロセスの高度化など、視覚情報が介在するビジネス領域での活用が期待されます。