マルチモーダル
概要
マルチモーダルは、テキスト、画像、音声、動画など、異なる形式の複数の情報を組み合わせて、一つのAIモデルが同時に処理できる状態を指します。
IT・技術的側面
異なるデータの種類ごとに特化したエンコーダーを用いて特徴を抽出し、それらを共通の空間(べクトル空間)で統合して処理します。テキストの内容と画像の整合性を判断したり、音声から状況を推測したりする高度な推論を可能にします。
ビジネス的価値
「テキストのみ」の制約を取り払い、視覚や聴覚情報を介した直感的なサービス開発を可能にします。監視カメラ映像の自動解析、製品の外観検査と報告書の同時生成など、現場作業のDX(デジタルトランスフォーメーション)を強力に推進します。