InfiniMindがシードラウンドで580万ドルを調達 大規模映像モデル「DeepFrame」開発を加速
エンタープライズ向け映像AIプラットフォームを開発するInfiniMind Inc(本社:米国カリフォルニア州、日本拠点:東京都)は2026年2月10日、UTEC(株式会社東京大学エッジキャピタルパートナーズ)をリード投資家とし、CX2(Cox Exponential)、Headline ASIA Ventures、千葉道場ファンド、a16z’s scoutのエンジェル投資家らを引受先とするシードラウンドで580万ドル(約9億円)を調達したと発表した。
調達資金は、長尺映像の深層理解を実現する大規模映像基盤モデル「DeepFrame」の研究開発およびエンジニア・ビジネス人材の採用強化に充当する。
80%が未活用 企業に眠る「映像ダークデータ」
現在、世界で流通するデータの約80%は動画だといわれる。メディア映像、店舗・工場の監視カメラ、ドローンや衛星カメラ映像、モバイル端末による録画など、企業現場では日々膨大な長尺映像が生成されている。一方で、その多くは十分に活用されず「ダークデータ」と化しているのが実情だ。
LLMがテキスト処理を飛躍的に進化させ、従来の映像AIが短尺動画分析を中心に発展してきたなか、InfiniMindは創業当初からエンタープライズ用途を前提とした「長尺映像の深層理解」に特化。
すでに国内テレビ放送データを継続的に解析するマルチモーダルAIサービス「TVPulse」を展開し、10万時間を超える映像解析実績を持つ。画像や音声に加え、「モノ・コト・概念」軸で映像を構造化・インデックス化することで、“今”を立体的に把握できる検索基盤を実現してきた。
LLMの先へ──大規模映像モデル(LVM)「DeepFrame」
今回の資金調達により同社は、次世代の旗艦プロダクト「DeepFrame」の開発を本格加速させる。
DeepFrameは、LLM(大規模言語モデル)、VLM(視覚言語モデル)、ASR(音声認識)を統合的に設計した大規模映像モデル(LVM:Large Video Model)。数時間から数週間、場合によっては数ヶ月単位の映像・音声データを横断的に解析し、時間軸・空間軸を超えた文脈や因果関係まで理解することを目指す。
単なるシーン認識にとどまらず、長尺コンテクスト全体から背景やストーリーを推論。製造現場の異常検知、セキュリティ用途でのリアルタイムアラート、膨大なアーカイブからの知見抽出など、従来モデルでは困難だった領域への応用を視野に入れる。
さらに、日本語特有の会話の「間」や文化的含意、表情に宿る暗黙知といった形式知化が難しい情報も構造化し、企業の知的資産へ転換する点も特徴だ。PEFT(パラメータ効率的ファインチューニング)を組み合わせた産業別最適化も進め、導入障壁の低い実用プラットフォーム構築を図る。
「See beyond frames」 暗黙知を形式知へ
代表取締役のカイ・アバ氏は、「“See beyond frames”のビジョンのもと、長尺コンテクストというAIの最難関領域に挑む。企業の暗黙知を形式知に変え、あらゆる産業のオペレーションを革新するインフラとなる」とコメント。
リード投資家であるUTECのキラン・マイソール氏も、InfiniMindを「ユニバーサル・ビデオ・インテリジェンスを実現する企業」と評価し、日本発の映像基盤モデルがグローバル市場で大きな価値を創出すると期待を寄せる。
2025年設立のInfiniMindは、経済産業省の生成AI開発支援プロジェクト「GENIAC」第3期への採択や、AWS GAIA 2025選出、AWS re:Inventでの単独セッション登壇など、ディープテック領域で存在感を高めてきた。
動画が主役となる時代において、同社は“映像を読むAI”から“映像を理解するAI”への転換を掲げ、世界市場での標準確立を目指す。
関連リンク:プレスリリース
(TOMORUBA編集部)