テクノロジー企業Googleは、Boston Dynamicsとのパートナーシップを発表し、同社のGemini Robotics具現化推論モデルを四足歩行ロボットSpotに統合することで、人工知能の実世界ロボティクスへの応用における前進を示しました。この協力により、ロボットは事前にプログラムされたルーチンのみに依存するのではなく、環境をより適切に解釈し、物体を識別し、自然言語の指示に基づいてタスクを実行できるようになります。
この統合は、2025年の社内ハッカソンで実施された実験的作業を基盤としており、開発者は大規模言語モデルと視覚推論システムがSpotの自律性をどのように向上させるかを探求しました。Gemini Roboticsを活用することで、ロボットはカメラからの視覚入力を処理し、部屋の物体を整理するなどの高レベルの指示を、協調的な物理的動作に変換できます。
硬直的な段階的論理に依存することが多い従来のロボティクスプログラミングとは異なり、このシステムは会話型プロンプトに基づくより柔軟なインターフェースを導入しています。開発者はSpotのソフトウェア開発キットを使用して中間ソフトウェア層を作成し、Geminiモデルがロボットのアプリケーションプログラミングインターフェースと通信できるようにしました。このフレームワークにより、AIは、ナビゲーション、物体検出、画像キャプチャ、把持、配置を含む定義されたアクションセットから選択できます。
実際のデモンストレーションでは、システムは一般的な指示を解釈し、動的な環境に適応する能力を示しました。たとえば、アイテムの整理を任されたとき、AIモデルは視覚データを分析し、関連する物体を識別し、一連のアクションを通じてロボットを指示しました。タスクの完了や物理的制約などのロボットからのフィードバックがリアルタイムで組み込まれ、システムは手動操作なしで動作を調整できました。
このアプローチは、AIをロボットのAPI内の事前定義された機能に制限することで運用境界を維持し、予測可能で制御されたパフォーマンスを保証します。この設計は、物理システムにAIを展開する際の重要な考慮事項である、適応性と安全性のバランスを取ります。
このパートナーシップは、開発者にとっての潜在的な効率向上も浮き彫りにしています。広範囲な手動コーディングの必要性を減らすことで、自然言語インターフェースはエンジニアがすべてのアクションシーケンスをプログラミングするのではなく、目標の定義に集中できるようにします。この変化は、製造、検査、物流などの産業全体でロボティクスアプリケーションの開発を加速させる可能性があります。
実装は実験的なままですが、このデモンストレーションは、基礎モデルが機械の知覚と意思決定を強化するためにますます使用される物理AI の広範な傾向を反映しています。両社は、Geminiベースのシステムのロボティクスプラットフォームへの継続的な統合を含む、さらなる開発が進行中であることを示しています。
この協力は、複雑なロボット動作が簡素化された入力によって誘導される、より直感的な人間と機械の相互作用への移行を示唆しています。AIモデルが進化し続けるにつれて、このような統合は、展開への技術的障壁を減らしながら、自律システムの機能範囲を拡大する可能性があります。
この投稿「GoogleとBoston Dynamics、高度な認識とタスク実行のためにGemini RoboticsモデルをSpotに統合」は、メタバースPostに最初に掲載されました。

