AIToday

GoogleがGemini 3.5 Flashに画面操作機能を統合し、開発者がブラウザやモバイルで自動化されたAIエージェントを構築できるようになりました。

THE DECODER19時間前5分で読める
GoogleがGemini 3.5 Flashに画面操作機能を統合し、開発者がブラウザやモバイルで自動化されたAIエージェントを構築できるようになりました。

要点

GoogleはGemini 3.5 Flashに画面を見て操作する機能を統合し、開発者がAIエージェントでソフトウェアテストやオフィス自動化といった複雑なタスクを自動化できるようにしました。OSWorldベンチマークで78.4を獲得し、同じく78.4のSonnet 4.6に並びながらも、リーダーのOpus 4.8の83.4には及びません。セキュリティのため敵対的学習と2種類のエンタープライズセーフガードが用意されています。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  • 何が起きたか

    GoogleはGemini 3.5 Flashに「Computer Use」機能を直接統合しました。このモデルはコンピュータ、ブラウザ、モバイルデバイスの画面を見て理解し、自分で操作できるようになりました。従来はGemini 2.5の別モデルでのみ利用可能でした。

  • なぜ重要か

    既存の関数呼び出しやSearch、Mapsなどのツールと組み合わせることで、開発者はソフトウェアテストやオフィス自動化といったタスクに対応するエージェントをブラウザ、モバイル、デスクトップ環境で構築できるようになります。これにより、複雑な作業の自動化がこれまでより容易になるとみられます。

  • 注目点

    OSWorldベンチマークでGemini 3.5 Flashは78.4を獲得し、Gemini 3 Flash(65.1)およびGPT-5.4 mini(72.1)を上回りました。セキュリティについては、プロンプトインジェクション攻撃を防ぐため、敵対的学習と2種類のエンタープライズセーフガード(機密操作の確認要求と間接的インジェクション検知による自動停止)が用意されています。Gemini APIおよびGemini Enterprise Agent Platformから利用可能です。

よくある質問

Gemini 3.5 Flashの画面操作機能は従来と何が違いますか?
従来はGemini 2.5の別モデルでのみ利用可能でしたが、今回Gemini 3.5 Flashに直接統合されました。これにより、既存の関数呼び出しやSearch、Mapsなどのツールと組み合わせて、ブラウザ、モバイル、デスクトップ環境で動作するエージェントを構築しやすくなります。
どこから使えますか?
Gemini APIおよびGemini Enterprise Agent Platformから利用できます。BrowserbaseのデモとGitHubリファレンス実装も提供されています。
プロンプトインジェクション攻撃対策はどうなっていますか?
敵対的学習と2種類のオプションのエンタープライズセーフガードが用意されています。1つは機密操作や取り消し不可能な操作に対してユーザー確認を要求し、もう1つは間接的プロンプトインジェクションを検知したときに自動的にタスクを停止します。Googleはサンドボックス化、人間による監視、厳格なアクセス制御も推奨しており、詳細はベストプラクティス文書に記載されています。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →