Gemini 3.5 Flashの画面操作機能は従来と何が違いますか？

従来はGemini 2.5の別モデルでのみ利用可能でしたが、今回Gemini 3.5 Flashに直接統合されました。これにより、既存の関数呼び出しやSearch、Mapsなどのツールと組み合わせて、ブラウザ、モバイル、デスクトップ環境で動作するエージェントを構築しやすくなります。

どこから使えますか？

Gemini APIおよびGemini Enterprise Agent Platformから利用できます。BrowserbaseのデモとGitHubリファレンス実装も提供されています。

プロンプトインジェクション攻撃対策はどうなっていますか？

敵対的学習と2種類のオプションのエンタープライズセーフガードが用意されています。1つは機密操作や取り消し不可能な操作に対してユーザー確認を要求し、もう1つは間接的プロンプトインジェクションを検知したときに自動的にタスクを停止します。Googleはサンドボックス化、人間による監視、厳格なアクセス制御も推奨しており、詳細はベストプラクティス文書に記載されています。

記事一覧に戻る大規模言語モデル

大規模言語モデル

GoogleがGemini 3.5 Flashに画面操作機能を統合し、開発者がブラウザやモバイルで自動化されたAIエージェントを構築できるようになりました。

THE DECODER19時間前5分で読める

要点

GoogleはGemini 3.5 Flashに画面を見て操作する機能を統合し、開発者がAIエージェントでソフトウェアテストやオフィス自動化といった複雑なタスクを自動化できるようにしました。OSWorldベンチマークで78.4を獲得し、同じく78.4のSonnet 4.6に並びながらも、リーダーのOpus 4.8の83.4には及びません。セキュリティのため敵対的学習と2種類のエンタープライズセーフガードが用意されています。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

何が起きたか
GoogleはGemini 3.5 Flashに「Computer Use」機能を直接統合しました。このモデルはコンピュータ、ブラウザ、モバイルデバイスの画面を見て理解し、自分で操作できるようになりました。従来はGemini 2.5の別モデルでのみ利用可能でした。
なぜ重要か
既存の関数呼び出しやSearch、Mapsなどのツールと組み合わせることで、開発者はソフトウェアテストやオフィス自動化といったタスクに対応するエージェントをブラウザ、モバイル、デスクトップ環境で構築できるようになります。これにより、複雑な作業の自動化がこれまでより容易になるとみられます。
注目点
OSWorldベンチマークでGemini 3.5 Flashは78.4を獲得し、Gemini 3 Flash（65.1）およびGPT-5.4 mini（72.1）を上回りました。セキュリティについては、プロンプトインジェクション攻撃を防ぐため、敵対的学習と2種類のエンタープライズセーフガード（機密操作の確認要求と間接的インジェクション検知による自動停止）が用意されています。Gemini APIおよびGemini Enterprise Agent Platformから利用可能です。

無料登録して続きを読む

よくある質問

Gemini 3.5 Flashの画面操作機能は従来と何が違いますか？: 従来はGemini 2.5の別モデルでのみ利用可能でしたが、今回Gemini 3.5 Flashに直接統合されました。これにより、既存の関数呼び出しやSearch、Mapsなどのツールと組み合わせて、ブラウザ、モバイル、デスクトップ環境で動作するエージェントを構築しやすくなります。
どこから使えますか？: Gemini APIおよびGemini Enterprise Agent Platformから利用できます。BrowserbaseのデモとGitHubリファレンス実装も提供されています。
プロンプトインジェクション攻撃対策はどうなっていますか？: 敵対的学習と2種類のオプションのエンタープライズセーフガードが用意されています。1つは機密操作や取り消し不可能な操作に対してユーザー確認を要求し、もう1つは間接的プロンプトインジェクションを検知したときに自動的にタスクを停止します。Googleはサンドボックス化、人間による監視、厳格なアクセス制御も推奨しており、詳細はベストプラクティス文書に記載されています。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう！

ログインして議論に参加

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →

GoogleがGemini 3.5 Flashに画面操作機能を統合し、開発者がブラウザやモバイルで自動化されたAIエージェントを構築できるようになりました。

要点

3つのポイント

よくある質問

ディスカッション

関連記事

GitHub Copilot のエージェント実行基盤が複数のAIモデルに対応しながら、同等のタスク完了率を維持して少ないトークン消費を実現。

OpenAIはトランプ政権の要請を受けGPT-5.6を段階的に公開する方針で、同じく規制を受けるAnthropicより有利な条件を得ました。

OpenAI、トランプ政権の指示で新モデルGPT 5.6を限定的に公開へ—政府の事前承認体制が敷かれる

Visaが「エージェント・コマース」向けのAI・決済企業との提携を加速し、カード手数料以外の収益源開拓を進めている。

AI基盤運用企業TrueFoundryがMLOps先駆者Seldon AIを買収し、エンタープライズ向けエージェントAI展開を加速します。

Anthropic が Alibaba を Claude 複製の最大規模攻撃で非難、米中 AI 競争が激化

AIニュースを毎日お届け