AWSが「P-EAGLE」という推論高速化技術をSageMakerで提供開始し、生成AIモデルの応答速度が最大1.69倍向上するようになりました。

Amazon AI Blog1日前3分で読める

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

1
何が起きたか：AWS が Parallel-EAGLE（P-EAGLE）という技術を開発・オープンソース化し、Amazon SageMaker JumpStart で提供を始めました。複数の基盤モデル（GPT-OSS-120B、Qwen3-Coder-30B-A3B-Instruct、Gemma-4-31B-IT など）に対応しており、ワンクリック展開が可能です。
2
なぜ重要か：従来の推論高速化手法（EAGLE）では、予測トークンが順序依存的に生成されるため、深く推測するほど遅延が増していました。P-EAGLE はすべてのトークンを同時に予測することで、この制約を取り除き、管理者が複雑な設定やカスタム実装なしに高速化の恩恵を受けられるようになります。
3
注目点：ベンチマーク測定では、P-EAGLE が EAGLE-3 比で最大 1.41 倍のスループット改善を達成し（SPEED-Bench Code での同時リクエスト 1 件時）、標準推論比では最大 3.97 倍の出力トークン秒数を実現しました。AWS SageMaker AI を使えば、ml.g7e.2xlarge インスタンス相当での展開が可能です。

この記事のディスカッションはまだありません

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応