従来の推測デコーディングとの違いは何ですか？

従来の推測デコーディングは、小さなドラフトモデルが 1 トークンずつ左から右へ順序立てて生成するため、2～3 倍の速度上限に留まっていました。DFlash はブロック拡散モデルを使って複数トークンを一度に並列処理するため、ドラフトコストが一定に抑えられ、より高い速度向上が可能になります。

採用率が重要なのはなぜですか？

LLM の推論処理はメモリ読み込み律速であり、各ステップはモデルの重みを GPU メモリから計算ユニットに移動するのにほとんどの時間を費やします。ドラフトモデルが提案したトークンがターゲットモデルに採用される割合（採用率）が高いほど、スループットが向上するため、実運用での性能向上に直結します。

利用するにはどうすればよいですか？

DFlash ドラフトモデルは既に vLLM、SGLang、Transformers に統合済みで、HuggingFace で Qwen および他のモデルファミリー向けのモデルが提供されています。

記事一覧に戻る大規模言語モデル

大規模言語モデル

推測デコーディング技術の新モデルが1000トークン/秒以上を達成、従来の2～3倍の速度上限を突破しました。

Daily Dose of Data Science1日前5分で読める

要点

Modal が新しい DFlash ドラフトモデルをリリースし、推測デコーディングによる推論速度の上限を従来の 2～3 倍から大幅に超える水準へ引き上げました。Qwen 3.5 122B-A10B では 1000 トークン/秒以上の速度を達成し、従来の 250 トークン/秒から 4 倍以上高速化しています。ブロック拡散方式により複数トークンを並列に予測し、ターゲットモデルの内部表現を活用することで、トークン採用率が大幅に向上した結果です。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

何が起きたか
Modal が新しい DFlash ドラフトモデルを Qwen モデル向けにリリースしました。従来の推測デコーディングは 1 トークンずつ予測する方式で 2～3 倍の速度上限に留まっていましたが、DFlash はブロック拡散モデルを使って複数トークンを一度に並列予測するため、この上限を超えることができます。Qwen 3.5 122B-A10B では 250 トークン/秒から 1000 トークン/秒以上に高速化しました。
なぜ重要か
推論処理の高速化は、AI サービスの応答時間短縮やコスト削減に直結するため、LLM を実運用するビジネスにとって重要な課題です。DFlash モデルが実データに基づいて訓練されているため、提案トークンの採用率が baseline の 3 から 9 以上に向上し、より実用的な速度向上が実現できるとみられます。
注目点
DFlash ドラフトモデルは既に vLLM、SGLang、Transformers に統合済みであり、HuggingFace で Qwen および他のモデルファミリー向けに提供されています。

無料登録して続きを読む

よくある質問

従来の推測デコーディングとの違いは何ですか？: 従来の推測デコーディングは、小さなドラフトモデルが 1 トークンずつ左から右へ順序立てて生成するため、2～3 倍の速度上限に留まっていました。DFlash はブロック拡散モデルを使って複数トークンを一度に並列処理するため、ドラフトコストが一定に抑えられ、より高い速度向上が可能になります。
採用率が重要なのはなぜですか？: LLM の推論処理はメモリ読み込み律速であり、各ステップはモデルの重みを GPU メモリから計算ユニットに移動するのにほとんどの時間を費やします。ドラフトモデルが提案したトークンがターゲットモデルに採用される割合（採用率）が高いほど、スループットが向上するため、実運用での性能向上に直結します。
利用するにはどうすればよいですか？: DFlash ドラフトモデルは既に vLLM、SGLang、Transformers に統合済みで、HuggingFace で Qwen および他のモデルファミリー向けのモデルが提供されています。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう！

ログインして議論に参加

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →

推測デコーディング技術の新モデルが1000トークン/秒以上を達成、従来の2～3倍の速度上限を突破しました。

要点

3つのポイント

よくある質問

ディスカッション

関連記事

GitHub Copilot のエージェント実行基盤が複数のAIモデルに対応しながら、同等のタスク完了率を維持して少ないトークン消費を実現。

OpenAIはトランプ政権の要請を受けGPT-5.6を段階的に公開する方針で、同じく規制を受けるAnthropicより有利な条件を得ました。

OpenAI、トランプ政権の指示で新モデルGPT 5.6を限定的に公開へ—政府の事前承認体制が敷かれる

Visaが「エージェント・コマース」向けのAI・決済企業との提携を加速し、カード手数料以外の収益源開拓を進めている。

AI基盤運用企業TrueFoundryがMLOps先駆者Seldon AIを買収し、エンタープライズ向けエージェントAI展開を加速します。

Anthropic が Alibaba を Claude 複製の最大規模攻撃で非難、米中 AI 競争が激化

AIニュースを毎日お届け