AIToday

推測デコーディング技術の新モデルが1000トークン/秒以上を達成、従来の2~3倍の速度上限を突破しました。

Daily Dose of Data Science1日前5分で読める
推測デコーディング技術の新モデルが1000トークン/秒以上を達成、従来の2~3倍の速度上限を突破しました。

要点

Modal が新しい DFlash ドラフトモデルをリリースし、推測デコーディングによる推論速度の上限を従来の 2~3 倍から大幅に超える水準へ引き上げました。Qwen 3.5 122B-A10B では 1000 トークン/秒以上の速度を達成し、従来の 250 トークン/秒から 4 倍以上高速化しています。ブロック拡散方式により複数トークンを並列に予測し、ターゲットモデルの内部表現を活用することで、トークン採用率が大幅に向上した結果です。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  • 何が起きたか

    Modal が新しい DFlash ドラフトモデルを Qwen モデル向けにリリースしました。従来の推測デコーディングは 1 トークンずつ予測する方式で 2~3 倍の速度上限に留まっていましたが、DFlash はブロック拡散モデルを使って複数トークンを一度に並列予測するため、この上限を超えることができます。Qwen 3.5 122B-A10B では 250 トークン/秒から 1000 トークン/秒以上に高速化しました。

  • なぜ重要か

    推論処理の高速化は、AI サービスの応答時間短縮やコスト削減に直結するため、LLM を実運用するビジネスにとって重要な課題です。DFlash モデルが実データに基づいて訓練されているため、提案トークンの採用率が baseline の 3 から 9 以上に向上し、より実用的な速度向上が実現できるとみられます。

  • 注目点

    DFlash ドラフトモデルは既に vLLM、SGLang、Transformers に統合済みであり、HuggingFace で Qwen および他のモデルファミリー向けに提供されています。

よくある質問

従来の推測デコーディングとの違いは何ですか?
従来の推測デコーディングは、小さなドラフトモデルが 1 トークンずつ左から右へ順序立てて生成するため、2~3 倍の速度上限に留まっていました。DFlash はブロック拡散モデルを使って複数トークンを一度に並列処理するため、ドラフトコストが一定に抑えられ、より高い速度向上が可能になります。
採用率が重要なのはなぜですか?
LLM の推論処理はメモリ読み込み律速であり、各ステップはモデルの重みを GPU メモリから計算ユニットに移動するのにほとんどの時間を費やします。ドラフトモデルが提案したトークンがターゲットモデルに採用される割合(採用率)が高いほど、スループットが向上するため、実運用での性能向上に直結します。
利用するにはどうすればよいですか?
DFlash ドラフトモデルは既に vLLM、SGLang、Transformers に統合済みで、HuggingFace で Qwen および他のモデルファミリー向けのモデルが提供されています。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →