
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →RL.cuはFlashAttention-2、RMSNorm、RoPE、SwiGLU、AdamW、GRPO損失関数など全ての主要カーネルを手書きCUDAで実装し、推論エンジン(連続バッチング、ページ化KVキャッシュ、CUDAグラフ)とSFT+GRPO訓練ループを完全に備えたLLM強化学習の自前実装。
Qwen3-0.6B、DeepMath-103K、RTX PRO 6000環境においてRL.cuはTRL(vLLMバックエンド)との比較で壁時計時間で1.37x高速化を実現:生成スループット2,992 tok/s(TRL: 2,602 tok/s)、ステップ時間33.7s(TRL: 46.3s)、903ステップ総実行時間8.5h(TRL: 11.6h)。
同じGPUメモリを推論と訓練フェーズで共有し、ステップごとの重み転送が不要な設計により、推論・訓練の不一致をゼロにしつつ、生成フェーズと訓練フェーズ間の遅延を排除。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加





200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝5分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応