AIToday

RL.cu: PyTorchなしでCUDAのみを用いたLLM強化学習パイプライン実装、TRL+vLLMより1.37x高速化

Hacker News23時間前2分で読める
RL.cu: PyTorchなしでCUDAのみを用いたLLM強化学習パイプライン実装、TRL+vLLMより1.37x高速化

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    RL.cuはFlashAttention-2、RMSNorm、RoPE、SwiGLU、AdamW、GRPO損失関数など全ての主要カーネルを手書きCUDAで実装し、推論エンジン(連続バッチング、ページ化KVキャッシュ、CUDAグラフ)とSFT+GRPO訓練ループを完全に備えたLLM強化学習の自前実装。

  2. 2

    Qwen3-0.6B、DeepMath-103K、RTX PRO 6000環境においてRL.cuはTRL(vLLMバックエンド)との比較で壁時計時間で1.37x高速化を実現:生成スループット2,992 tok/s(TRL: 2,602 tok/s)、ステップ時間33.7s(TRL: 46.3s)、903ステップ総実行時間8.5h(TRL: 11.6h)。

  3. 3

    同じGPUメモリを推論と訓練フェーズで共有し、ステップごとの重み転送が不要な設計により、推論・訓練の不一致をゼロにしつつ、生成フェーズと訓練フェーズ間の遅延を排除。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →