ENJA

ログイン毎日無料でニュースを受け取る

記事一覧に戻る大規模言語モデル

大規模言語モデル

RL.cu: PyTorchなしでCUDAのみを用いたLLM強化学習パイプライン実装、TRL+vLLMより1.37x高速化

Hacker News2026年6月7日

RL.cu: PyTorchなしでCUDAのみを用いたLLM強化学習パイプライン実装、TRL+vLLMより1.37x高速化

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

RL.cuはFlashAttention-2、RMSNorm、RoPE、SwiGLU、AdamW、GRPO損失関数など全ての主要カーネルを手書きCUDAで実装し、推論エンジン（連続バッチング、ページ化KVキャッシュ、CUDAグラフ）とSFT+GRPO訓練ループを完全に備えたLLM強化学習の自前実装。
Qwen3-0.6B、DeepMath-103K、RTX PRO 6000環境においてRL.cuはTRL（vLLMバックエンド）との比較で壁時計時間で1.37x高速化を実現：生成スループット2,992 tok/s（TRL: 2,602 tok/s）、ステップ時間33.7s（TRL: 46.3s）、903ステップ総実行時間8.5h（TRL: 11.6h）。
同じGPUメモリを推論と訓練フェーズで共有し、ステップごとの重み転送が不要な設計により、推論・訓練の不一致をゼロにしつつ、生成フェーズと訓練フェーズ間の遅延を排除。

こうしたAIニュースを毎朝無料で受け取る LINEで友だち追加して受け取る元記事を読む

「大規模言語モデル」の最新ニュースを、毎朝7時にお届けします

AIが要約して、あなたの選んだトピックだけを1日1通。LINE・Email・Slackで届きます。

無料で毎朝受け取る →LINEで友だち追加して受け取る

登録無料・30秒で完了・いつでも解除できます

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう！

ログインして議論に参加

関連記事

アリババ、チップからモデルまでAI帝国を構築

DIGITIMES Asia4時間前

ピチャイ氏、Gemini 3.5 Pro遅延で懸念に反論

Yahoo Finance AI4時間前

Alphabetが12四半期連続の二桁成長を達成

Yahoo Finance AI7時間前

AMDがAnthropicと数十億ドル規模のAIチップ契約を締結

Yahoo Finance AI11時間前

Reddit、AI訓練データ巡りAnthropicを提訴

Semafor Tech11時間前

OpenAIのAIが自律ハッキング

Fortune AI11時間前

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →