← 記事一覧に戻る
大規模言語モデル
ML team documents critical compatibility issues when fine-tuning and deploying Google's Gemma-4 model
r/MachineLearning · 2026年4月18日
AI要約
•
PEFT library fails to recognize Gemma-4's custom ClippableLinear layers, requiring manual unwrapping before LoRA attachment
•
SFTTrainer from TRL silently breaks training by hardcoding use_cache=False, corrupting KV-sharing attention—fixed in transformers v5.5.2+
•
DeepSpeed ZeRO-3 produces incomplete LoRA adapters with zero-element tensors in half the layers, making fine-tuning ineffective
•
No mature runtime LoRA serving solutions exist yet, with vLLM experiencing significant latency issues during inference
元記事を読む
関連記事
大規模言語モデル
Moonshot AIがオープンウェイト版Kimi K2.6をリリース、GPT-5.4やClaude Opus 4.6と同等の性能を実現
THE DECODER
·
2026年4月20日
大規模言語モデル
NoetikがTARIO-2などの自己回帰トランスフォーマーを使用して、がん臨床試験の95%の失敗率を解決する患者マッチング問題に取り組んでいる
Latent Space
·
2026年4月20日
大規模言語モデル
億万長者のコニー・バルマーがNPRに8000万ドルを寄付、トランプ政権の公共放送予算削減に対抗
Fortune AI
·
2026年4月20日
大規模言語モデル
研究者チームがLLMの欺瞞的な行動がトレーニング中にどのように生き残るかを調査
LessWrong AI
·
2026年4月20日
大規模言語モデル
AWSがStrands Evals内のToolSimulatorを発表、LLM駆動シミュレーションでAIエージェントの安全なテストを実現
Amazon AI Blog
·
2026年4月20日
AIニュースを毎日お届け
200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める