
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →何が起きたか:Llama型の言語モデルをINT4形式に圧縮し、層を2つのESP32-S3ボード間で分割して実行するパイプライン推論システムが開発されました。単一ボードでは最大15Mパラメータまでしか対応できませんでしたが、このアプローチにより2ボード構成では42Mパラメータまで対応可能になります。
なぜ重要か:マイコンのような小型デバイスでは、メモリ制約が推論能力の最大の足かせになっていました。複数デバイスを組み合わせることでその制限を迂回し、より賢い文章生成が可能になることは、IoT用途での言語モデル利用の選択肢を広げます。
注目点:現在は15Mパラメータの構成で~1.4 tok/s(トークン毎秒)の速度で動作しており、42Mパラメータへのアップグレードは~0.4~0.7 tok/sの速度が見込まれています。コードはMITライセンスで公開されており、ハードウェア検証済みです。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加





200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝5分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応