トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
本日、最大のLFM2モデルであるLFM2-24B-A2B 🐘をリリースします
> 24Bの総パラメータ
> 1トークンあたり23億のアクティブ
> ハイブリッドでハードウェア対応のLFM2アーキテクチャを基盤としています
LFM2の高速でメモリ効率の高い設計とMixtur of Expertのセットアップを組み合わせており、各実行で23億パラメータのみが有効化されます。
その結果、クラス最高の効率、高速なエッジ推論、予測可能な対数線形スケーリングが32GBの2BアクティブMoEフットプリントで実現されました。
🧵

このリリースにより、LFM2ファミリーはほぼ2桁にわたるLFM2-350MからLFM2-24B-A2Bまで拡大しました。スケールアップのたびに標準的な基準で一貫した品質向上が見られます。
LFM2-24B-A2Bは32GBのRAMに収まるよう設計し、統合グラフィックスプロセッサ(iGPU)と専用ニューラルプロセッサ(NPU)を搭載した消費者向けノートパソコンやデスクトップでも動作可能にしました。
> LFM2-24B-A2Bは、LFM2ファミリーを350Mから24Bパラメータ→拡張します
> ベンチマーク間で一貫した対数線形の品質向上があり、ほぼ2桁のスケールを達成しています
スケールレシピ:もっと深く掘り下げてください。専門家を追加しましょう。アクティブパスはスリムに保ちましょう。
LFM2-24B-A2Bを拡大し、24→40層とエキスパートを倍増させ(MoEブロックあたり32→64)、隠れたサイズ(2048)、トップ4ルーティング、注意対変化率を固定しました。
> 総パラメータが3×増加(8.3B→24B)
> アクティブパラメータは成長しすぎません ~1.5× (1.5B→2.3B)
推論コストはアクティブパス(パラメータ数の総数ではなく)を追跡し、レイテンシーとエネルギーを実際の展開制約に整合させます。
キャパシティスケール。トークンごとの計算はリーンなままです。

私たちはこれを伝統的なインストラクトモデル(推論痕跡なし)として、軽量なポストトレーニングを使って出荷しました。
横断:
> GPQAダイヤモンド
> MMLU-Pro
> IFEval
> IFBench
> GSM8K
> MATH-500
品質は3億5千万→24Bへと直数的に向上します。
この約100×のパラメータ範囲は、ハイブリッドLFM2アーキテクチャの予測可能なスケーリング挙動を裏付けており、小規模モデルの天井効果はありません。

LFM2-24B-A2Bは、llama.cpp、vLLM、SGLang、CPUまたはGPUを標準でデイゼロ対応し、GGUF量子化(Q4_0、Q4_K_M、Q5_K_M、Q6_K、Q8_0、F16)を備えています。
CPU(AMD Ryzen AI Max+ 395、Q4_K_M)では、8Kコンテキストで~93 tok/sを維持し、同規模のMoEモデルを上回る性能を発揮しつつ、強力な長期コンテキストスケーリングを維持しています。

CPU(AMD Ryzen AI Max+ 395、Q4_K_M、llama.cpp)では、LFM2-24B-A2Bは1K→8Kのコンテキストで強力なプリフィルスループットを維持し(8Kで約1,132 tok/s)、同規模のMoEモデルと競争力を保っています。
GPU(H100 SXM5、SGLang/vLLM)では、現実的な高並行実行下での良好な出力スループットスケーリングを示し、コスト効率の高い展開やRLVRワークロードに不可欠です。

GPU(H100 SXM5、vLLM)では、LFM2-24B-A2Bは1024リクエスト(最大入力トークン1024/最大出力トークン512)で合計トークンスループット(tok/s)約26.8Kに達し、連続バッチ処理下で同規模のMoEモデルを上回る性能を発揮します。
リアルなインターリーブドプリフィル+デコードで測定され、本番規模のサービスや強化学習(RL)ワークロード向けに構築されています。

52
トップ
ランキング
お気に入り
