推理加速技术:Groq、Cerebras和SambaNova

DeGao 2025-08-13 20:09:16

芯片厂商 Groq、Cerebras和SambaNova,当前最高记录是2,100 tokens/S。

而Gemini Diffusion 、Seed Diffusion和Mercury Coder,当前最高记录是2,146 Tokens/S。

当然,不能忘记补一下我们 ChatDLM,2,800 Token/S。

市场上有不少企业在解决推理加速问题,对于中文市场而言,从芯片入手去解决速度,这需要花费很久的时间,而在技术架构上,这会快很多。

也就是说,在中文市场上,没多少人可以用到这样的高速推理模型。而在全球市场上,则是硬件派 vs 算法派。

在加速方面,实现路径不对称,中文市场上蕴藏着巨大的推理加速机会!

目前看来,DLM还是无法追平AR的质量,速度优势还不突出,一旦DLM的速度非常突出,差异化必将形成。

我想这个分水岭应该是3500 Token/S左右,当然,推到5000 Token/S的话,芯片厂商就会受到极大的约束。

那么DLM的质量,真的无法提升吗?在我看来不是,除了自适应的区块扩散以外,还有一直策略,就是给开源模型做加速Think,或者叫 Fast Think。

这样一来,质量就可控了,而且速度也变快了。看起来一举多得。随着时间发展,再训练一些Fast Answer,完全做成拼接方案。

可拔插的优势就可以成本降低,速度更快,有些地方甚至可以并行,而且可以让路由参与,就像GPT-5这种路由策略。

另外一方面,Claude在Code方面的表现,已经说明LLM是可以垂直化的,关键在于怎么运转成垂直化,所以AGI这个词,通用这个概念,是个微概念。

OpenAI在GPT-5上也考量了成本,并且开源市场非常发达,那么这种情况下,除了Coder以外,Think模型、Translation模型,甚至是多模态,会进一步垂直化,路由分配可拔插。

Claude Code的成功证明了专业化比通用化更有价值,市场用钱来检验过。Think模型的专业化分化:通用Think → 代码Think + 数学Think + 逻辑Think + 创意Think。垂直化趋势的可能性:95%+。驱动这一核心因素是经济的必然性,技术的成熟性,市场需求以及开源推动。2026,这一切将成为可能。最终,这个主战场会回到算法派Vs算法派。

很高兴你能耐心的读完我的文章,你一定不想在AI时代错过原创、深挖的消息,请关注DeGao的Twitter,不迷路!

相关资讯