DeGao
2025-08-20 23:45:20
Memory 和 Context为什么是护城河?也对也不对
如果单把Memory 和 Context看成存储,那就是不对。如果把Memory 和 Context比作智能,就对了一半。
Magic Dev创造了1亿上下文窗口,这意味着什么,这意味着模型可以记住更多东西,他的工作记忆会很长,但是盲目的扩大上下文窗口,其实也不对。
上下文窗口如果比作工作记忆,这又是对了一半,这里真正目的是:零样本的快速学习。
为什么这么说?
传统方式:为每个场景训练/微调不同模型(慢、贵、死板)
大Context方式:一个模型通过上下文即时变成任何专家(快、灵活、个性化)
这改变了游戏规则
从"预训练竞争"变成"推理时学习竞争":
以前:谁的预训练数据多、模型大,谁赢
现在:谁能在推理时更好地利用上下文学习,谁赢
模型层拥有过强的议价权,纯应用层太脆弱了。
但这里有个关键问题
大Context ≠ 好的零样本学习:
盲目扩大窗口确实不对,因为:
注意力稀释:100万token里找关键信息很难
推理成本:平方级增长的计算开销
学习质量:不是所有信息都有同等价值
真正的护城河可能是:
智能的Context管理(知道什么时候关注什么)
高效的信息压缩(用更少token表达更多信息)
动态的注意力分配(像人类一样有选择地注意)
继Transformer之后,RWKV+DLM,就是最佳选择,可以突破上下文窗口瓶颈。
RWKV、Mamba和Transformer三者的区别,谁能主宰未来?
AI护城河:垂直模型+垂直应用的深度耦合