三年LLM：过去和未来

Posted Mar 28, 2026

By Yi Cao

14 min read

三年LLM：过去和未来

OpenAI的ChatGPT于2022年年底发布。得益于境外手机号接码渠道，我第一时间就用上并惊叹于人工智能的突破。一转眼，LLM在过去的三年里已无可辩驳地渗透至千家万户。

一小段历史

Transformer模型最早于2017年由谷歌提出，核心思路是通过Self-Attention机制显式地表达词语之间语义联系¹。OpenAI在2018年首次发布GPT-1模型，将架构简化为Decoder-only的Autoregressive词语预测²。自此，LLM的总体架构尘埃落定，后续的GPT-2、GPT-3等皆在此基础上扩展模型大小和数据集的规模。不仅局限于文字，Transformer在视觉领域表现也很好³。为何大模型能够涌现出强大的能力仍不得而知。Anthropic于2021年在一个极度简化的模型中发现了Induction Heads结构⁴，但如同生物学第一次发现红细胞，我们离真正理解LLM的工作原理相差甚远。

我的经历

朴素文本生成与搜索引擎

记忆中，初代GPT-3.5尚且幻觉频发，其输出往往需人工核查事实。那些本身不具严肃意义、亦无需严格验证的作文任务，最宜交由GPT处理，这也算是回归了其文本续写的本质功能。

GPT在联网后实用性显著提升。比起传统搜索引擎，GPT的优势在于：其一，迅速地总结和提炼信息。谷歌在搜索引擎中嵌入了AI Overview，实际体验确实更加方便；其二，也是最重要的——解决了搜索引擎“不知道搜什么关键字”的问题。比如我想知道“3D游戏中角色自适应动画如何实现”，LLM会直接告诉我我应该搜索“Inverse Kinematics”。这是传统基于关键词的搜索引擎难以企及的。

LLM即老师

LLM在教学方面潜力巨大。教学任务与LLM高度契合：不仅模型本身具备大量先验的初等知识（训练集中反复），教材也能提供充足的上下文，学生的问题大多也是小规模良定义的，只需要LLM重新解释一遍即可。

常规问答必不多言。拿到Claude Code后，我试着将哈佛的The Annotated Transformer和Karpathy的nanoGPT投喂进Claude Code，令其对照两份材料，撰写一份从零构建GPT的教程。第一版完成度尚可，但是作为教材未能妥善处理读者的阅读顺序和知识背景。我顺序阅读并学习，遇见觉得不通顺的地方就给予明确指示如何重写，最终两天完成一份在我认为质量不错的教程。可见虽LLM仍需人类引导，效率提升非常显著。

若使用不当，LLM也会带来意料之中的麻烦——倘若只知复制粘贴，知识终究未曾过脑⁵。這種成績，使人汗顏！（发自我的手机）

多模态和Agent

Agent概念虽被外界炒作得天花乱坠，思路其实非常朴素：在prompt中教LLM以固定的格式引用外部工具（如读取文件、爬取网页等），确定性代码结果加入LLM上下文。Agent刚被引入时看上去能大幅度提升LLM智力，究其根本还是提供了正确充分的上下文，与人类手动提供上下文（如将一个框架的文档粘贴进对话框）本质没有区别，Agent只是自动化了这个过程。程序员是Agent的最大受益者，因其需频繁与代码仓库交互。LLM代码能力已被多次探讨过，同样的，在缺乏显式引导下LLM喜欢写毫无设计且充斥着不必要冗余的代码。有软工水平的人可以通过LLM大幅提升效率，反之则大概率误入歧途。

多模态能力很有用，但相较于文字稍不稳定一些。我试图用Claude Code将我糟糕的手写数学笔记转化为整齐编排的$\LaTeX$文档。效果相当好，文字几无人工干预需要，TikZ画图有大概50%成功率，大多需要人工调整。我注意到有些输出数学上正确，却和我原有笔记不一致。合理猜测LLM只是从图片大致概括得我的笔记内容，对于一些细节都采用了先验知识猜测和补全。

未来展望

AI存在泡沫吗？

LLM爆发后，两类产品尤为惹人生厌。其一，大公司为取悦短视股东，生硬地在产品中植入AI大粪，如Windows自带Copilot，臭不可闻。再者是一些小团队或者个人写的灾难级产品，哪怕是猪，站在风口上也能飞起来，荣誉提名OpenClaw。两者都证明了搞金融和做新闻的人非蠢即坏。

不仅如此，即使对有真才实学的AI公司（Google、OpenAI、Anthropic、阿里等，好歹是干实事的），盈利仍非常困难，OpenAI至今都在烧投资人的本金。高杠杆加上总体的经济停滞/下行趋势并不是一个好兆头。考虑到AI仍是有用的（不像前阵子Web3和Meta纯粹的骗局），我更倾向于AI会像互联网泡沫一样，大浪淘沙留下有价值的产品，只是中间泡沫破裂不知会软着陆还是硬着陆。

LLM真的理解吗？

现有LLM智能已足够好，但和人类智能还有本质上的区别⁶。从端到端的角度看，LLM只是概率拟合，无可避免的会给似是而非的东西，上下文对输出的影响非常显著。早期Prompt Engineering就意图解决这个问题，尽管本身噱头大于技术。一部分，LLM听风是雨，对Prompt内容深信不疑。这点在自动化流程中比较灾难，如一个联网的LLM Agent在搜得网页中获取了错误信息，它会以看上去非常可信的方式总结和呈现。上下文也有更微妙的影响方式。LLM会尽力模仿上下文，后果是若代码里有隐藏的bug或不良的架构，LLM会继续沿用错误的方式，将问题越堆得积重难返。

简而言之：LLM的输出与输入强相关，且很多知识仍需后验提供。人类提供正确上下文和对大方向的“品味”反而更加的重要。

大家都会失业吗？

据上述，LLM与人类显然仍具不少差距。更恰当的类比为，LLM是脑力劳动领域的纺织机——取代trivial的脑力劳动，如水文字。自然的，若之后有全球范围的失业潮和经济下行，LLM充其量也只是引火线而已：总生产力提升了，为何生活水平反而下降？那必然是分配问题，大可不必因LLM感到存在危机。

有趣的副作用是，LLM祛魅了如教师、科学家、程序员等职业的神秘性。（并不是说这些职业不值得被尊重。且不必沮丧：AI能做是因为我们（在训练数据里）反复做过太多次，是时候休息一下了）新工具揭露了这些职业大部分工作内容同样的trivial，在现有技术下易于自动化。坐办公室的白领再也没有理由看不起工厂的蓝领，大家本质都是讨辛苦饭的牛马打工人。

LLM有瓶颈吗？

个人的猜测是LLM将会遇到瓶颈，原因是训练数据的劣化。互联网上愈发的充斥着LLM洗稿低质量内容，之后的LLM训练要么不引入新的数据，要么会逐渐退化为蒸馏前代LLM。但蒸馏只是面向小模型的特化技巧，用劣化的数据训练模型只能得到劣化的结果⁷。模型本身的架构上限尚不明确，毕竟人类连Transformer为何涌现出如此多的智能还不清楚。

我还有一些闲杂的思绪：近来有很多试图拓展LLM上下文的研究。但仔细审视人类的记忆和思维，短时工作记忆并没有那么高，更重要的能力是抽象和直觉——一个抽象中（如一个数学公理）下层细节对我是透明（transparent）的，我只需要知道条件和结果之间的关系，并一定程度依靠直觉判断何时调用哪种抽象来解决问题。

参考

Vaswani, A., et al. “Attention is all you need,” in Advances in neural information processing systems, vol. 30, 2017. ↩
A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, “Improving language understanding by generative pre-training,” OpenAI, San Francisco, CA, USA, Tech. Rep., 2018. ↩
A. Kolesnikov et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” in Proc. Int. Conf. Learn. Represent. (ICLR), 2021. ↩
B. Geshkovski, C. Letrouit, Y. Polyanskiy, and P. Rigollet, “A mathematical perspective on Transformers,” Aug. 21, 2025, arXiv: arXiv:2312.10794. doi: 10.48550/arXiv.2312.10794. ↩
N. Kosmyna et al., “Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task,” Dec. 31, 2025, arXiv: arXiv:2506.08872. doi: 10.48550/arXiv.2506.08872. ↩
A. Dawid and Y. LeCun, “Introduction to latent variable energy-based models: a path toward autonomous machine intelligence,” J. Stat. Mech., vol. 2024, no. 10, p. 104011, Oct. 2024, doi: 10.1088/1742-5468/ad292b. ↩
I. Shumailov, Z. Shumaylov, Y. Zhao, N. Papernot, R. Anderson, and Y. Gal, “AI models collapse when trained on recursively generated data,” Nature, vol. 631, no. 8022, pp. 755–759, Jul. 2024, doi: 10.1038/s41586-024-07566-y. ↩

life

This post is licensed under CC BY-SA 4.0 by the author.