三年LLM:过去和未来
OpenAI的ChatGPT于2022年年底发布。得益于境外手机号接码渠道,我第一时间就用上并惊叹于人工智能的突破。一转眼,LLM在过去的三年里已无可辩驳地渗透至千家万户。
一小段历史
Transformer模型最早于2017年由谷歌提出,核心思路是通过Self-Attention机制显式地表达词语之间语义联系1。OpenAI在2018年首次发布GPT-1模型,将架构简化为Decoder-only的Autoregressive词语预测2。自此,LLM的总体架构尘埃落定,后续的GPT-2、GPT-3等皆在此基础上扩展模型大小和数据集的规模。不仅局限于文字,Transformer在视觉领域表现也很好3。为何大模型能够涌现出强大的能力仍不得而知。Anthropic于2021年在一个极度简化的模型中发现了Induction Heads结构4,但如同生物学第一次发现红细胞,我们离真正理解LLM的工作原理相差甚远。
我的经历
朴素文本生成与搜索引擎
记忆中,初代GPT-3.5尚且幻觉频发,其输出往往需人工核查事实。那些本身不具严肃意义、亦无需严格验证的作文任务,最宜交由GPT处理,这也算是回归了其文本续写的本质功能。
GPT在联网后实用性显著提升。比起传统搜索引擎,GPT的优势在于:其一,迅速地总结和提炼信息。谷歌在搜索引擎中嵌入了AI Overview,实际体验确实更加方便;其二,也是最重要的——解决了搜索引擎“不知道搜什么关键字”的问题。比如我想知道“3D游戏中角色自适应动画如何实现”,LLM会直接告诉我我应该搜索“Inverse Kinematics”。这是传统基于关键词的搜索引擎难以企及的。
LLM即老师
LLM在教学方面潜力巨大。教学任务与LLM高度契合:不仅模型本身具备大量先验的初等知识(训练集中反复),教材也能提供充足的上下文,学生的问题大多也是小规模良定义的,只需要LLM重新解释一遍即可。
常规问答必不多言。拿到Claude Code后,我试着将哈佛的The Annotated Transformer和Karpathy的nanoGPT投喂进Claude Code,令其对照两份材料,撰写一份从零构建GPT的教程。第一版完成度尚可,但是作为教材未能妥善处理读者的阅读顺序和知识背景。我顺序阅读并学习,遇见觉得不通顺的地方就给予明确指示如何重写,最终两天完成一份在我认为质量不错的教程。可见虽LLM仍需人类引导,效率提升非常显著。
若使用不当,LLM也会带来意料之中的麻烦——倘若只知复制粘贴,知识终究未曾过脑5。這種成績,使人汗顏!(发自我的手机)
多模态和Agent
Agent概念虽被外界炒作得天花乱坠,思路其实非常朴素:在prompt中教LLM以固定的格式引用外部工具(如读取文件、爬取网页等),确定性代码结果加入LLM上下文。Agent刚被引入时看上去能大幅度提升LLM智力,究其根本还是提供了正确充分的上下文,与人类手动提供上下文(如将一个框架的文档粘贴进对话框)本质没有区别,Agent只是自动化了这个过程。程序员是Agent的最大受益者,因其需频繁与代码仓库交互。LLM代码能力已被多次探讨过,同样的,在缺乏显式引导下LLM喜欢写毫无设计且充斥着不必要冗余的代码。有软工水平的人可以通过LLM大幅提升效率,反之则大概率误入歧途。
多模态能力很有用,但相较于文字稍不稳定一些。我试图用Claude Code将我糟糕的手写数学笔记转化为整齐编排的$\LaTeX$文档。效果相当好,文字几无人工干预需要,TikZ画图有大概50%成功率,大多需要人工调整。我注意到有些输出数学上正确,却和我原有笔记不一致。合理猜测LLM只是从图片大致概括得我的笔记内容,对于一些细节都采用了先验知识猜测和补全。
未来展望
AI存在泡沫吗?
LLM爆发后,两类产品尤为惹人生厌。其一,大公司为取悦短视股东,生硬地在产品中植入AI大粪,如Windows自带Copilot,臭不可闻。再者是一些小团队或者个人写的灾难级产品,哪怕是猪,站在风口上也能飞起来,荣誉提名OpenClaw。两者都证明了搞金融和做新闻的人非蠢即坏。
不仅如此,即使对有真才实学的AI公司(Google、OpenAI、Anthropic、阿里等,好歹是干实事的),盈利仍非常困难,OpenAI至今都在烧投资人的本金。高杠杆加上总体的经济停滞/下行趋势并不是一个好兆头。考虑到AI仍是有用的(不像前阵子Web3和Meta纯粹的骗局),我更倾向于AI会像互联网泡沫一样,大浪淘沙留下有价值的产品,只是中间泡沫破裂不知会软着陆还是硬着陆。
LLM真的理解吗?
现有LLM智能已足够好,但和人类智能还有本质上的区别6。从端到端的角度看,LLM只是概率拟合,无可避免的会给似是而非的东西,上下文对输出的影响非常显著。早期Prompt Engineering就意图解决这个问题,尽管本身噱头大于技术。一部分,LLM听风是雨,对Prompt内容深信不疑。这点在自动化流程中比较灾难,如一个联网的LLM Agent在搜得网页中获取了错误信息,它会以看上去非常可信的方式总结和呈现。上下文也有更微妙的影响方式。LLM会尽力模仿上下文,后果是若代码里有隐藏的bug或不良的架构,LLM会继续沿用错误的方式,将问题越堆得积重难返。
简而言之:LLM的输出与输入强相关,且很多知识仍需后验提供。人类提供正确上下文和对大方向的“品味”反而更加的重要。
大家都会失业吗?
据上述,LLM与人类显然仍具不少差距。更恰当的类比为,LLM是脑力劳动领域的纺织机——取代trivial的脑力劳动,如水文字。自然的,若之后有全球范围的失业潮和经济下行,LLM充其量也只是引火线而已:总生产力提升了,为何生活水平反而下降?那必然是分配问题,大可不必因LLM感到存在危机。
有趣的副作用是,LLM祛魅了如教师、科学家、程序员等职业的神秘性。(并不是说这些职业不值得被尊重。且不必沮丧:AI能做是因为我们(在训练数据里)反复做过太多次,是时候休息一下了)新工具揭露了这些职业大部分工作内容同样的trivial,在现有技术下易于自动化。坐办公室的白领再也没有理由看不起工厂的蓝领,大家本质都是讨辛苦饭的牛马打工人。
LLM有瓶颈吗?
个人的猜测是LLM将会遇到瓶颈,原因是训练数据的劣化。互联网上愈发的充斥着LLM洗稿低质量内容,之后的LLM训练要么不引入新的数据,要么会逐渐退化为蒸馏前代LLM。但蒸馏只是面向小模型的特化技巧,用劣化的数据训练模型只能得到劣化的结果7。模型本身的架构上限尚不明确,毕竟人类连Transformer为何涌现出如此多的智能还不清楚。
我还有一些闲杂的思绪:近来有很多试图拓展LLM上下文的研究。但仔细审视人类的记忆和思维,短时工作记忆并没有那么高,更重要的能力是抽象和直觉——一个抽象中(如一个数学公理)下层细节对我是透明(transparent)的,我只需要知道条件和结果之间的关系,并一定程度依靠直觉判断何时调用哪种抽象来解决问题。
参考
Vaswani, A., et al. “Attention is all you need,” in Advances in neural information processing systems, vol. 30, 2017. ↩
A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, “Improving language understanding by generative pre-training,” OpenAI, San Francisco, CA, USA, Tech. Rep., 2018. ↩
A. Kolesnikov et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” in Proc. Int. Conf. Learn. Represent. (ICLR), 2021. ↩
B. Geshkovski, C. Letrouit, Y. Polyanskiy, and P. Rigollet, “A mathematical perspective on Transformers,” Aug. 21, 2025, arXiv: arXiv:2312.10794. doi: 10.48550/arXiv.2312.10794. ↩
N. Kosmyna et al., “Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task,” Dec. 31, 2025, arXiv: arXiv:2506.08872. doi: 10.48550/arXiv.2506.08872. ↩
A. Dawid and Y. LeCun, “Introduction to latent variable energy-based models: a path toward autonomous machine intelligence,” J. Stat. Mech., vol. 2024, no. 10, p. 104011, Oct. 2024, doi: 10.1088/1742-5468/ad292b. ↩
I. Shumailov, Z. Shumaylov, Y. Zhao, N. Papernot, R. Anderson, and Y. Gal, “AI models collapse when trained on recursively generated data,” Nature, vol. 631, no. 8022, pp. 755–759, Jul. 2024, doi: 10.1038/s41586-024-07566-y. ↩