从 LLM 到 Agent:理解 AI 智能体的底层逻辑

深入剖析 LLM 的本质机制,从 Token、Prompt、Context 到 Scaling Law 与涌现,理解为什么"预测下一个词"的模型能推理、写代码、做 Agent

开篇:Agent 到底是什么?

你可能听说过 AI Agent、Claude Code、Codex、Manus 这些产品。但真正追问下去:Agent 和 Chatbot 有什么本质区别?为什么同样是大模型,有的只能聊天,有的却能读文件、改代码、跑命令、持续完成任务?

核心结论先行

Agent = LLM + Harness
  • LLM(大语言模型):大脑,负责推理和生成
  • Harness:工程身体,包括工具、记忆、环境、权限、反馈回路

LLM 没有”手脚”,不能操作文件、运行命令。Harness 把它接入真实世界——让它从”会说”变成”能做”。

拿 Claude Code 举例:它把 Claude 这个 LLM 接入代码仓库、终端、文件系统、工具调用。真正让它变成 Agent 的,不只是模型本身,而是模型外面这套工程身体。


第一层:LLM 的底层机制

LLM 到 Agent 之间不是直接跳过去的。先理解 LLM 这个”大脑”本身。

LLM 的本质:预测下一个 Token

LLM 是基于 Transformer 的自回归语言模型

“自回归”的意思:一个词一个词地接着往下生成。

工作流程:

给一段上文 → 计算下一个词的概率分布 → 选一个词 → 拼到上文末尾 → 重复

这个机制决定了 LLM 的一切。本质就是一句话:根据上文预测下一个词(Token)

Token:最小的处理单元

LLM 无法直接处理原始文字。文字先被切成一个个最小处理单元——Token。

Token 不是完整的词,而是”子词”或字符片段。比如 “unbelievable” 可能被切成 ["un", "believe", "able"]

为什么不用字母或完整词?

方案问题
每个字母一个 Token语义单元太小,无法理解”like”是动词还是介词
每个词独立 Token词汇表膨胀到几百万,eat/eats/eating 被当成三个完全不同的东西

子词分词法正好平衡两者:几千个积木覆盖几十万单词的全部变化。模型既能知道核心意思来自 eat,又能通过 ing 理解时态。

Token 已经是 AI 花销的基本计量单位。管理 AI 成本,本质是分配 Token 预算。

Prompt:初始输入

模型需要一个初始输入才能开始计算概率。这个初始输入就是 Prompt。

从数学角度:Prompt 是你给模型的条件概率的前置条件

P(下一个词 | "请用李白的风格写一首咏月的诗")

模型在训练时读过无数诗词。当上文出现”李白""风格""诗”,后续大概率是古诗体词汇。

Prompt 的本质:通过控制上文来操控输出概率分布。Prompt 变化 → 条件变化 → 输出分叉。

Context:上下文窗口

模型生成每个新词时都”回顾”之前见过的所有内容。这个被回顾的整个上文就是 Context。

关键约束:Context 不能无限长。

标准 Transformer 的自注意力计算复杂度是 O(n²)。Token 数量翻倍,计算量翻四倍。系统必须划定最大长度——这就是上下文窗口(Context Window)

窗口大小的演进

阶段容量类比
便利贴 (≤4K)短问答巴掌大的纸,聊几句就得擦掉
小说/说明书 (32K)文档处理能摊开一份产品手册
项目文档 (128K-200K)主流工作台能装下《三体》第一部
全集/图书馆 (1M-10M)代码仓库整个哈利波特系列

重要缺陷:Lost in the Middle 效应

窗口大了,不代表每样东西都能被找到。模型对文档开头和结尾抓得最准,中间部分容易”视而不见”。

上下文工程的核心:不只是换更大的桌子,而是把最重要的材料永远摆在显眼位置


第二层:为什么”接话”模型会推理、写代码

一个只会”词语接龙”的统计模型,怎么突然会写诗、翻译、写代码了?

两个关键词:Scaling LawEmergence

Scaling Law:规模法则

2017 年,百度研究院发表《Deep Learning Scaling is Predictable, Empirically》:深度学习模型的泛化能力与模型大小、数据量呈可预测的幂律关系。

2020 年,OpenAI 发布划时代论文《Scaling Laws for Neural Language Models》:

模型性能与计算量、数据量、参数量之间
存在跨越 7 个数量级的稳定幂律关系

用一句话翻译:投入多少资源,模型就会可预测地变好多少

这让大模型训练从赌博变成有依据的工程投入。LLM 军备竞赛的大门由此打开。

Scaling Law 到头了吗?

研究者访谈观点(非论文结论):

  • 理论上:Scaling Law 本身依然有效,潜力巨大
  • 实践上:“撞墙”多是执行层面的 Bug,掩盖真实进步
  • 未来上:从”狼吞虎咽”转向”细嚼慢咽”——推理时计算、合成数据、Agent Scaling

Chinchilla Law:营养配方

2022 年 Google DeepMind 发现:很多模型是”营养不良”的——胃大,食物不够。

Chinchilla Law:模型参数与训练 Token 数的理想比例约 1:20

Chinchilla 模型(70B 参数)比 Gopher(280B 参数)小得多,但”吃”了 4 倍数据,表现反而更优。

Emergence:涌现

当参数从几千万膨胀到百亿千亿,某些小模型完全不存在的”智能行为”自己冒出来了。模型没有专门训练这些行为——训练目标始终是简单的”预测下一个词”。

涌现的定义:小规模模型不存在,大规模模型存在的能力。

涌现的本质:量变引起质变。借用复杂科学的概念——“多者异也”(More is different)。

类比:

系统个体涌现属性
H₂O 分子湿润、流动
蚁群单只蚂蚁种植真菌、饲养蚜虫
神经网络参数推理、编程、翻译

涌现的发现历程

  1. GPT-3 (2020):1750 亿参数,首次系统展示上下文学习——无需微调,仅凭几个示例就能执行翻译、问答、算术等任务
  2. Google 论文 (2022):《Emergent Abilities of Large Language Models》正式确立”涌现”概念,证明存在临界点

典型涌现能力

能力描述
思维链 (CoT)自己写出”一步步思考”,不瞎猜答案
算术推理理解十进制、进位,而非背答案
代码生成懂算法、逻辑控制流,不只是模仿代码样子
多语言翻译构建语义中间层,无师自通跨语种
MMLU57 个学科的通才,调用背景知识推理

关键区分

  • 能力涌现 (Emergent Abilities):可观察、可评估的现象
  • 智能涌现 (Emergent Intelligence):未被严格证明的本质

我们今天对大模型的驾驭,正处在 18 世纪物理学家用蒸汽机改变世界但未完全理解热力学的相似时刻。


第三层:从 LLM 到 Agent 的路径

LLM 的底层机制讲清楚了。下一篇会沿着这条路径继续:

LLM → Chatbot → Prompt Engineering → Context Engineering → Agent
  • Chatbot:把大脑接进聊天界面,装了一张嘴
  • Prompt Engineering:发现问法不同输出差巨大,研究如何组织语言
  • Context Engineering:不只是 Prompt,而是整个 Context 如何组织——资料、历史、规则、工具结果
  • Agent:不只是回答,而是调用工具、观察结果、继续行动

真正的 Agent 问题,在 LLM 开始调用工具、观察结果、持续行动时才出现。


第四层:为什么需要理解这些基础

理解底层原理后,你会发现很多”AI 使用技巧”根本没有意义——核心原理就是那些。

不是天天用就叫会用 AI,不是嘴上说蒸馏、skill 就叫懂了 AI。理解 Token、Prompt、Context、Scaling Law、涌现,才能真正用好 AI,也能识别哪些是干货、哪些是割韭菜的营销。


总结

概念本质
AgentLLM + Harness(大脑 + 工程身体)
Token最小处理单元,子词分词平衡词汇量和长度
Prompt条件概率的前置条件,控制输出分布
Context上文窗口,约束是 O(n²) 计算复杂度
Scaling Law投入资源 → 可预测的性能提升
Emergence量变引起质变,临界点后能力突变

LLM 最底层的工作方式:根据上文预测下一个 Token。Scaling Law 和 Emergence 解释了为什么这个简单机制规模变大后会涌现推理、翻译、写代码等复杂能力。

下一篇继续从 Chatbot、Prompt Engineering、Context Engineering 讲起,看这个会说话的大脑如何一步步变成能行动的 Agent。


参考资料

  • OpenAI: 《Scaling Laws for Neural Language Models》 (2020)
  • OpenAI: 《Language Models are Few-Shot Learners》 (GPT-3, 2020)
  • Google: 《Emergent Abilities of Large Language Models》 (2022)
  • Google DeepMind: Chinchilla 研究 (2022)
  • 百度研究院: 《Deep Learning Scaling is Predictable, Empirically》 (2017)
  • 原文:微信公众号文章《从 LLM 到 Agent Harness》

本文基于微信公众号文章整理,补充第一性原理分析和技术背景说明。