乐闻世界logo
第 1 / 20 篇

AI Agent 实战教程 01:什么是 AI Agent

第 1 / 20 篇
返回教程主页

AI Agent 实战教程 01:什么是 AI Agent

理解 AI Agent 与 Chatbot、普通 LLM 应用的区别,掌握目标、工具、记忆、规划和执行这些核心概念。

AI Agent 这个词这两年被频繁提到,但很多讨论容易把它简单理解为“更聪明的聊天机器人”。这个理解并不准确。Chatbot 的核心是回答问题,而 Agent 的核心是围绕目标采取行动。它不仅要理解用户说了什么,还要判断下一步应该做什么、是否需要调用工具、执行结果是否符合预期,以及失败后如何调整策略。

如果说大语言模型让机器具备了更自然的语言理解和生成能力,那么 AI Agent 则是在这个能力之上,进一步把模型接入任务流程、外部工具和真实系统。它代表的不是一个单独的模型,而是一种由模型、工具、状态、记忆、权限和反馈机制组成的工程系统。

从 Chatbot 到 AI Agent

传统 Chatbot 的工作方式比较直接:用户输入一个问题,系统把问题交给模型,模型生成回答,然后对话结束。它适合解释概念、生成文本、翻译内容、总结资料等任务。

但现实工作中,很多需求并不是“回答一句话”就能完成的。例如:

  • 帮我整理昨天会议纪要,并生成待办;
  • 帮我检查这个项目的构建错误,并修复代码;
  • 帮我查找某个主题的资料,形成一份结构化报告;
  • 帮我把某个标签下的文章整理成教程;
  • 帮我查看日程,找一个合适时间约会议。

这些任务都有一个共同点:它们需要多个步骤,需要访问外部信息,需要调用工具,还可能需要在执行过程中根据结果调整策略。普通 Chatbot 可以告诉你“应该怎么做”,但 AI Agent 试图进一步帮你“把事情做完”。

因此,AI Agent 和 Chatbot 的区别不只是回答质量,而是能力边界不同。Chatbot 更像一个知识接口,Agent 更像一个可控的数字执行者。

什么样的系统才算 Agent

一个系统是否可以称为 AI Agent,通常可以从几个维度判断。

第一,它是否围绕目标工作。用户给出的不是单个问题,而是一个待完成目标。例如“帮我创建一个教程模块”,系统需要理解目标,并拆解成查询文章、创建 tutorial、绑定文章、验证结果等步骤。

第二,它是否具备工具使用能力。没有工具的模型只能生成文本;具备工具后,它可以查询数据库、读写文件、调用 API、执行命令、发送消息、创建任务等。

第三,它是否维护状态。多步骤任务需要知道已经执行到哪一步、哪些操作成功、哪些失败、用户是否确认过某个风险操作。如果没有状态,Agent 很容易重复执行或丢失上下文。

第四,它是否能根据反馈调整。工具调用可能失败,接口可能返回错误,用户可能改变需求。Agent 需要观察结果并修正后续计划。

第五,它是否有安全边界。真正有用的 Agent 往往具备写入和执行能力,而这些能力必须受到权限、沙箱、确认和审计机制约束。

如果一个系统只是“把用户输入发给模型,然后把回答展示出来”,它更像 LLM 应用;如果它能围绕目标进行多步决策和工具执行,才更接近 Agent。

一个 AI Agent 的基本组成

从工程视角看,AI Agent 通常包含以下几个部分。

模型

模型负责理解语言、分析上下文、生成计划和判断下一步。它可以是 GPT、Claude、Gemini、DeepSeek,也可以是本地模型。模型是 Agent 的推理核心,但不是 Agent 的全部。

很多 Agent 系统失败,并不是因为模型不够强,而是因为工具设计、状态管理、权限控制和错误处理不完善。把 Agent 理解成“模型加提示词”是一个常见误区。

工具

工具让 Agent 能与外部世界交互。常见工具包括搜索、数据库查询、文件读写、命令执行、日历、任务系统、消息系统、代码编辑器、浏览器自动化等。

工具设计需要非常清晰。一个好的工具应该有明确名称、用途说明、参数结构、返回格式和风险等级。比如“删除文件”和“读取文件”风险完全不同,不能混在一个模糊工具里。

状态

Agent 在执行多步骤任务时必须保存状态。状态可以包括当前目标、计划步骤、已完成动作、工具返回结果、错误信息、用户确认记录等。

没有状态的 Agent 就像没有短期记忆的人,无法可靠完成复杂任务。

记忆

记忆可以分为短期记忆和长期记忆。短期记忆通常是当前对话上下文,长期记忆则可能保存用户偏好、项目背景、历史任务、常用工具等。

记忆很有价值,但也很危险。它涉及隐私、数据保留和权限隔离,因此需要可查看、可删除、可控制。

规划与执行

Agent 往往需要把目标拆成计划,再逐步执行。简单任务可以一步完成,复杂任务则需要 Planner 和 Executor 分工:Planner 负责任务拆解,Executor 负责具体工具调用。

例如“创建一个 AI Agent 教程”可以拆成:确认主题、生成文章结构、创建标签、创建文章、创建 tutorial、绑定文章、验证结果。

权限与确认

如果 Agent 能执行写操作,就必须有权限边界。读操作通常可以更自动化,写操作、高风险操作则需要确认。例如删除数据、发布内容、修改配置、发消息、部署代码,都应该进入人工确认流程。

一个具体例子:任务管理助手

假设我们要构建一个任务管理 Agent。用户说:“帮我记录一个待办:了解 Agent 授权的逻辑是什么。”

一个普通 Chatbot 可能回答:“好的,你可以在任务系统里创建这个待办。”

一个 Agent 则可能执行以下流程:

  1. 判断用户意图是创建任务;
  2. 检查是否有任务系统工具;
  3. 检查当前用户身份;
  4. 如果缺少权限,发起授权;
  5. 用户授权完成后,调用创建任务接口;
  6. 返回任务链接;
  7. 记录操作结果。

这个例子里,Agent 不只是回答问题,而是完成了一个真实工作流。它也体现了 Agent 的关键点:工具、权限、用户确认、外部系统和结果验证。

常见误区

误区一:Agent 等于自动化脚本

自动化脚本通常按照固定规则执行,而 Agent 可以根据上下文动态判断下一步。但 Agent 也不能完全没有规则。最可靠的系统往往是“确定性流程 + 模型判断”的组合。

误区二:Agent 越自主越好

很多场景并不需要完全自主。真正可用的 Agent 应该知道什么时候自动执行,什么时候询问用户,什么时候拒绝执行。自主性必须服务于可靠性,而不是追求炫技。

误区三:工具越多越好

工具越多,模型选择错误的概率也可能越高。工具应该按场景组织,描述清晰,权限明确。对于复杂工具集,还需要路由和分层管理。

误区四:只靠提示词就能构建 Agent

提示词很重要,但生产级 Agent 还需要工程能力,包括状态机、工具协议、权限系统、日志追踪、错误恢复和评测体系。

什么时候适合使用 AI Agent

适合 Agent 的任务通常具备几个特点:

  • 需要多个步骤;
  • 需要访问外部工具或数据;
  • 执行过程中需要根据结果调整;
  • 任务目标明确,但路径不完全固定;
  • 用户希望系统帮忙完成,而不仅是给建议。

不适合 Agent 的场景也很多。比如一次性文本改写、简单问答、固定格式转换,普通 LLM 调用就足够了。过度引入 Agent 只会增加复杂度。

小结

AI Agent 是从“会回答问题的模型”走向“能完成任务的系统”的关键形态。它的核心不是让模型看起来更像人,而是让模型在安全边界内连接工具、维护状态、执行流程并验证结果。

理解 Agent 的第一步,是把它看作一个工程系统,而不是一个神秘的智能生命体。后续文章会继续拆解 Agent 的运行循环、Tool Calling、RAG、Memory、多 Agent 协作、MCP 工具生态以及安全授权设计。