智能体 | Ringi's Log

Claude Subagents vs. Agent Teams，一文讲透

大多数人一觉得任务复杂，就会选择多智能体系统。但那几乎总是错误的直觉。正确的问题不是"我该不该用多个 Agent？"，而是"这项任务实际上需要什么样的协调？" ...

Anthropic、OpenAI 和 DeepSeek 正在围绕同一个核心思想趋同：用系统提示作为奖励函数。本文完整解析从 RLHF 到 RULER 的强化学习进化之路，附带代码。强化学习的核心非常直接：系统采取行动，环境给予奖励，智能体随时间更新行为以最大化该奖励。 ...