Claude Subagents vs. Agent Teams,一文讲透

大多数人一觉得任务复杂,就会选择多智能体系统。 但那几乎总是错误的直觉。 正确的问题不是"我该不该用多个 Agent?",而是"这项任务实际上需要什么样的协调?" ...

May 02, 2026 · 6 min · 2947 words · Ringi Lee

2026 年顶尖 AI 实验室如何构建 RL 智能体(Karpathy 的系统提示学习思想)

Anthropic、OpenAI 和 DeepSeek 正在围绕同一个核心思想趋同:用系统提示作为奖励函数。本文完整解析从 RLHF 到 RULER 的强化学习进化之路,附带代码。 强化学习的核心非常直接:系统采取行动,环境给予奖励,智能体随时间更新行为以最大化该奖励。 ...

April 28, 2026 · 19 min · 9019 words · Ringi Lee