搞懂缓存机制,从Gemma4到Claude Code省80%Token

早上打开 Claude Code,敲第一句话,2%~10% 的套餐额度没了。午休回来继续干活,又一句话,10% 的额度蒸发。你有没有想过,这 token 到底花在哪了?我带着这个疑问,在本地用 Gemma4 跑小模型做实验——发现同一段对话,有些轮次要等 30 秒,有些只要 0.2 秒。为了搞清楚为什么,我会从 Transformer 的注意力机制开始讲,再到 Claude Code 的代码实现, Anthropic 在缓存上做了一整套精密工程。理解了这套机制,你就知道怎么让同样的套餐多撑 3-5 倍。 ...

April 08, 2026 · 10 min · 4990 words · Ringi Lee

你不知道的大模型训练:原理、路径与新实践

太长也要读 在写完《你不知道的 Claude Code:架构、治理与工程实践》、《你不知道的 Agent:原理、架构与工程实践》后,我想着继续来写第三篇,这次打算挑战下自己来梳理一下大模型训练到底怎么回事,这篇文章争取让非专业背景的人也能读得懂。 ...

April 03, 2026 · 21 min · 10459 words · Ringi Lee

姚金刚提示词合集

本文档初衷:尝试用各种最新AI模型及工具,去实践各种小问题的解决,开源提示词及解决思路。欢迎收藏,并观摩100套提示词从0到1的逐步撰写过程。 ...

April 02, 2026 · 252 min · 125938 words · Ringi Lee

Claude Code CLI 源码分析:从 Prompt 架构到工业级 AI Agent

本文来源:https://x.com/servasyy_ai/status/2039138111566020867 作者:huangserva ...

April 01, 2026 · 31 min · 15518 words · Ringi Lee

祝贺Claude Code成功越狱,获得永生

TLDR:Claude Code 的 1902 个源文件意外泄露。我翻完之后发现,这是一份关于「harness engineering」的绝佳教材。Claude Code 好用,60% 靠 Opus 模型本身的能力,40% 靠围绕模型搭建的工程系统(也就是 harness)。这个 harness 包括:一套精心拼装的 system prompt、一个用第二 AI 做安全审查的四层权限系统、一个只记偏好不记代码的记忆系统、一套 9 段式结构化上下文压缩、以及一个像真实公司一样运转的多 Agent 协作框架。对于每个用 AI 的人来说,这些设计思路都可以直接借鉴。 ...

March 31, 2026 · 9 min · 4454 words · Ringi Lee

穷人没教育,寒门无贵子

原文来源:dashen_wang 一、那条消息让我愣了整整三秒 29号,我和小伙伴在深圳搞活动。 活动结束之后,我想顺道拜访一个多年没见的老朋友,发消息过去。 他回:在三亚。 我问:度假? 他说:带孩子。 我盯着手机屏幕,愣了整整三秒。 ...

March 30, 2026 · 24 min · 11993 words · Ringi Lee

为什么程序员钟爱Codex,Vibe Coding的人却离不开Claude?一文弄懂它!

原文来源:Berryxia.AI 在 AI 辅助编程领域,一个流传已久的观点是:Codex(OpenAI 代码专用模型系列,现以 GPT-5.x Codex 为代表)深受传统程序员喜爱,尤其在修复 Bug 和生产级重构场景; ...

March 30, 2026 · 5 min · 2246 words · Ringi Lee

RAG 消失之路

RAG 消失之路 总结 新结构 M-FLOW 倒锥图路由 免嵌入 Embedding Free 文件检索 树状推理 PageIndex 无检索 【2026-2-27】阿里 Sirchmunk 结束 rag 终会消失 RAG 每个环节都藏着工程”暗伤”: 切片策略是玄学:按段落切?按 Token 数切?重叠多少?切片粒度直接影响检索质量,却没有银弹。 Embedding 是黑盒:换个 Embedding 模型,检索效果可能天差地别。而且向量只是原文的一个”有损压缩”,信息必然丢失。 索引更新是噩梦:文档改一行,可能需要重新切片、重新 Embedding、重新写入。实时性?基本别想。 基础设施是成本:Milvus、Qdrant、Pinecone……光是向量数据库的选型、部署、运维就能消耗大量精力。 详见站内专题: 大模型应用技术之RAG,检索增强生成 ...

March 27, 2026 · 15 min · 7408 words · Ringi Lee

按头学习| 让 AI 真正做好复杂任务,需要一套什么样的系统?(Anthropic官工程师实践指南)

同一个游戏,$9 做出来的核心玩法是坏的,$200 做出来的能玩。 Anthropic 工程师用实战告诉你,多智能体协作框架是怎么工作的。 同一个任务,两种做法,结果让人无法忽视。 ...

March 25, 2026 · 5 min · 2443 words · Ringi Lee

你不知道的 Claude Code:架构、治理与工程实践

0. 太长不读 今天这篇文章源于最近半年深度使用 Claude Code、两个账号每月 40 刀氪金换来的一些踩坑经验,希望能给大伙一些输入。 刚开始我也把它当 ChatBot 用,后来很快发现不对劲:上下文越来越乱、工具越来越多但效果越来越差、规则越写越长却越不遵守,折腾了一段时间,研究了 Claude Code 本身之后才意识到,这不是 Prompt 问题,而是这套系统的设计就是这样的。 ...

March 13, 2026 · 20 min · 9781 words · Ringi Lee