<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Gemma4 on Ringi's Log</title><link>https://lilinji.github.io/tags/gemma4/</link><description>Recent content in Gemma4 on Ringi's Log</description><generator>Hugo -- 0.152.2</generator><language>zh-cn</language><lastBuildDate>Wed, 08 Apr 2026 09:49:00 +0800</lastBuildDate><atom:link href="https://lilinji.github.io/tags/gemma4/index.xml" rel="self" type="application/rss+xml"/><item><title>搞懂缓存机制，从Gemma4到Claude Code省80%Token</title><link>https://lilinji.github.io/2026/04/%E6%90%9E%E6%87%82%E7%BC%93%E5%AD%98%E6%9C%BA%E5%88%B6%E4%BB%8Egemma4%E5%88%B0claude-code%E7%9C%8180token/</link><pubDate>Wed, 08 Apr 2026 09:49:00 +0800</pubDate><guid>https://lilinji.github.io/2026/04/%E6%90%9E%E6%87%82%E7%BC%93%E5%AD%98%E6%9C%BA%E5%88%B6%E4%BB%8Egemma4%E5%88%B0claude-code%E7%9C%8180token/</guid><description>&lt;blockquote&gt;
&lt;p&gt;早上打开 Claude Code，敲第一句话，2%～10% 的套餐额度没了。午休回来继续干活，又一句话，10% 的额度蒸发。你有没有想过，这 token 到底花在哪了？我带着这个疑问，在本地用 Gemma4 跑小模型做实验——发现同一段对话，有些轮次要等 30 秒，有些只要 0.2 秒。为了搞清楚为什么，我会从 Transformer 的注意力机制开始讲，再到 Claude Code 的代码实现， Anthropic 在缓存上做了一整套精密工程。&lt;strong&gt;理解了这套机制，你就知道怎么让同样的套餐多撑 3-5 倍。&lt;/strong&gt;&lt;/p&gt;</description></item></channel></rss>