FlashAttention:具有 IO 感知的快速且内存高效的精确注意力研究

引言 Transformer 架构已经成为自然语言处理、计算机视觉等领域的基础模型。然而,其核心组件——自注意力机制(Self-Attention)的时间和空间复杂度都是 $O(N^2)$,其中 $N$ 是序列长度。这种二次方复杂度严重限制了模型处理长序列的能力。 ...

January 26, 2026 · 5 min · 2388 words · Ringi Lee

收录官方与社区共建资源的 Claude Skills 精选合集

收录官方与社区共建资源的 Claude Skills 精选合集 Introduction Claude Skills 是一个由 Anthropic 官方和开源社区共同构建的技能生态系统。通过 Agent Skills 和 MCP (Model Context Protocol) 协议,Claude 可以获得强大的扩展能力,从代码开发到内容创作,从数据分析到自动化运维,应有尽有。 ...

January 16, 2026 · 3 min · 1209 words · Ringi Lee

2025 AI Engineering Reading List论文

Section 1: Frontier LLMs GPT1, GPT2, GPT3, Codex, InstructGPT, GPT4 papers. Self explanatory. GPT3.5, 4o, o1, o3, GPT4.5 have launch events and system cards(2) instead. Claude 3 / 4 and Gemini 1 / 2.5 to understand the leading labs. You should also know Claude 3.5 Sonnet and Gemini 2.0 Flash/Flash Thinking. Also Gemma 2 & 3 (you can read the PyTorch re-implementation). ...

January 14, 2026 · 5 min · 2334 words · Ringi Lee

Claude Skills 完全指南

Claude Skills 完全指南 基于: 官方文档、社区讨论、实战案例的综合梳理 最后更新: 2025-12-30 1. 核心概念:什么是 Skills 1.1 一句话定义 Skills 是模块化的能力包,包含指令、元数据和可选资源(脚本、模板),让 Claude 在需要时自动加载和使用。 ...

December 30, 2025 · 33 min · 16250 words · Ringi Lee

Model Context Protocol(MCP) 编程极速入门

Model Context Protocol(MCP) 编程极速入门 [TOC] 简介 模型上下文协议(MCP)是一个创新的开源协议,它重新定义了大语言模型(LLM)与外部世界的互动方式。MCP 提供了一种标准化方法,使任意大语言模型能够轻松连接各种数据源和工具,实现信息的无缝访问和处理。MCP 就像是 AI 应用程序的 USB-C 接口,为 AI 模型提供了一种标准化的方式来连接不同的数据源和工具。 ...

December 29, 2025 · 16 min · 7726 words · Ringi Lee

一文详解多智能体核心架构及 LangGraph 框架

一文详解多智能体核心架构及 LangGraph 框架 随着大模型的快速发展,构建智能体已成为大模型应用最基本的能力了,然而,单智能体在处理复杂、多步骤任务时往往存在局限性。为了应对这一挑战,多智能体系统应运而生,它通过多个智能体协同工作的方式,将复杂任务分解为多个子任务,由不同的智能体分别处理,最终合并结果并返回。LangGraph 作为 LangChain 生态系统的重要扩展,通过引入有向图模型重构了传统智能体的工作流架构,将复杂的多步骤交互和决策过程模块化,是目前主流的多智能体集成框架之一。 ...

December 23, 2025 · 35 min · 17419 words · Ringi Lee

别再造 Agent 了!关于 Agent Skills 的详细总结来了

一、MCP 之后,我们还需要什么? MCP(Model Context Protocol)由 Anthropic 团队提出,其核心设计理念是标准化智能体与外部工具/资源的通信方式。想象一下,你的智能体需要访问文件系统、数据库、GitHub、Slack 等各种服务。传统做法是为每个服务编写专门的适配器,这不仅工作量大,而且难以维护。MCP 通过定义统一的协议规范,让所有服务都能以相同的方式被访问。 ...

December 23, 2025 · 15 min · 7100 words · Ringi Lee

大语言模型(LLM)学习路径和资料汇总

大语言模型(LLM)学习路径和资料汇总 0x00 学习路径 本文分为三个章节,各章节的学习目标如下。 入门篇: 了解大语言模型的基础知识和常见术语。 学会使用编程语言访问 OpenAI API 等常见大语言模型接口。 面向非专业背景的大模型普及知识。 应用篇: 可以在本地环境搭建开源模型的推理环境。 大语言模型应用开发框架(如 LangChain、Dify等)。 Prompt 工程、 RAG、Agent 等大模型应用开发范式。 深入篇: 大模型技术原理、训练微调、数据工程、推理优化等。 大模型应用范式(RAG、Agent等)前沿进展。 读者可以根据自己需要选择对应的章节,如对大语言模型的原理不感兴趣,可只关注入门篇和应用篇。 考虑到阅读背景,本文尽可能提供中文资料或有中文翻译的资料。 标记为【必看】的是我认为只要你对这个主题感兴趣,必须要看的资料。 0x10 入门篇 在入门之前,请申请 OpenAI API,并具备良好的国际互联网访问条件。 推荐注册 https://openrouter.ai/ 可一站式访问大量闭源和开源模型。 ...

December 18, 2025 · 4 min · 1657 words · Ringi Lee

从CPU到GPU再到TPU

从CPU到GPU再到TPU 总结 【2020-10-28】CUDA编程入门极简教程 简介 2006年,NVIDIA公司发布了CUDA,CUDA是建立在NVIDIA的CPUs上的一个通用并行计算平台和编程模型,基于CUDA编程可以利用GPUs的并行计算引擎来更加高效地解决比较复杂的计算难题。 ...

May 01, 2025 · 78 min · 38974 words · Ringi Lee