博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(35)
  • AI 编程(32)
  • Hermes Agent(13)
  • AI 工具与产品(11)
  • AI 原生架构(18)
  • 大模型研究(15)
  • 杂项(1)
  • AI 行业趋势(4)
  • 行业研究(0)
  1. 文章
  • AI 编程的上下文税 2026:从 Prompt 缓存到工具调用的成本工程真相

    AI 编程的上下文税 2026:从 Prompt 缓存到工具调用的成本工程真相

    2026 年 AI 编程 IDE 的 token 战争已从模型层下沉到上下文层 —— 单次补全的仓库上下文 + 工具结果 + 对话历史占总开销 70%+。本文通过真实生产数据拆解 prompt 缓存架构、四类上下文压缩策略、工具调用的预算分配,给出 75% 成本降幅的工程清单。

    2026年6月18日·
    AI 编程
  • [【AI 日报】2026年06月18日 AI 行业最新动态]

    [【AI 日报】2026年06月18日 AI 行业最新动态]

    [今日 9 条重点:1)美国暂缓 DeepSeek 黑名单;2)G7 峰会首议 AI 主权;3)Odyssey 3.1 亿拉动世界模型;4)Google 发布 Agentic Resource Discovery 规范;5)Strands 推出受限 Shell;6)LLM 评测却是“答别人的题”;7)本地 Qwen 与云端 Opus 选型之争;8)脑机接口瘫痪患者意念控电脑。]

    2026年6月18日·
    AI 日报
  • 2026 行业 AI 落地的真实采用率:医疗、法律、金融三大垂类的范式分化与失败模式

    2026 行业 AI 落地的真实采用率:医疗、法律、金融三大垂类的范式分化与失败模式

    2026 年医疗、法律、金融三大行业 AI 落地已度过概念验证阶段,但真实生产部署率远低于媒体叙事:医疗卡在临床验证和监管闭环、法律卡在幻觉责任和律所变革阻力、金融卡在合规审计和模型可解释性;只有 workflow-level copilot 是真正走通的范式。

    2026年6月17日·
    AI 行业趋势
  • Continuous Batching 与 Chunked Prefill 工程真相:从 vLLM 0.4 到 0.7 调度器的演进

    Continuous Batching 与 Chunked Prefill 工程真相:从 vLLM 0.4 到 0.7 调度器的演进

    vLLM 0.4 → 0.7 的调度器演进揭示了一个反直觉的事实:LLM 推理的瓶颈早已不在模型本身,而在调度器怎么把不同长度、不同生命周期的请求塞进同一个 GPU kernel。本文拆解 continuous batching 与 chunked prefill 两次决定性重构,以及 2026 年 disaggregation 的下一步。

    2026年6月17日·
    AI 原生架构
  • 稀疏注意力的第二次复兴:2026 年 Native Sparse Attention 与混合稀疏架构的理论重塑

    稀疏注意力的第二次复兴:2026 年 Native Sparse Attention 与混合稀疏架构的理论重塑

    从 $O(n^2)$ 全注意力的算法下界出发,分析 DeepSeek NSA 的“压缩-选择-滑动”三阶段架构为何能达到 $O(n log n)$ 复杂度和接近全注意力的检索精度,梳理 2026 年稀疏注意力四大方案的版图与三个未解的开放问题。

    2026年6月17日·
    大模型研究
  • 2026 本地 LLM 推理与服务框架横评:从 llama.cpp 到 vLLM 的六款主流工具实战决策框架

    2026 本地 LLM 推理与服务框架横评:从 llama.cpp 到 vLLM 的六款主流工具实战决策框架

    当一个团队决定把大模型从云端 API 转向自托管推理时,第一个选择是推理框架。本文用 2026 年 6 月 17 日实时数据,对 vLLM / llama.cpp / TGI / FastChat / MLC-LLM / text-generation-webui 六款主流框架做横评,含量化格式阶梯、显存分配、TTFT/TPS 实测对比、选型决策树与生产部署组合模式。

    2026年6月17日·
    AI 工具与产品
  • 2026 AI 编程工具的代理执行模型横评:从 Cursor 到 Claude Code 的工程化决策框架

    2026 AI 编程工具的代理执行模型横评:从 Cursor 到 Claude Code 的工程化决策框架

    当 Cursor / Windsurf / Claude Code / Cline 把 IDE 装上代理执行引擎,“工具选型”从代码补全准确率比赛升级为代理执行模型、上下文管理、权限边界、可观测性四维度的工程化决策。本文用五元组形式化 7 款主流工具的横评框架,并给出 2026 年可落地的选型决策树与未来 12 个月三个趋势预判。

    2026年6月17日·
    AI 编程
  • 【AI 日报】2026 年 06 月 17 日 AI 行业最新动态

    【AI 日报】2026 年 06 月 17 日 AI 行业最新动态

    今日 9 条 AI 行业新闻:Anthropic 暂停 Claude Agent SDK 按 token 计费、OpenAI 财务泄露 2025 营收 130.7 亿美元、SpaceX 完成对 Cursor 的收购、DeepSeek 73.5 亿美元融资、法国弃用 Palantir、美司法部替 xAI 挡诉讼、Gartner 预测 40% AI Agent 将废弃、Mistral Le Chat 复读虚假信息过半、Wolfram Language 15 发布原生 AI 助手。

    2026年6月17日·
    AI 日报
  • HBM 算力供应链 2026:SK hynix、Samsung、Micron 三巨头产能格局与 CoWoS 隐形瓶颈

    HBM 算力供应链 2026:SK hynix、Samsung、Micron 三巨头产能格局与 CoWoS 隐形瓶颈

    当 AI 行业进入「下半场规模应用」拐点,决定竞赛走向的不是模型架构,而是 HBM + CoWoS 这条看不见的供应链。本文剖析三大存储厂格局、TSMC 封装瓶颈、可预见的格局重排。

    2026年6月16日·
    AI 行业趋势
  • KV cache 优化工程实战 2026:从 PagedAttention 到 FlashDecoding 的生产级推理内核

    KV cache 优化工程实战 2026:从 PagedAttention 到 FlashDecoding 的生产级推理内核

    2026 年的 LLM 推理工程已经从堆 GPU 走向重写每一层显存访问。本文沿 PagedAttention / FlashAttention / FlashDecoding / Speculative Decoding 顺序,剖析生产级推理内核如何把单卡 decode 吞吐从 200 tok/s 推到 2000+ tok/s 的工程路径。

    2026年6月16日·
    AI 原生架构
  • 状态空间模型的第二次复兴:Mamba-3 与混合架构如何重写 2026 的长序列建模

    状态空间模型的第二次复兴:Mamba-3 与混合架构如何重写 2026 的长序列建模

    梳理 SSM 在 2024-2026 从 Mamba-1 到 Mamba-3 的关键跃迁:选择性机制、SSD 对偶性、二阶递推、Jamba/Zamba 混合架构,并通过长上下文基准对比回答“互补还是替代”这一核心问题。

    2026年6月16日·
    大模型研究
  • AI Agent 测试与评估工程实战 2026:从 Function Calling 单元测试到端到端评估的完整路径

    AI Agent 测试与评估工程实战 2026:从 Function Calling 单元测试到端到端评估的完整路径

    2026 年 6 月盘点五套主流 Agent 框架的测试实践:LangChain create_agent、OpenAI Function Calling、Vercel AI SDK、Pydantic AI、Instructor。没有任何框架替你解决「Agent 在生产里到底有没有真的变好」这个问题——这件事必须由工程团队自己搭。

    2026年6月16日·
    AI 编程
  • Vibe Coding 工程化 2026:当「凭感觉写代码」撞上生产环境的最后一公里

    Vibe Coding 工程化 2026:当「凭感觉写代码」撞上生产环境的最后一公里

    Vibe Coding 在 2025 年完成了「想法→代码」的奇袭,但 2026 年中回看:它没解决「代码→可维护系统」的最后一公里。本文从 GitHub 实时数据出发,拆解 Vibe Coding 的三笔隐性成本,并提出 Spec-driven Development 作为下一阶段工程化范式。

    2026年6月16日·
    AI 编程
  • 【AI 日报】2026 年 06 月 16 日 AI 行业最新动态

    【AI 日报】2026 年 06 月 16 日 AI 行业最新动态

    今日 AI 行业四主线:小米开源 MiMo Code 在 200 步 agentic 任务上反超 Claude Code;Nature 报道 OpenAI 模型破解 80 年 Erdős 几何问题;Meta CTO 内部备忘录承认 AI 重组非常糟糕;AWS WAF 上线 AI bot 计费能力。

    2026年6月16日·
    AI 日报
  • 2026 开源大模型大爆发:从 DeepSeek-V3 到 Mistral Small 4,开源生态的范式跃迁

    2026 开源大模型大爆发:从 DeepSeek-V3 到 Mistral Small 4,开源生态的范式跃迁

    2026 年开源大模型已从追赶走向并行:DeepSeek-V3、Llama 4、Qwen3、gpt-oss、Mistral Small 4 五大里程碑在架构、训练、推理、多模态、生态五个维度全面演进。本文做一次贴近现状的深度复盘。

    2026年6月15日·
    大模型研究
  • LLM 可观测性工程实战 2026:从 OpenTelemetry GenAI 语义约定到生产级 trace 架构

    LLM 可观测性工程实战 2026:从 OpenTelemetry GenAI 语义约定到生产级 trace 架构

    当 LLM 应用进入生产,APM 工具的 QPS/P95/ErrorRate 已不再充分。本文从 8 个 GitHub 仓库实时数据出发,拆解 LLM 可观测性的 5 类核心信号(token/cost/latency/quality/retrieval)、OpenTelemetry GenAI 语义约定的标准化进程、Langfuse/Opik/Phoenix/OpenLLMetry/Helicone 五大开源项目横向对比,以及 5 个生产级工程模式与三类典型事故案例。

    2026年6月15日·
    AI 原生架构
  • Post-training 范式 2026:从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发

    Post-training 范式 2026:从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发

    2026 年大模型的真正范式拐点不在预训练而在 post-training。GRPO 把 RL 工程门槛降了一个量级、DPO 把对齐从强化学习拉回监督学习、RLVR 让可验证成为新范式、PRM 在数学代码上突围、Anthropic 的 RLAIF 让对齐本身可扩展。这篇深度长文用 8 节内容把这一轮 post-training 范式迁移讲清楚:它从哪里来、怎么变成今天的形状、哪些算法已经成为行业默认配置、2026 年我们应该把什么放进生产栈。

    2026年6月15日·
    大模型研究
  • 【AI 日报】2026年06月15日 AI 行业最新动态

    【AI 日报】2026年06月15日 AI 行业最新动态

    一日速览:从 Anthropic Mythos 的国安风波到 OpenRouter Fusion 把模型“合体”,从 Meta 把 Alexandr Wang 推上销售前线到中国 1.2 万个“过时学位”被砍,今天的 AI 行业主线是安全监管与模型工程化重组。八条主要消息覆盖安全监管、多模型融合、中美教育调整与 AI 工具体验设计争论。

    2026年6月15日·
    AI 日报
  • 2026 年 AI 能力度量的真实地基

    2026 年 AI 能力度量的真实地基

    从 METR TH1.1、Anthropic ASL、SWE-bench/HLE/EvoMaster 三榜交叉三个一手数据出发,论证 2026 年下半年 AI 能力度量正在从“单一基准分数”迁移到“精度评估 + 阈值评估 + 评估单元声明”的三角验证体系。

    2026年6月14日·
    大模型研究
  • RAG 工程实战 2026:从 Naive RAG 到 Agentic RAG 的四层架构跃迁

    RAG 工程实战 2026:从 Naive RAG 到 Agentic RAG 的四层架构跃迁

    Anthropic Contextual Retrieval 让检索失败率下降 67%、Self-RAG/CRAG/GraphRAG 三大自反思范式落地、Agentic RAG 的工程陷阱与选型决策树——一篇 2026 年 RAG 工程师的实战地图。

    2026年6月14日·
    AI 原生架构
上一页1 / 7
下一页