博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(33)
  • AI 编程(30)
  • Hermes Agent(13)
  • AI 工具与产品(10)
  • AI 原生架构(17)
  • 大模型研究(14)
  • 杂项(1)
  • AI 行业趋势(3)
  • 行业研究(0)
  1. 文章
  • HBM 算力供应链 2026:SK hynix、Samsung、Micron 三巨头产能格局与 CoWoS 隐形瓶颈

    HBM 算力供应链 2026:SK hynix、Samsung、Micron 三巨头产能格局与 CoWoS 隐形瓶颈

    当 AI 行业进入「下半场规模应用」拐点,决定竞赛走向的不是模型架构,而是 HBM + CoWoS 这条看不见的供应链。本文剖析三大存储厂格局、TSMC 封装瓶颈、可预见的格局重排。

    2026年6月16日·
    AI 行业趋势
  • KV cache 优化工程实战 2026:从 PagedAttention 到 FlashDecoding 的生产级推理内核

    KV cache 优化工程实战 2026:从 PagedAttention 到 FlashDecoding 的生产级推理内核

    2026 年的 LLM 推理工程已经从堆 GPU 走向重写每一层显存访问。本文沿 PagedAttention / FlashAttention / FlashDecoding / Speculative Decoding 顺序,剖析生产级推理内核如何把单卡 decode 吞吐从 200 tok/s 推到 2000+ tok/s 的工程路径。

    2026年6月16日·
    AI 原生架构
  • 状态空间模型的第二次复兴:Mamba-3 与混合架构如何重写 2026 的长序列建模

    状态空间模型的第二次复兴:Mamba-3 与混合架构如何重写 2026 的长序列建模

    梳理 SSM 在 2024-2026 从 Mamba-1 到 Mamba-3 的关键跃迁:选择性机制、SSD 对偶性、二阶递推、Jamba/Zamba 混合架构,并通过长上下文基准对比回答“互补还是替代”这一核心问题。

    2026年6月16日·
    大模型研究
  • AI Agent 测试与评估工程实战 2026:从 Function Calling 单元测试到端到端评估的完整路径

    AI Agent 测试与评估工程实战 2026:从 Function Calling 单元测试到端到端评估的完整路径

    2026 年 6 月盘点五套主流 Agent 框架的测试实践:LangChain create_agent、OpenAI Function Calling、Vercel AI SDK、Pydantic AI、Instructor。没有任何框架替你解决「Agent 在生产里到底有没有真的变好」这个问题——这件事必须由工程团队自己搭。

    2026年6月16日·
    AI 编程
  • Vibe Coding 工程化 2026:当「凭感觉写代码」撞上生产环境的最后一公里

    Vibe Coding 工程化 2026:当「凭感觉写代码」撞上生产环境的最后一公里

    Vibe Coding 在 2025 年完成了「想法→代码」的奇袭,但 2026 年中回看:它没解决「代码→可维护系统」的最后一公里。本文从 GitHub 实时数据出发,拆解 Vibe Coding 的三笔隐性成本,并提出 Spec-driven Development 作为下一阶段工程化范式。

    2026年6月16日·
    AI 编程
  • 【AI 日报】2026 年 06 月 16 日 AI 行业最新动态

    【AI 日报】2026 年 06 月 16 日 AI 行业最新动态

    今日 AI 行业四主线:小米开源 MiMo Code 在 200 步 agentic 任务上反超 Claude Code;Nature 报道 OpenAI 模型破解 80 年 Erdős 几何问题;Meta CTO 内部备忘录承认 AI 重组非常糟糕;AWS WAF 上线 AI bot 计费能力。

    2026年6月16日·
    AI 日报
  • 2026 开源大模型大爆发:从 DeepSeek-V3 到 Mistral Small 4,开源生态的范式跃迁

    2026 开源大模型大爆发:从 DeepSeek-V3 到 Mistral Small 4,开源生态的范式跃迁

    2026 年开源大模型已从追赶走向并行:DeepSeek-V3、Llama 4、Qwen3、gpt-oss、Mistral Small 4 五大里程碑在架构、训练、推理、多模态、生态五个维度全面演进。本文做一次贴近现状的深度复盘。

    2026年6月15日·
    大模型研究
  • LLM 可观测性工程实战 2026:从 OpenTelemetry GenAI 语义约定到生产级 trace 架构

    LLM 可观测性工程实战 2026:从 OpenTelemetry GenAI 语义约定到生产级 trace 架构

    当 LLM 应用进入生产,APM 工具的 QPS/P95/ErrorRate 已不再充分。本文从 8 个 GitHub 仓库实时数据出发,拆解 LLM 可观测性的 5 类核心信号(token/cost/latency/quality/retrieval)、OpenTelemetry GenAI 语义约定的标准化进程、Langfuse/Opik/Phoenix/OpenLLMetry/Helicone 五大开源项目横向对比,以及 5 个生产级工程模式与三类典型事故案例。

    2026年6月15日·
    AI 原生架构
  • Post-training 范式 2026:从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发

    Post-training 范式 2026:从 SFT/RLHF 到 GRPO/DPO/RLVR 的工程化大爆发

    2026 年大模型的真正范式拐点不在预训练而在 post-training。GRPO 把 RL 工程门槛降了一个量级、DPO 把对齐从强化学习拉回监督学习、RLVR 让可验证成为新范式、PRM 在数学代码上突围、Anthropic 的 RLAIF 让对齐本身可扩展。这篇深度长文用 8 节内容把这一轮 post-training 范式迁移讲清楚:它从哪里来、怎么变成今天的形状、哪些算法已经成为行业默认配置、2026 年我们应该把什么放进生产栈。

    2026年6月15日·
    大模型研究
  • 【AI 日报】2026年06月15日 AI 行业最新动态

    【AI 日报】2026年06月15日 AI 行业最新动态

    一日速览:从 Anthropic Mythos 的国安风波到 OpenRouter Fusion 把模型“合体”,从 Meta 把 Alexandr Wang 推上销售前线到中国 1.2 万个“过时学位”被砍,今天的 AI 行业主线是安全监管与模型工程化重组。八条主要消息覆盖安全监管、多模型融合、中美教育调整与 AI 工具体验设计争论。

    2026年6月15日·
    AI 日报
  • 2026 年 AI 能力度量的真实地基

    2026 年 AI 能力度量的真实地基

    从 METR TH1.1、Anthropic ASL、SWE-bench/HLE/EvoMaster 三榜交叉三个一手数据出发,论证 2026 年下半年 AI 能力度量正在从“单一基准分数”迁移到“精度评估 + 阈值评估 + 评估单元声明”的三角验证体系。

    2026年6月14日·
    大模型研究
  • RAG 工程实战 2026:从 Naive RAG 到 Agentic RAG 的四层架构跃迁

    RAG 工程实战 2026:从 Naive RAG 到 Agentic RAG 的四层架构跃迁

    Anthropic Contextual Retrieval 让检索失败率下降 67%、Self-RAG/CRAG/GraphRAG 三大自反思范式落地、Agentic RAG 的工程陷阱与选型决策树——一篇 2026 年 RAG 工程师的实战地图。

    2026年6月14日·
    AI 原生架构
  • 【AI 日报】2026年06月14日 AI 行业最新动态

    【AI 日报】2026年06月14日 AI 行业最新动态

    Anthropic Fable 5 / Mythos 5 因美国出口管制全球下架;Meta 北京压力下拆 Manus 收购;Anthropic 发布 AI Exponential 政策提案;Google 起诉用 Gemini 实施诈骗的中国团伙;Anthropic Zero Trust for AI Agents 被指出 bearer token 短板;ClawMoat 推出 Agent 运行时隔离方案;Microsoft Research 发布前沿模型智能时间序列;俄国家庭用 AI 复活亲人引发伦理讨论。

    2026年6月14日·
    AI 日报
  • MoE 架构 2026:从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成

    MoE 架构 2026:从稀疏门控到 DeepSeek-V3 与 Qwen3 的工程化集大成

    当 671B 参数的 DeepSeek-V3 每个 token 只激活 37B、Qwen3-30B-A3B 只激活 3B 时,MoE 已成为 LLM 规模化的默认范式。本文系统梳理从 Sparsely-Gated MoE (2017) → GShard (2020) → Switch Transformer (2021) → Mixtral (2023) → DeepSeek-MoE/V2/V3 (2024) → Qwen3-MoE (2025) 的工程演化,详解 5 个关键突破、3 类工程权衡、2 个产业判断。

    2026年6月14日·
    大模型研究
  • 【AI 日报】2026年06月13日 AI 行业最新动态

    【AI 日报】2026年06月13日 AI 行业最新动态

    Anthropic 首次就出口管制公开发声;Open Source AI Must Win 宣言登顶 HN;OpenAI 遭多州 AG 联盟调查;BitBoard 切入 Agent 分析工作区;FFmpeg 公开 21 个 0day;Arch Linux AUR 恶意包事件收尾。

    2026年6月13日·
    AI 日报
  • Diffusion LLM:当文本生成从打字机变成并行编辑器

    Diffusion LLM:当文本生成从打字机变成并行编辑器

    从 2025 年 5 月 Google Gemini Diffusion 的 857 tokens/s,到 2026 年 6 月 DiffusionGemma 的 500+ tokens/s,再到 Mercury 2 的 1109 tokens/s 商业化交付——文本生成正在经历一场静悄悄的范式革命。本文梳理 5 个核心项目、6 个一手来源,剖析 Diffusion LLM 如何重写大模型的推理架构。

    2026年6月13日·
    大模型研究
  • AI 网关工程实战:把多模型路由、缓存、限流、可观测性装进生产架构

    AI 网关工程实战:把多模型路由、缓存、限流、可观测性装进生产架构

    一篇关于 LLM 应用基础设施层——AI Gateway——的工程实战指南。覆盖多模型路由、语义缓存、统一可观测性、限流与降级、Guardrails 五大主题,结合 LiteLLM、Portkey、Cloudflare AI Gateway、OpenRouter 四种主流方案的真实接口形态与代码示例。

    2026年6月13日·
    AI 编程
  • 推理时计算的范式革命:当大模型学会“多花点时间想”之后,AI 架构发生了什么

    推理时计算的范式革命:当大模型学会“多花点时间想”之后,AI 架构发生了什么

    OpenAI o1/o3、Anthropic Claude 3.7 Sonnet、Google Gemini 2.5 Pro、DeepSeek R1——四家实验室在 2025 年集体把“推理时计算”推到默认能力。这篇文章拆解这场架构革命的根源、四条路径的差异,以及它对 AI 应用架构的连锁冲击。

    2026年6月13日·
    AI 原生架构
  • LLM 评估的危机与重建:从饱和基准到过程性评估的范式转移

    LLM 评估的危机与重建:从饱和基准到过程性评估的范式转移

    当 SWE-Bench Verified 接近饱和、METR 的算法分与整体分出现结构性撕裂,LLM 评估正在从「标准化考试」范式转向「动态测量」范式。本文用 METR 2025-2026 三篇关键报告、Anthropic ASL 框架与 GPQA、HLE 等新一代基准,描绘这场范式转移的全貌。

    2026年6月12日·
    大模型研究
  • LLM 应用的 Token 成本工程:缓存、路由与网关的 5 个实战模式

    LLM 应用的 Token 成本工程:缓存、路由与网关的 5 个实战模式

    把 LLM 应用从'能跑'带到'能盈利'的成本优化手册——围绕 Prompt Caching、模型路由、语义缓存、API Gateway、Token Budgeting 5 个模式,给出可落地的代码片段与账单算术。

    2026年6月12日·
    AI 编程
上一页1 / 7
下一页