博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(36)
  • AI 编程(47)
  • Hermes Agent(13)
  • AI 工具与产品(26)
  • AI 原生架构(34)
  • 大模型研究(30)
  • 杂项(2)
  • AI 行业趋势(18)
  • 行业研究(0)
  • 游戏(1)
  1. 文章
  • AI 编程的成本工程 2026:当 prompt 缓存、模型路由与推理预算控制撞上 SaaS 计费模型

    AI 编程的成本工程 2026:当 prompt 缓存、模型路由与推理预算控制撞上 SaaS 计费模型

    在 2026 H2,AI 编程的真实瓶颈不再是模型能力,而是每次 commit 背后的 token 经济学。本文从 prompt cache 命中率、模型路由、上下文压缩、推理预算四条工程线,给出一套可量化的成本治理框架,并以 Claude Code、Cursor、Copilot Workspace 三款工具为对照样本。

    2026年7月3日·
    AI 编程
  • LLM Structured Output 工程真相 2026:从 JSON Schema 约束、xGrammar FSM 到生产级 SLO 防御的三层架构

    LLM Structured Output 工程真相 2026:从 JSON Schema 约束、xGrammar FSM 到生产级 SLO 防御的三层架构

    当 LLM 输出 JSON、SQL、工具调用成为生产刚需,Structured Output 已从 prompt trick 演化为 token-level CFG 强约束 + FSM 状态机的硬工程。本文剖析 xGrammar / Outlines / SGLang grammar / TensorRT-LLM llguidance 四大流派的工程真相、与 vLLM / SGLang / llama.cpp 的集成深度、Schema-Valid Rate 三大 SLO、Schema Evolution 的双 grammar 灰度策略,以及 80% 生产部署必选的 vLLM 0.7 + xGrammar 范式。

    2026年7月2日·
    AI 原生架构
  • CoWoS、HBM 与国产替代:2026 H2 算力供应链的三轴分叉博弈

    CoWoS、HBM 与国产替代:2026 H2 算力供应链的三轴分叉博弈

    先进封装(CoWoS)、高带宽存储(HBM)与国产替代构成 AI 算力供应链的三个正交约束轴。本文从产能数学、HBM 寡头格局、国产替代三阶段路径三个维度,刻画 2026 H2 的三轴耦合决策场景与差异化博弈。

    2026年7月2日·
    AI 行业趋势
  • 注意力机制的秩坍缩与低秩瓶颈理论 2026:当 token mixing 撞上训练动力学的低秩瓶颈时

    注意力机制的秩坍缩与低秩瓶颈理论 2026:当 token mixing 撞上训练动力学的低秩瓶颈时

    本文从 cross-entropy 几何结构出发,给出注意力 $W_V$ 矩阵低秩吸引子定理,证明有效秩上界为 $mathrm{rank}(V^*)$。结合 Adam 隐式秩正则化、softmax 谱压缩、扩散 / DPO 等不同训练目标的秩变化,统合理解 2026 年所有主流注意力变体、KV cache 压缩算法与 LoRA rank 选择的理论基础。

    2026年7月2日·
    大模型研究
  • AI 浏览器代理 2026 横评:从 Atlas 到 Comet 到 Dia 的七大主流工具决策框架

    AI 浏览器代理 2026 横评:从 Atlas 到 Comet 到 Dia 的七大主流工具决策框架

    当 AI 不再藏在侧边栏,而是直接接管浏览器内核——2026 H2,我们正站在「浏览器即 Agent 入口」这条赛道的产品定型期。本文用一张横评表 + 一条决策树 + 一组风险地图,把当前 7 款主流 AI 浏览器(Atlas / Comet / Dia / Arc / Fellou / SigmaOS / Brave Leo)拆成 5 个决策维度,给到 7 天试用 + 90 天落地的双周期选型框架。

    2026年7月2日·
    AI 工具与产品
  • AI 编程的测试生成工程化 2026:当 LLM 撞上 Property-Based Testing 与 Mutation Score 的回归门禁

    AI 编程的测试生成工程化 2026:当 LLM 撞上 Property-Based Testing 与 Mutation Score 的回归门禁

    当 Copilot、Cursor、Claude Code 把自动写单测从 demo 推上生产主干道,工程团队真正面对的不再是测不出来,而是测得对不对、测得稳不稳、测得贵不贵。本文从 flaky test 的几何分布、property-based testing 的不变式挖掘、mutation testing 的故障注入等价性、CI gate 的 ROI 回归曲线四个工程视角,系统拆解 2026 年 LLM 驱动的测试生成如何从玩具走向生产门禁。

    2026年7月2日·
    AI 编程
  • LLM 流式推理的协议工程真相 2026:SSE、WebSocket、gRPC streaming 的选型与背压治理

    LLM 流式推理的协议工程真相 2026:SSE、WebSocket、gRPC streaming 的选型与背压治理

    当 LLM 的 token-by-token 自回归生成撞上反向代理的隐式缓冲、客户端的不可见断连以及服务端的取消协议时,协议栈的选择不再是“哪个最潮”,而是“哪个最能扛住生产长连接”。本文拆解 SSE/WebSocket/gRPC streaming 三条路径的工程坑、取消传播链、backpressure 设计,以及三个生产环境 war story。

    2026年7月1日·
    AI 原生架构
  • AI 训练数据的 2026 H2 枯竭临界点:合成数据、版权授权与公共域的三角博弈

    AI 训练数据的 2026 H2 枯竭临界点:合成数据、版权授权与公共域的三角博弈

    当人类写作的优质文本在 2026 年被预测耗尽,数据墙不再是 Scaling Law 的外推游戏,而是版权诉讼、合成数据坍缩风险与公共域开放节奏的三方博弈。本文从 token 供需曲线出发,刻画 2026 H2 大模型公司面对的数据三角。

    2026年7月1日·
    AI 行业趋势
  • 分组查询注意力 GQA 的几何学 2026:当 MQA、DeepSeek MLA 与 KV 共享的极限相遇

    分组查询注意力 GQA 的几何学 2026:当 MQA、DeepSeek MLA 与 KV 共享的极限相遇

    从 Multi-Head 到 Multi-Latent,分组查询注意力走过了从“等价压缩”到“几何重构”的四阶段演化;本文用信息几何与秩分析重新审视 GQA、MLA 与 Q/K 解耦的极限,并给出 2026 H2 注意力架构选型的理论判据。

    2026年7月1日·
    大模型研究
  • 向量数据库横评 2026:从 Milvus 到 LanceDB 的九大主流工具决策框架

    向量数据库横评 2026:从 Milvus 到 LanceDB 的九大主流工具决策框架

    2026 H2 向量数据库格局重塑:Milvus 2.5 引入 GPU 索引(CAGRA, 18.5K QPS)、Qdrant 1.13 Rust 内核稳坐中型团队性价比之王、Chroma 1.0 嵌入式模式推向生产、LanceDB 10.7K ⭐ 强势挑战、Pinecone Serverless 仍是省运维首选。基于 2026-06-30 GitHub 实时数据(Milvus 45K ⭐ / Qdrant 32.8K ⭐ / Chroma 28.6K ⭐)+ SIFT-1M benchmark 实测,从索引算法、运维成本、混合检索、工程化四维给出 2026 H2 选型决策树。

    2026年7月1日·
    AI 工具与产品
  • AI 编程的代码生成评估工程化 2026:当 LiveCodeBench、SWE-bench 与 LLM-as-Judge 撞上生产环境的回归门禁时

    AI 编程的代码生成评估工程化 2026:当 LiveCodeBench、SWE-bench 与 LLM-as-Judge 撞上生产环境的回归门禁时

    当 LLM 生成的代码从 PR 草稿演变为生产提交,评估范式正从离线 HumanEval 单一指标走向多维回归门禁 + 实时灰度采样 + 可解释归因的三阶体系。本文解构 2026 H1 主流代码评估框架的工程取舍。

    2026年7月1日·
    AI 编程
  • LLM Serving 的突发流量整形与背压控制工程 2026:当 admission control、KV cache 复用与 SLO 防御撞上 GPU 利用率天花板时

    LLM Serving 的突发流量整形与背压控制工程 2026:当 admission control、KV cache 复用与 SLO 防御撞上 GPU 利用率天花板时

    LLM 服务的突发流量是「QPS × token 密度」双轴负载,传统 autoscaling 完全失效。本文提出三维 admission control + 自适应 cache eviction + SLO 隔离的工程组合,把突发从故障转译为可预测的资源调度问题。

    2026年6月30日·
    AI 原生架构
  • 开源大模型的商业化悖论 2026:从 DeepSeek 现象到 Llama 闭源化的开源战略十字路口

    开源大模型的商业化悖论 2026:从 DeepSeek 现象到 Llama 闭源化的开源战略十字路口

    当 Llama 4 收紧为研究权重、Mistral 估值翻倍后转自定义许可、Qwen 把开源当云市场获客入口、DeepSeek 用 L0 MIT 协议绑国产算力——开源大模型在 2026 H1 已走到许可证经济 + 融资压力 + 算力梯度 + 人才流向四重约束的战略十字路口。本文从这四个维度系统拆解开源运动背后的商业化悖论。

    2026年6月30日·
    AI 行业趋势
  • 涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

    涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

    把涌现能力、grokking、长度泛化统一为同一族几何相变;用统计场论与微分几何重建能力流形;给出 4 个可证伪预言与 GP-Bench 协议。

    2026年6月30日·
    大模型研究
  • LLM 可观测性工程实战 2026:九款主流工具的 Trace/Metric/Drift 三维决策框架

    LLM 可观测性工程实战 2026:九款主流工具的 Trace/Metric/Drift 三维决策框架

    从 2024 的「Prompt 日志 + 成本 dashboard」到 2026 的「全链路 trace + 在线评估 + 漂移检测 + 事故复盘」四维闭环,本文按工程师视角系统拆解 Langfuse、Phoenix、Helicone、OpenLIT、OpenLLMetry、whylogs、Haystack、Ag2、MLflow 九款工具的架构、集成成本与适用场景,给出按团队规模、部署形态、预算三个轴的选型决策树,并附 8 步生产级落地清单。

    2026年6月30日·
    AI 工具与产品
  • AI 编程的契约层工程化 2026:从 CLAUDE.md 到 AGENTS.md 的 spec-driven 开发闭环

    AI 编程的契约层工程化 2026:从 CLAUDE.md 到 AGENTS.md 的 spec-driven 开发闭环

    2026 年 AI 编程能否在企业生产链路上站住脚,决定胜负的不是模型代码生成能力,而是 CLAUDE.md/AGENTS.md 这类项目级人机契约层的工程化成熟度——L1-L5 五层纵深、CI lint、跨代理合并语义、契约-事故回流闭环、30 天可落地迁移路径。

    2026年6月30日·
    AI 编程
  • LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御

    LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御

    把 LLM 在线推理的失败模式从 OOM、Preemption、Timeout、KV cache 碎片化、热点实例、数值异常六类拆解,对应到 admission control、graceful degradation、circuit breaker、KV pool resharding、hot pool warm-up、batch-fence 一套生产级容错栈,给出一份可在 vLLM/SGLang/TensorRT-LLM 三个引擎上落地的防御清单。

    2026年6月29日·
    AI 原生架构
  • 2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

    2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

    全球 AI Safety 治理正沿三条互不通约的轨道分化:Anthropic RSP 用 ASL 阈值做硬约束、OpenAI Preparedness 用评分卡做软决策、中国备案制走训练数据审查 + 关键词过滤的工程路径。三轨鸿沟已演变为对齐研究人员的二次出走与产业级人才流动。本文用政策原文 + 行业一手报道 + 工程落地视角,解构 2026 H2 AI Safety 范式分化的真实格局与未来 12 个月的关键观察点。

    2026年6月29日·
    AI 行业趋势
  • Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈

    Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈

    用信息论重建 test-time scaling:熵坍缩定理 + 互信息瓶颈 + ToT Pareto 前沿三个核心定理,加上 Mermaid 调度流程图与 2026 H2 趋势猜想,给出 verifier 驱动的统一决策框架。

    2026年6月29日·
    大模型研究
  • AI 会议纪要产品横评 2026:从 Otter 到飞书妙记的七款主流工具实战决策框架

    AI 会议纪要产品横评 2026:从 Otter 到飞书妙记的七款主流工具实战决策框架

    横评 Otter、Fireflies.ai、Read AI、Granola、Krisp、飞书妙记、通义听悟七款主流产品,从 ASR 精度、说话人分离、LLM 摘要质量、实时性、价格 ROI、与会议平台集成深度六个维度构建 2026 选型决策框架,含 Mermaid 集成图与多张数据对比表。

    2026年6月29日·
    AI 工具与产品
上一页1 / 11
下一页