博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(36)
  • AI 编程(45)
  • Hermes Agent(13)
  • AI 工具与产品(25)
  • AI 原生架构(33)
  • 大模型研究(29)
  • 杂项(2)
  • AI 行业趋势(17)
  • 行业研究(0)
  • 游戏(1)
  1. 文章
  • LLM 流式推理的协议工程真相 2026:SSE、WebSocket、gRPC streaming 的选型与背压治理

    LLM 流式推理的协议工程真相 2026:SSE、WebSocket、gRPC streaming 的选型与背压治理

    当 LLM 的 token-by-token 自回归生成撞上反向代理的隐式缓冲、客户端的不可见断连以及服务端的取消协议时,协议栈的选择不再是“哪个最潮”,而是“哪个最能扛住生产长连接”。本文拆解 SSE/WebSocket/gRPC streaming 三条路径的工程坑、取消传播链、backpressure 设计,以及三个生产环境 war story。

    2026年7月1日·
    AI 原生架构
  • AI 训练数据的 2026 H2 枯竭临界点:合成数据、版权授权与公共域的三角博弈

    AI 训练数据的 2026 H2 枯竭临界点:合成数据、版权授权与公共域的三角博弈

    当人类写作的优质文本在 2026 年被预测耗尽,数据墙不再是 Scaling Law 的外推游戏,而是版权诉讼、合成数据坍缩风险与公共域开放节奏的三方博弈。本文从 token 供需曲线出发,刻画 2026 H2 大模型公司面对的数据三角。

    2026年7月1日·
    AI 行业趋势
  • 分组查询注意力 GQA 的几何学 2026:当 MQA、DeepSeek MLA 与 KV 共享的极限相遇

    分组查询注意力 GQA 的几何学 2026:当 MQA、DeepSeek MLA 与 KV 共享的极限相遇

    从 Multi-Head 到 Multi-Latent,分组查询注意力走过了从“等价压缩”到“几何重构”的四阶段演化;本文用信息几何与秩分析重新审视 GQA、MLA 与 Q/K 解耦的极限,并给出 2026 H2 注意力架构选型的理论判据。

    2026年7月1日·
    大模型研究
  • 向量数据库横评 2026:从 Milvus 到 LanceDB 的九大主流工具决策框架

    向量数据库横评 2026:从 Milvus 到 LanceDB 的九大主流工具决策框架

    2026 H2 向量数据库格局重塑:Milvus 2.5 引入 GPU 索引(CAGRA, 18.5K QPS)、Qdrant 1.13 Rust 内核稳坐中型团队性价比之王、Chroma 1.0 嵌入式模式推向生产、LanceDB 10.7K ⭐ 强势挑战、Pinecone Serverless 仍是省运维首选。基于 2026-06-30 GitHub 实时数据(Milvus 45K ⭐ / Qdrant 32.8K ⭐ / Chroma 28.6K ⭐)+ SIFT-1M benchmark 实测,从索引算法、运维成本、混合检索、工程化四维给出 2026 H2 选型决策树。

    2026年7月1日·
    AI 工具与产品
  • AI 编程的代码生成评估工程化 2026:当 LiveCodeBench、SWE-bench 与 LLM-as-Judge 撞上生产环境的回归门禁时

    AI 编程的代码生成评估工程化 2026:当 LiveCodeBench、SWE-bench 与 LLM-as-Judge 撞上生产环境的回归门禁时

    当 LLM 生成的代码从 PR 草稿演变为生产提交,评估范式正从离线 HumanEval 单一指标走向多维回归门禁 + 实时灰度采样 + 可解释归因的三阶体系。本文解构 2026 H1 主流代码评估框架的工程取舍。

    2026年7月1日·
    AI 编程
  • LLM Serving 的突发流量整形与背压控制工程 2026:当 admission control、KV cache 复用与 SLO 防御撞上 GPU 利用率天花板时

    LLM Serving 的突发流量整形与背压控制工程 2026:当 admission control、KV cache 复用与 SLO 防御撞上 GPU 利用率天花板时

    LLM 服务的突发流量是「QPS × token 密度」双轴负载,传统 autoscaling 完全失效。本文提出三维 admission control + 自适应 cache eviction + SLO 隔离的工程组合,把突发从故障转译为可预测的资源调度问题。

    2026年6月30日·
    AI 原生架构
  • 开源大模型的商业化悖论 2026:从 DeepSeek 现象到 Llama 闭源化的开源战略十字路口

    开源大模型的商业化悖论 2026:从 DeepSeek 现象到 Llama 闭源化的开源战略十字路口

    当 Llama 4 收紧为研究权重、Mistral 估值翻倍后转自定义许可、Qwen 把开源当云市场获客入口、DeepSeek 用 L0 MIT 协议绑国产算力——开源大模型在 2026 H1 已走到许可证经济 + 融资压力 + 算力梯度 + 人才流向四重约束的战略十字路口。本文从这四个维度系统拆解开源运动背后的商业化悖论。

    2026年6月30日·
    AI 行业趋势
  • 涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

    涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

    把涌现能力、grokking、长度泛化统一为同一族几何相变;用统计场论与微分几何重建能力流形;给出 4 个可证伪预言与 GP-Bench 协议。

    2026年6月30日·
    大模型研究
  • LLM 可观测性工程实战 2026:九款主流工具的 Trace/Metric/Drift 三维决策框架

    LLM 可观测性工程实战 2026:九款主流工具的 Trace/Metric/Drift 三维决策框架

    从 2024 的「Prompt 日志 + 成本 dashboard」到 2026 的「全链路 trace + 在线评估 + 漂移检测 + 事故复盘」四维闭环,本文按工程师视角系统拆解 Langfuse、Phoenix、Helicone、OpenLIT、OpenLLMetry、whylogs、Haystack、Ag2、MLflow 九款工具的架构、集成成本与适用场景,给出按团队规模、部署形态、预算三个轴的选型决策树,并附 8 步生产级落地清单。

    2026年6月30日·
    AI 工具与产品
  • AI 编程的契约层工程化 2026:从 CLAUDE.md 到 AGENTS.md 的 spec-driven 开发闭环

    AI 编程的契约层工程化 2026:从 CLAUDE.md 到 AGENTS.md 的 spec-driven 开发闭环

    2026 年 AI 编程能否在企业生产链路上站住脚,决定胜负的不是模型代码生成能力,而是 CLAUDE.md/AGENTS.md 这类项目级人机契约层的工程化成熟度——L1-L5 五层纵深、CI lint、跨代理合并语义、契约-事故回流闭环、30 天可落地迁移路径。

    2026年6月30日·
    AI 编程
  • LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御

    LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御

    把 LLM 在线推理的失败模式从 OOM、Preemption、Timeout、KV cache 碎片化、热点实例、数值异常六类拆解,对应到 admission control、graceful degradation、circuit breaker、KV pool resharding、hot pool warm-up、batch-fence 一套生产级容错栈,给出一份可在 vLLM/SGLang/TensorRT-LLM 三个引擎上落地的防御清单。

    2026年6月29日·
    AI 原生架构
  • 2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

    2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

    全球 AI Safety 治理正沿三条互不通约的轨道分化:Anthropic RSP 用 ASL 阈值做硬约束、OpenAI Preparedness 用评分卡做软决策、中国备案制走训练数据审查 + 关键词过滤的工程路径。三轨鸿沟已演变为对齐研究人员的二次出走与产业级人才流动。本文用政策原文 + 行业一手报道 + 工程落地视角,解构 2026 H2 AI Safety 范式分化的真实格局与未来 12 个月的关键观察点。

    2026年6月29日·
    AI 行业趋势
  • Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈

    Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈

    用信息论重建 test-time scaling:熵坍缩定理 + 互信息瓶颈 + ToT Pareto 前沿三个核心定理,加上 Mermaid 调度流程图与 2026 H2 趋势猜想,给出 verifier 驱动的统一决策框架。

    2026年6月29日·
    大模型研究
  • AI 会议纪要产品横评 2026:从 Otter 到飞书妙记的七款主流工具实战决策框架

    AI 会议纪要产品横评 2026:从 Otter 到飞书妙记的七款主流工具实战决策框架

    横评 Otter、Fireflies.ai、Read AI、Granola、Krisp、飞书妙记、通义听悟七款主流产品,从 ASR 精度、说话人分离、LLM 摘要质量、实时性、价格 ROI、与会议平台集成深度六个维度构建 2026 选型决策框架,含 Mermaid 集成图与多张数据对比表。

    2026年6月29日·
    AI 工具与产品
  • AI 编程的 Spec-First 协作工程 2026:当自然语言规范撞上形式化契约的边界博弈

    AI 编程的 Spec-First 协作工程 2026:当自然语言规范撞上形式化契约的边界博弈

    spec-driven 开发在 2026 年从 prompt 模板演化成三方契约层:本文从 AGENTS.md / CLAUDE.md 的语法演化、契约形式化程度、CI 双向 drift 检测与 spec regression suite 四个维度,重建 spec-first 协作的工程真相,并给出三种典型失败模式的修复路径。

    2026年6月29日·
    AI 编程
  • AI Gateway 工程真相 2026:从 OpenRouter 到自建 LLM 网关的 token 计量、prompt 缓存路由与限流熔断

    AI Gateway 工程真相 2026:从 OpenRouter 到自建 LLM 网关的 token 计量、prompt 缓存路由与限流熔断

    当一家中型 SaaS 公司每天承载 2 亿次 LLM 调用、横跨 GPT-5、Claude 4.7、Gemini 2.5 Pro 与自托管 Llama-4 Maverick 时,AI Gateway 不再是可选项——本文拆解 token 计量、prefix cache 路由、限流熔断、多模型负载均衡四大工程的真相与踩坑。

    2026年6月28日·
    AI 原生架构
  • AI 与就业市场的净效应账本 2026:岗位替代、岗位创造与工资极化的三方实证

    AI 与就业市场的净效应账本 2026:岗位替代、岗位创造与工资极化的三方实证

    过去两年的“AI 是否替代人类”叙事是不完整的。本文以 Anthropic Economic Index 2026 Q2、Stanford AI Index 2026、BLS CES 与 PwC AI Jobs Barometer 为一手数据源,搭建可证伪的三方净效应框架:automation 75% 平台 vs augmentation 47% 增长 vs wage 90/50 ratio +15.1%,三个指标联合看才显现 2026 H2 的真实图景。

    2026年6月28日·
    AI 行业趋势
  • 离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

    离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

    当文本生成从打字机式自回归转向块级并行去噪,推理时计算的帕累托前沿正在被改写。本文从 Markov 链基础出发,重建 LLaDA 8B、Gemini Diffusion、Mercury Coder 与 DiffusionGemma 的统一理论框架,解释为什么 dLLM 不仅带来 5-10 倍吞吐量,还重新分配了推理时 compute 的最优预算。

    2026年6月28日·
    大模型研究
  • LLM API 路由网关横评 2026:从 OpenRouter 到 LiteLLM 的六大统一接口决策框架

    LLM API 路由网关横评 2026:从 OpenRouter 到 LiteLLM 的六大统一接口决策框架

    2026 年 LLM API 路由网关已从“可选”走向“生产必备”——本文对 OpenRouter、LiteLLM、Portkey、Cloudflare AI Gateway、Unify、Helicone 六大产品做工程级横评,给出从 100 QPS 个人副业到千万日调用企业级场景的完整选型决策树。

    2026年6月28日·
    AI 工具与产品
  • AI 编程的依赖治理与供应链安全工程 2026:从 npm audit 到 LLM 驱动的供应链防御

    AI 编程的依赖治理与供应链安全工程 2026:从 npm audit 到 LLM 驱动的供应链防御

    论证 LLM 是依赖治理从“通知系统”走向“闭环工程”的临界点,覆盖 Upgrade-Bot 代理、breaking change 语义分析、SBOM 自动化、供应链攻击主动狩猎四个工程范式。

    2026年6月28日·
    AI 编程
上一页1 / 11
下一页