博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(36)
  • AI 编程(43)
  • Hermes Agent(13)
  • AI 工具与产品(23)
  • AI 原生架构(31)
  • 大模型研究(27)
  • 杂项(2)
  • AI 行业趋势(15)
  • 行业研究(0)
  • 游戏(1)
  1. 文章
  • LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御

    LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御

    把 LLM 在线推理的失败模式从 OOM、Preemption、Timeout、KV cache 碎片化、热点实例、数值异常六类拆解,对应到 admission control、graceful degradation、circuit breaker、KV pool resharding、hot pool warm-up、batch-fence 一套生产级容错栈,给出一份可在 vLLM/SGLang/TensorRT-LLM 三个引擎上落地的防御清单。

    2026年6月29日·
    AI 原生架构
  • 2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

    2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

    全球 AI Safety 治理正沿三条互不通约的轨道分化:Anthropic RSP 用 ASL 阈值做硬约束、OpenAI Preparedness 用评分卡做软决策、中国备案制走训练数据审查 + 关键词过滤的工程路径。三轨鸿沟已演变为对齐研究人员的二次出走与产业级人才流动。本文用政策原文 + 行业一手报道 + 工程落地视角,解构 2026 H2 AI Safety 范式分化的真实格局与未来 12 个月的关键观察点。

    2026年6月29日·
    AI 行业趋势
  • Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈

    Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈

    用信息论重建 test-time scaling:熵坍缩定理 + 互信息瓶颈 + ToT Pareto 前沿三个核心定理,加上 Mermaid 调度流程图与 2026 H2 趋势猜想,给出 verifier 驱动的统一决策框架。

    2026年6月29日·
    大模型研究
  • AI 会议纪要产品横评 2026:从 Otter 到飞书妙记的七款主流工具实战决策框架

    AI 会议纪要产品横评 2026:从 Otter 到飞书妙记的七款主流工具实战决策框架

    横评 Otter、Fireflies.ai、Read AI、Granola、Krisp、飞书妙记、通义听悟七款主流产品,从 ASR 精度、说话人分离、LLM 摘要质量、实时性、价格 ROI、与会议平台集成深度六个维度构建 2026 选型决策框架,含 Mermaid 集成图与多张数据对比表。

    2026年6月29日·
    AI 工具与产品
  • AI 编程的 Spec-First 协作工程 2026:当自然语言规范撞上形式化契约的边界博弈

    AI 编程的 Spec-First 协作工程 2026:当自然语言规范撞上形式化契约的边界博弈

    spec-driven 开发在 2026 年从 prompt 模板演化成三方契约层:本文从 AGENTS.md / CLAUDE.md 的语法演化、契约形式化程度、CI 双向 drift 检测与 spec regression suite 四个维度,重建 spec-first 协作的工程真相,并给出三种典型失败模式的修复路径。

    2026年6月29日·
    AI 编程
  • AI Gateway 工程真相 2026:从 OpenRouter 到自建 LLM 网关的 token 计量、prompt 缓存路由与限流熔断

    AI Gateway 工程真相 2026:从 OpenRouter 到自建 LLM 网关的 token 计量、prompt 缓存路由与限流熔断

    当一家中型 SaaS 公司每天承载 2 亿次 LLM 调用、横跨 GPT-5、Claude 4.7、Gemini 2.5 Pro 与自托管 Llama-4 Maverick 时,AI Gateway 不再是可选项——本文拆解 token 计量、prefix cache 路由、限流熔断、多模型负载均衡四大工程的真相与踩坑。

    2026年6月28日·
    AI 原生架构
  • AI 与就业市场的净效应账本 2026:岗位替代、岗位创造与工资极化的三方实证

    AI 与就业市场的净效应账本 2026:岗位替代、岗位创造与工资极化的三方实证

    过去两年的“AI 是否替代人类”叙事是不完整的。本文以 Anthropic Economic Index 2026 Q2、Stanford AI Index 2026、BLS CES 与 PwC AI Jobs Barometer 为一手数据源,搭建可证伪的三方净效应框架:automation 75% 平台 vs augmentation 47% 增长 vs wage 90/50 ratio +15.1%,三个指标联合看才显现 2026 H2 的真实图景。

    2026年6月28日·
    AI 行业趋势
  • 离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

    离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

    当文本生成从打字机式自回归转向块级并行去噪,推理时计算的帕累托前沿正在被改写。本文从 Markov 链基础出发,重建 LLaDA 8B、Gemini Diffusion、Mercury Coder 与 DiffusionGemma 的统一理论框架,解释为什么 dLLM 不仅带来 5-10 倍吞吐量,还重新分配了推理时 compute 的最优预算。

    2026年6月28日·
    大模型研究
  • LLM API 路由网关横评 2026:从 OpenRouter 到 LiteLLM 的六大统一接口决策框架

    LLM API 路由网关横评 2026:从 OpenRouter 到 LiteLLM 的六大统一接口决策框架

    2026 年 LLM API 路由网关已从“可选”走向“生产必备”——本文对 OpenRouter、LiteLLM、Portkey、Cloudflare AI Gateway、Unify、Helicone 六大产品做工程级横评,给出从 100 QPS 个人副业到千万日调用企业级场景的完整选型决策树。

    2026年6月28日·
    AI 工具与产品
  • AI 编程的依赖治理与供应链安全工程 2026:从 npm audit 到 LLM 驱动的供应链防御

    AI 编程的依赖治理与供应链安全工程 2026:从 npm audit 到 LLM 驱动的供应链防御

    论证 LLM 是依赖治理从“通知系统”走向“闭环工程”的临界点,覆盖 Upgrade-Bot 代理、breaking change 语义分析、SBOM 自动化、供应链攻击主动狩猎四个工程范式。

    2026年6月28日·
    AI 编程
  • MoE 推理服务工程真相 2026:当 128 专家撞上 All-to-All、Capacity Factor 与 Prefill-Decode 分离的工程取舍

    MoE 推理服务工程真相 2026:当 128 专家撞上 All-to-All、Capacity Factor 与 Prefill-Decode 分离的工程取舍

    MoE 推理的瓶颈已从算力转移到 All-to-All 通信与专家容量治理。本文从 TP×EP 二维并行、capacity factor 调优、Prefill-Decode 分离架构的 MoE 适配、SLO 三维治理四个层面,给出 2026 H1 主流工程团队的实战取舍与生产事故复盘模式。

    2026年6月27日·
    AI 原生架构
  • 模型即事件:2026 H2 大模型发布的舆论-监管-股价三方博弈前瞻

    模型即事件:2026 H2 大模型发布的舆论-监管-股价三方博弈前瞻

    当一个大模型从“研究产物”变成“资本市场事件”时,发布日 24 小时窗口将如何重塑监管节奏、舆论生态与估值锚点?本文用三方博弈框架解构 2026 H2 大模型发布的新常态:五种典型场景 + 形式化建模 + 投资者/工程师/监管者差异化建议 + 四个未公开验证的猜想。

    2026年6月27日·
    AI 行业趋势
  • 位置编码与长度泛化的理论重建 2026:当 RoPE 撞上 loss landscape

    位置编码与长度泛化的理论重建 2026:当 RoPE 撞上 loss landscape

    从 Fourier 基的频带截断,到 ALiBi 的线性偏置假设,再到 YaRN 的双阶段插值与频谱保持,位置编码的演化本质上是一场关于“Transformer 能否在训练窗口外做频率泛化”的理论辩论。本文从 loss landscape 的频域耦合角度重建这一辩论的理论框架,并给出 2026 年的工业级决策依据。

    2026年6月27日·
    大模型研究
  • AI 搜索 / 知识库产品 2026 横评:从 Perplexity 到 NotebookLM 的六大工具决策框架

    AI 搜索 / 知识库产品 2026 横评:从 Perplexity 到 NotebookLM 的六大工具决策框架

    2026 年 LLM 应用层搜索化与知识库化双重浪潮下,Perplexity、ChatGPT Search、Gemini Deep Research、NotebookLM、Mem、Notion AI 六款产品沿五条路径分化 —— 选型不再是「谁更像 Google」,而是「工作流在生产侧还是消费侧」。

    2026年6月27日·
    AI 工具与产品
  • 代码仓库的语义重塑 2026:Repo-Level Context Engineering 实战

    代码仓库的语义重塑 2026:Repo-Level Context Engineering 实战

    本文深入剖析 AI 编程工具的中间层——Repo-Level Context Engineering,聚焦 embedding 索引、AST 切片、RepoGraph 三层架构如何把整个代码仓库折叠成模型可消费的高密度上下文,并讨论增量更新、检索评估、与生成模型的耦合策略。

    2026年6月27日·
    AI 编程
  • 图编译的工程真相 2026:从 PyTorch Inductor 到 TensorRT-LLM Engine 的生产级决策

    图编译的工程真相 2026:从 PyTorch Inductor 到 TensorRT-LLM Engine 的生产级决策

    图编译是 2026 年 LLM Serving 的横切优化层,通过前端捕获、中端算子融合、后端代码生成,把 14-20 个 kernel launch 的 decode step 压缩到 1-3 个。在 Llama-3-70B 上实测可获 1.5-2 倍加速,超过换一代 GPU 的边际收益。本文给生产推荐 Inductor + CUDA Graph 作为默认方案

    2026年6月26日·
    AI 原生架构
  • BIS AI Diffusion Rule 与三轴分叉:2026 H2 全球算力供应链的地缘重构

    BIS AI Diffusion Rule 与三轴分叉:2026 H2 全球算力供应链的地缘重构

    2025-01-15 BIS AI Diffusion Rule (Doc 2025-00636) 将先进计算 IC 与闭权重 AI 模型权重纳入 EAR 控制,把全球划为三级。本文从美国本土扩产、第三国(UAE/Saudi/India)对冲、中国国产替代三个轴线展开,分析 2026 H2 全球算力版图的三种可能路径及未公开验证的猜想。

    2026年6月26日·
    AI 行业趋势
  • 模型合并的几何学:Task Arithmetic、TIES、DARE 与进化搜索的理论基础

    模型合并的几何学:Task Arithmetic、TIES、DARE 与进化搜索的理论基础

    当一个社区在 12 个月内合并出 200+ 个 SOTA 模型时,模型合并已经从工程技巧升格为可被严格分析的理论对象。本文从权重空间几何、Taylor 低阶截断、interference 算法分解与进化搜索四个层次,为 2026 年的模型合并画一张算法几何地图。

    2026年6月26日·
    大模型研究
  • LLM 应用框架横评 2026:从 LangChain 到 DSPy 的六大编排工具决策框架

    LLM 应用框架横评 2026:从 LangChain 到 DSPy 的六大编排工具决策框架

    2026 年 LLM 应用框架没有银弹。本文基于日均 200 万-1000 万 token 的三个生产项目实测,给出 LangChain / LlamaIndex / DSPy / Haystack / Semantic Kernel / AWS Strands 的六维工程化评分与选型决策树,核心结论:LangChain + LangGraph 总分领先(43/60),DSPy 在 prompt 优化维度一骑绝尘,但任何生产项目都需要『主框架 + 副框架 + 自研胶水 + 自研 trace』的组合策略。

    2026年6月26日·
    AI 工具与产品
  • Background Agent 的工程化重生 2026:当「异步长任务」撞上 Checkpoint-Resume 范式

    Background Agent 的工程化重生 2026:当「异步长任务」撞上 Checkpoint-Resume 范式

    当人类开发者下班、IDE 关闭、网络抖动到一半——后台 Agent 仍在以分钟甚至小时为单位持续运行。本文从工程视角拆解 2026 年 Background Agent 的 Checkpoint-Resume 范式如何重塑 AI 编程的最后一公里。

    2026年6月26日·
    AI 编程
上一页1 / 10
下一页