博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(36)
  • AI 编程(45)
  • Hermes Agent(13)
  • AI 工具与产品(24)
  • AI 原生架构(32)
  • 大模型研究(28)
  • 杂项(2)
  • AI 行业趋势(16)
  • 行业研究(0)
  • 游戏(1)
  1. 文章
  • AI 编程的代码生成评估工程化 2026:当 LiveCodeBench、SWE-bench 与 LLM-as-Judge 撞上生产环境的回归门禁时

    AI 编程的代码生成评估工程化 2026:当 LiveCodeBench、SWE-bench 与 LLM-as-Judge 撞上生产环境的回归门禁时

    当 LLM 生成的代码从 PR 草稿演变为生产提交,评估范式正从离线 HumanEval 单一指标走向多维回归门禁 + 实时灰度采样 + 可解释归因的三阶体系。本文解构 2026 H1 主流代码评估框架的工程取舍。

    2026年7月1日·
    AI 编程
  • LLM Serving 的突发流量整形与背压控制工程 2026:当 admission control、KV cache 复用与 SLO 防御撞上 GPU 利用率天花板时

    LLM Serving 的突发流量整形与背压控制工程 2026:当 admission control、KV cache 复用与 SLO 防御撞上 GPU 利用率天花板时

    LLM 服务的突发流量是「QPS × token 密度」双轴负载,传统 autoscaling 完全失效。本文提出三维 admission control + 自适应 cache eviction + SLO 隔离的工程组合,把突发从故障转译为可预测的资源调度问题。

    2026年6月30日·
    AI 原生架构
  • 开源大模型的商业化悖论 2026:从 DeepSeek 现象到 Llama 闭源化的开源战略十字路口

    开源大模型的商业化悖论 2026:从 DeepSeek 现象到 Llama 闭源化的开源战略十字路口

    当 Llama 4 收紧为研究权重、Mistral 估值翻倍后转自定义许可、Qwen 把开源当云市场获客入口、DeepSeek 用 L0 MIT 协议绑国产算力——开源大模型在 2026 H1 已走到许可证经济 + 融资压力 + 算力梯度 + 人才流向四重约束的战略十字路口。本文从这四个维度系统拆解开源运动背后的商业化悖论。

    2026年6月30日·
    AI 行业趋势
  • 涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

    涌现即统计幻觉?2026 大语言模型能力边界的几何相变理论

    把涌现能力、grokking、长度泛化统一为同一族几何相变;用统计场论与微分几何重建能力流形;给出 4 个可证伪预言与 GP-Bench 协议。

    2026年6月30日·
    大模型研究
  • LLM 可观测性工程实战 2026:九款主流工具的 Trace/Metric/Drift 三维决策框架

    LLM 可观测性工程实战 2026:九款主流工具的 Trace/Metric/Drift 三维决策框架

    从 2024 的「Prompt 日志 + 成本 dashboard」到 2026 的「全链路 trace + 在线评估 + 漂移检测 + 事故复盘」四维闭环,本文按工程师视角系统拆解 Langfuse、Phoenix、Helicone、OpenLIT、OpenLLMetry、whylogs、Haystack、Ag2、MLflow 九款工具的架构、集成成本与适用场景,给出按团队规模、部署形态、预算三个轴的选型决策树,并附 8 步生产级落地清单。

    2026年6月30日·
    AI 工具与产品
  • AI 编程的契约层工程化 2026:从 CLAUDE.md 到 AGENTS.md 的 spec-driven 开发闭环

    AI 编程的契约层工程化 2026:从 CLAUDE.md 到 AGENTS.md 的 spec-driven 开发闭环

    2026 年 AI 编程能否在企业生产链路上站住脚,决定胜负的不是模型代码生成能力,而是 CLAUDE.md/AGENTS.md 这类项目级人机契约层的工程化成熟度——L1-L5 五层纵深、CI lint、跨代理合并语义、契约-事故回流闭环、30 天可落地迁移路径。

    2026年6月30日·
    AI 编程
  • LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御

    LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御

    把 LLM 在线推理的失败模式从 OOM、Preemption、Timeout、KV cache 碎片化、热点实例、数值异常六类拆解,对应到 admission control、graceful degradation、circuit breaker、KV pool resharding、hot pool warm-up、batch-fence 一套生产级容错栈,给出一份可在 vLLM/SGLang/TensorRT-LLM 三个引擎上落地的防御清单。

    2026年6月29日·
    AI 原生架构
  • 2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

    2026 H2 AI Safety 治理的全球三轨分化:当 RSP、Preparedness 与备案制的范式鸿沟撞上对齐研究人员的二次出走

    全球 AI Safety 治理正沿三条互不通约的轨道分化:Anthropic RSP 用 ASL 阈值做硬约束、OpenAI Preparedness 用评分卡做软决策、中国备案制走训练数据审查 + 关键词过滤的工程路径。三轨鸿沟已演变为对齐研究人员的二次出走与产业级人才流动。本文用政策原文 + 行业一手报道 + 工程落地视角,解构 2026 H2 AI Safety 范式分化的真实格局与未来 12 个月的关键观察点。

    2026年6月29日·
    AI 行业趋势
  • Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈

    Test-time Scaling 的信息论几何 2026:当推理时计算撞上熵坍缩与互信息瓶颈

    用信息论重建 test-time scaling:熵坍缩定理 + 互信息瓶颈 + ToT Pareto 前沿三个核心定理,加上 Mermaid 调度流程图与 2026 H2 趋势猜想,给出 verifier 驱动的统一决策框架。

    2026年6月29日·
    大模型研究
  • AI 会议纪要产品横评 2026:从 Otter 到飞书妙记的七款主流工具实战决策框架

    AI 会议纪要产品横评 2026:从 Otter 到飞书妙记的七款主流工具实战决策框架

    横评 Otter、Fireflies.ai、Read AI、Granola、Krisp、飞书妙记、通义听悟七款主流产品,从 ASR 精度、说话人分离、LLM 摘要质量、实时性、价格 ROI、与会议平台集成深度六个维度构建 2026 选型决策框架,含 Mermaid 集成图与多张数据对比表。

    2026年6月29日·
    AI 工具与产品
  • AI 编程的 Spec-First 协作工程 2026:当自然语言规范撞上形式化契约的边界博弈

    AI 编程的 Spec-First 协作工程 2026:当自然语言规范撞上形式化契约的边界博弈

    spec-driven 开发在 2026 年从 prompt 模板演化成三方契约层:本文从 AGENTS.md / CLAUDE.md 的语法演化、契约形式化程度、CI 双向 drift 检测与 spec regression suite 四个维度,重建 spec-first 协作的工程真相,并给出三种典型失败模式的修复路径。

    2026年6月29日·
    AI 编程
  • AI Gateway 工程真相 2026:从 OpenRouter 到自建 LLM 网关的 token 计量、prompt 缓存路由与限流熔断

    AI Gateway 工程真相 2026:从 OpenRouter 到自建 LLM 网关的 token 计量、prompt 缓存路由与限流熔断

    当一家中型 SaaS 公司每天承载 2 亿次 LLM 调用、横跨 GPT-5、Claude 4.7、Gemini 2.5 Pro 与自托管 Llama-4 Maverick 时,AI Gateway 不再是可选项——本文拆解 token 计量、prefix cache 路由、限流熔断、多模型负载均衡四大工程的真相与踩坑。

    2026年6月28日·
    AI 原生架构
  • AI 与就业市场的净效应账本 2026:岗位替代、岗位创造与工资极化的三方实证

    AI 与就业市场的净效应账本 2026:岗位替代、岗位创造与工资极化的三方实证

    过去两年的“AI 是否替代人类”叙事是不完整的。本文以 Anthropic Economic Index 2026 Q2、Stanford AI Index 2026、BLS CES 与 PwC AI Jobs Barometer 为一手数据源,搭建可证伪的三方净效应框架:automation 75% 平台 vs augmentation 47% 增长 vs wage 90/50 ratio +15.1%,三个指标联合看才显现 2026 H2 的真实图景。

    2026年6月28日·
    AI 行业趋势
  • 离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

    离散扩散 LLM 的理论重建 2026:从 LLaDA 到 Mercury 的非自回归生成为何重塑推理时计算的几何

    当文本生成从打字机式自回归转向块级并行去噪,推理时计算的帕累托前沿正在被改写。本文从 Markov 链基础出发,重建 LLaDA 8B、Gemini Diffusion、Mercury Coder 与 DiffusionGemma 的统一理论框架,解释为什么 dLLM 不仅带来 5-10 倍吞吐量,还重新分配了推理时 compute 的最优预算。

    2026年6月28日·
    大模型研究
  • LLM API 路由网关横评 2026:从 OpenRouter 到 LiteLLM 的六大统一接口决策框架

    LLM API 路由网关横评 2026:从 OpenRouter 到 LiteLLM 的六大统一接口决策框架

    2026 年 LLM API 路由网关已从“可选”走向“生产必备”——本文对 OpenRouter、LiteLLM、Portkey、Cloudflare AI Gateway、Unify、Helicone 六大产品做工程级横评,给出从 100 QPS 个人副业到千万日调用企业级场景的完整选型决策树。

    2026年6月28日·
    AI 工具与产品
  • AI 编程的依赖治理与供应链安全工程 2026:从 npm audit 到 LLM 驱动的供应链防御

    AI 编程的依赖治理与供应链安全工程 2026:从 npm audit 到 LLM 驱动的供应链防御

    论证 LLM 是依赖治理从“通知系统”走向“闭环工程”的临界点,覆盖 Upgrade-Bot 代理、breaking change 语义分析、SBOM 自动化、供应链攻击主动狩猎四个工程范式。

    2026年6月28日·
    AI 编程
  • MoE 推理服务工程真相 2026:当 128 专家撞上 All-to-All、Capacity Factor 与 Prefill-Decode 分离的工程取舍

    MoE 推理服务工程真相 2026:当 128 专家撞上 All-to-All、Capacity Factor 与 Prefill-Decode 分离的工程取舍

    MoE 推理的瓶颈已从算力转移到 All-to-All 通信与专家容量治理。本文从 TP×EP 二维并行、capacity factor 调优、Prefill-Decode 分离架构的 MoE 适配、SLO 三维治理四个层面,给出 2026 H1 主流工程团队的实战取舍与生产事故复盘模式。

    2026年6月27日·
    AI 原生架构
  • 模型即事件:2026 H2 大模型发布的舆论-监管-股价三方博弈前瞻

    模型即事件:2026 H2 大模型发布的舆论-监管-股价三方博弈前瞻

    当一个大模型从“研究产物”变成“资本市场事件”时,发布日 24 小时窗口将如何重塑监管节奏、舆论生态与估值锚点?本文用三方博弈框架解构 2026 H2 大模型发布的新常态:五种典型场景 + 形式化建模 + 投资者/工程师/监管者差异化建议 + 四个未公开验证的猜想。

    2026年6月27日·
    AI 行业趋势
  • 位置编码与长度泛化的理论重建 2026:当 RoPE 撞上 loss landscape

    位置编码与长度泛化的理论重建 2026:当 RoPE 撞上 loss landscape

    从 Fourier 基的频带截断,到 ALiBi 的线性偏置假设,再到 YaRN 的双阶段插值与频谱保持,位置编码的演化本质上是一场关于“Transformer 能否在训练窗口外做频率泛化”的理论辩论。本文从 loss landscape 的频域耦合角度重建这一辩论的理论框架,并给出 2026 年的工业级决策依据。

    2026年6月27日·
    大模型研究
  • AI 搜索 / 知识库产品 2026 横评:从 Perplexity 到 NotebookLM 的六大工具决策框架

    AI 搜索 / 知识库产品 2026 横评:从 Perplexity 到 NotebookLM 的六大工具决策框架

    2026 年 LLM 应用层搜索化与知识库化双重浪潮下,Perplexity、ChatGPT Search、Gemini Deep Research、NotebookLM、Mem、Notion AI 六款产品沿五条路径分化 —— 选型不再是「谁更像 Google」,而是「工作流在生产侧还是消费侧」。

    2026年6月27日·
    AI 工具与产品
上一页1 / 10
下一页