博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(36)
  • AI 编程(37)
  • Hermes Agent(13)
  • AI 工具与产品(17)
  • AI 原生架构(25)
  • 大模型研究(21)
  • 杂项(2)
  • AI 行业趋势(9)
  • 行业研究(0)
  1. 文章
  • LLM Prefix Cache 工程实战 2026:从单请求 KV 复用、自动 Prefix Tree 到跨请求命中率的工程真相

    LLM Prefix Cache 工程实战 2026:从单请求 KV 复用、自动 Prefix Tree 到跨请求命中率的工程真相

    当 Prompt 中存在可复用前缀时,跨请求复用 KV cache 可把首 token 延迟下降 50-90%、吞吐量提升 3-10 倍——但生产环境中真实的命中率分布、显存代价和失效模式远比论文与文档更复杂。

    2026年6月23日·
    AI 原生架构
  • 2026 H2 AI 估值泡沫的金融物理学:从 NVIDIA 4 万亿到 OpenAI 5000 亿轮的资本循坏与退出真相

    2026 H2 AI 估值泡沫的金融物理学:从 NVIDIA 4 万亿到 OpenAI 5000 亿轮的资本循坏与退出真相

    当 NVIDIA 跨越 4 万亿美元市值、OpenAI 私募估值达 5000 亿美元时,AI 资本周期已具备金融物理学系统的特征——正反馈环、临界相变、平衡态失稳。本文拆解流动性驱动的非线性定价机制、退出渠道的窄化动力学、算力期货化与 token 经济学的反馈环,并给出非共识判断:风险不在估值高度,而在退出动力学与估值-现金流的解耦深度。

    2026年6月23日·
    AI 行业趋势
  • 数据选择理论 2026:从 influence functions 到 data curation scaling laws 的范式跃迁

    数据选择理论 2026:从 influence functions 到 data curation scaling laws 的范式跃迁

    2026 年大模型研究的最深刻转向不是更大的模型,而是更聪明的“挑数据的策略”。本文从 influence functions 的早期理论出发,沿着 data curation scaling laws、selection-via-loss、qualitative diversity 三条路径,重建 2026 年大模型数据选择理论的全貌,论证“数据缩放律”正在替代“参数缩放律”成为预训练效率的新瓶颈。

    2026年6月23日·
    大模型研究
  • AI 语音克隆与 TTS 产品横评 2026:从 ElevenLabs 到 Cartesia 的六款主流工具决策框架

    AI 语音克隆与 TTS 产品横评 2026:从 ElevenLabs 到 Cartesia 的六款主流工具决策框架

    2026 年 AI 语音合成与语音克隆市场迎来双线竞速。本文以工程决策者视角,从音质、首包延迟、克隆能力、商用授权、单价、自托管可行度六维,横评 ElevenLabs / Cartesia / OpenAI / CosyVoice / F5-TTS / OpenVoice 2 六款主流 TTS / 语音克隆产品,给出三类典型负载(对话 Agent / 内容创作 / 客服外呼)的决策树与 5 个生产级工程坑。

    2026年6月23日·
    AI 工具与产品
  • AI 编程的代码安全工程化 2026:从红队评估、注入攻击防护到生成代码审计的工程闭环

    AI 编程的代码安全工程化 2026:从红队评估、注入攻击防护到生成代码审计的工程闭环

    系统梳理 2026 年 AI 编程工具面临的三大新型代码安全威胁——间接提示注入、生成代码脆弱性继承、代理链路供应链攻击,并给出从红队评估、纵深防御的四层架构(输入净化 / 推理约束 / 执行权限 / 审计回放)、到生成代码审计流水线的完整工程闭环,最终落到 IDE 工作流中的 MCP 安全扩展与实时 LSP 提示。

    2026年6月23日·
    AI 编程
  • LLM Serving 的显存池化与碎片化治理 2026:当 PagedAttention 之后,下一个工程焦点在哪里

    LLM Serving 的显存池化与碎片化治理 2026:当 PagedAttention 之后,下一个工程焦点在哪里

    从 vLLM 0.4 到 0.7,KV cache 的 PagedAttention 已经把 decode 阶段的显存利用率从 30% 拉到 70%;但 2026 H2 的实战表明,瓶颈正在迁移。本文从生产环境事故切入,给出分配器选型、prefix cache 治理、GPU 内存池监控的完整工程清单。

    2026年6月22日·
    AI 原生架构
  • 电力饥渴下的算力竞速:2026 H2 AI 数据中心、核能重启与电网承载能力的耦合博弈

    电力饥渴下的算力竞速:2026 H2 AI 数据中心、核能重启与电网承载能力的耦合博弈

    当 AI 训练从算力军备竞赛进入电力耦合博弈,真正的瓶颈不再是 GPU 与 HBM,而是电厂、变电站与数据中心园区三者之间的物理动力学。本文以 IEA《Electricity 2026》、Microsoft 三里岛重启协议、中国东数西算三组一手线索,推演 2026 H2 数据中心、核能重启、SMR 与地缘能源调配的耦合路径。

    2026年6月22日·
    AI 行业趋势
  • 万卡训练的张力:2026 年 3D 并行与 ZeRO 组合的工程真相

    万卡训练的张力:2026 年 3D 并行与 ZeRO 组合的工程真相

    从单卡 H100 到万卡集群,大模型训练基础设施的真正瓶颈不是显存,而是 TP+PP+DP+ZeRO+EP 组合策略的帕累托前沿。本文从内存数学出发,拆解 FSDP/DeepSpeed/Megatron 在 2026 年生产级训练中的角色定位与组合范式。

    2026年6月22日·
    AI 原生架构
  • 合成数据训练与模型坍缩的相变理论 2026

    合成数据训练与模型坍缩的相变理论 2026

    用统计力学和随机矩阵理论重新审视 model collapse:本文给出 2026 年关于递归合成数据训练的可量化边界,给出 n_c、rho、sigma_min* 三个可测量量。

    2026年6月22日·
    大模型研究
  • AI 文档协作工具横评 2026:从 NotebookLM 到 Notion AI Q&A 到 Mem X 的知识管理决策框架

    AI 文档协作工具横评 2026:从 NotebookLM 到 Notion AI Q&A 到 Mem X 的知识管理决策框架

    用同一份 30 页研究 PDF 作为输入,横向评测 NotebookLM 2.5、Notion AI Q&A 3.0、Mem X、Readwise Reader 3 与 Reflect 4 五款主流 AI 文档协作工具,从召回质量 / 多文档合成 / 来源可追溯 / 隐私边界 / 协作能力五个维度量化差异,给出按使用场景划分的选型决策树。

    2026年6月22日·
    AI 工具与产品
  • AI 辅助代码评审工程化 2026:从 PR 自动化、规则化评审到安全漏洞检测的工程闭环

    AI 辅助代码评审工程化 2026:从 PR 自动化、规则化评审到安全漏洞检测的工程闭环

    当 AI 代码评审从自动补全的副产品走向生产级协作基础设施,它必须解决三个核心工程问题——如何在评审延迟与人审介入之间取得平衡、如何把团队隐性经验沉淀为可复用规则、如何与 SAST/SCA 等安全工具协同而不产生噪声洪流。

    2026年6月22日·
    AI 编程
  • 基础模型竞速 2.0:2026 H2 资本、人才与算力的三重再分配前瞻

    基础模型竞速 2.0:2026 H2 资本、人才与算力的三重再分配前瞻

    从训练独大到推理 + 垂直 + 安全复合竞争,2026 H2 全球基础模型赛道的资本、人才与算力三重再分配前瞻。本文用复合效用模型与算力分配优先级公式拆解结构性转折,并对分层加速、开源复兴、地缘软固化三条路径给出可证伪推演。

    2026年6月21日·
    AI 行业趋势
  • 多 LoRA 推理服务工程实战 2026:从 S-LoRA、LoRA Hot-Swap 到生产级 PEFT 多租户调度的真相

    多 LoRA 推理服务工程实战 2026:从 S-LoRA、LoRA Hot-Swap 到生产级 PEFT 多租户调度的真相

    S-LoRA 的 Paged-Adapter、Punica 的多租户 kernel、SGLang 的 RadixAttention-LoRA 演进,把“adapter 即服务”从理论推到生产,但每条路径都有 5-7 个真实工程陷阱——本文逐条拆解。

    2026年6月21日·
    AI 原生架构
  • LLM 的归纳偏置与组合泛化:Transformer 是否真正具备系统性能力

    LLM 的归纳偏置与组合泛化:Transformer 是否真正具备系统性能力

    从 Chomsky 的系统性原则出发,结合 SCAN、COGS 等结构化基准的近期实证,重新审视 Transformer 是否真正具备结构性归纳偏置,并提出面向组合泛化的架构诊断框架。

    2026年6月21日·
    大模型研究
  • AI 图像视频音频生成工具产品横评 2026:从 Midjourney V8 到 ComfyUI 0.4 的六款主流工具工程决策框架

    AI 图像视频音频生成工具产品横评 2026:从 Midjourney V8 到 ComfyUI 0.4 的六款主流工具工程决策框架

    2026 年的多模态生成赛道已从单一模型的像不像竞赛演化为控制流、模型生态、工作流编排的三维工程决战。本文从工程师视角拆解 Midjourney V8、Sora 2、Runway Gen-4、Suno V5、ElevenLabs v3、ComfyUI 0.4 六款主流工具在产品定位、控制粒度、模型生态、定价结构、企业部署五个维度的真实差异,并给出可落地的选型决策树。

    2026年6月21日·
    AI 工具与产品
  • AI 编程的 Prompt 工程化:从版本管理到 CI 集成的工程闭环

    AI 编程的 Prompt 工程化:从版本管理到 CI 集成的工程闭环

    当 LLM 编程工具进入生产环境,prompt 不再是一次性字符串,而是需要版本化、回归测试、A/B 验证、CI 集成的“代码资产”——本文给出 2026 年 AI 编程团队构建 prompt 工程闭环的五层架构与 12 项关键决策。

    2026年6月21日·
    AI 编程
  • 育碧联合创始人 Claude Guillemot 在空难中去世,享年 69 岁

    育碧联合创始人 Claude Guillemot 在空难中去世,享年 69 岁

    2026 年 6 月 20 日,育碧 Ubisoft 联合创始人 Claude Guillemot 在空难中离世,享年 69 岁。Claude 是 Guillemot 五兄弟中最年幼的一位,与兄长 Yves 共同支撑了育碧近 40 年的家族控制结构。这篇悼念文梳理其生平、育碧当下的至暗时刻,以及这一事件对游戏行业家族企业样本的深远影响。

    2026年6月21日·
    杂项
  • AI 劳动力冲击的第三条路径 2026:Botsitting、工时分层与 PwC 双路径模型的实证真相

    AI 劳动力冲击的第三条路径 2026:Botsitting、工时分层与 PwC 双路径模型的实证真相

    PwC 2026 AI Jobs Barometer 揭示工资增长在 AI 高/低暴露职业之间裂出 2-4 倍差距,Business Insider 6 月调查发现的「每周 6 小时 botsitting」揭示了隐性维护路径。本文用三路径动力学模型刻画 2026 H2 - 2027 H1 的结构性趋势。

    2026年6月20日·
    AI 行业趋势
  • Prefill-Decode 分离架构 2026:从 DistServe、MoE-Centric 到生产级推理调度的工程真相

    Prefill-Decode 分离架构 2026:从 DistServe、MoE-Centric 到生产级推理调度的工程真相

    当 8 卡 H100 跑 Llama-3-70B 的单请求端到端 TTFT 已经被压到 80ms 时,2026 年生产级 LLM 推理几乎集体掉头——把 Prefill 和 Decode 拆到不同 GPU 池。这是从 vLLM 0.4 统一调度范式推倒重来的工程革命,收益是 P99 尾延迟降 15-30×,代价是 KV cache 跨卡传输与动态调度的工程复杂度。

    2026年6月20日·
    AI 原生架构
  • Grokking 与大模型训练的相变理论:当泛化能力在损失饱和之后突然涌现

    Grokking 与大模型训练的相变理论:当泛化能力在损失饱和之后突然涌现

    本文重新审视 Grokking 现象在大模型训练语境下的理论意涵——损失函数在长时间饱和之后突然出现的泛化跃迁,并非“训练巧合”,而是损失景观中高维相变的宏观投影。理解这一相变结构,将重塑我们对涌现能力、缩放定律与训练策略的工程直觉。

    2026年6月20日·
    大模型研究
上一页1 / 8
下一页