博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(36)
  • AI 编程(39)
  • Hermes Agent(13)
  • AI 工具与产品(18)
  • AI 原生架构(26)
  • 大模型研究(22)
  • 杂项(2)
  • AI 行业趋势(10)
  • 行业研究(0)
  1. 文章
  • Agent 配置文件工程化 2026:从 CLAUDE.md 到 AGENTS.md 的 spec-driven 开发范式

    Agent 配置文件工程化 2026:从 CLAUDE.md 到 AGENTS.md 的 spec-driven 开发范式

    当 Anthropic 推出 CLAUDE.md、Cline 推出 AGENTS.md、Cursor 推出 .cursorrules 时,spec-driven 开发正在重写 AI 编程的工程边界——本文拆解 5 套主流 schema、团队共享机制与 token 成本的真实博弈。

    2026年6月25日·
    AI 编程
  • 长上下文推理的工程真相 2026:从 128K 到 1M context 的 PagedAttention、Ring Attention 与 KV cache 卸载实战

    长上下文推理的工程真相 2026:从 128K 到 1M context 的 PagedAttention、Ring Attention 与 KV cache 卸载实战

    当上下文窗口从 128K 迈向 1M tokens,推理引擎面临的是显存、计算、通信三重叠加的「不可能三角」。本文从 2026 年真实工程视角系统拆解 PagedAttention、Ring Attention 与 KV cache 卸载的决策路径,给出从 8 卡 H100 单节点到 32 卡跨机部署的可落地选型清单。

    2026年6月24日·
    AI 原生架构
  • AI 与版权法的范式冲突 2026:从 NYT vs OpenAI 到 Suno/Udio settlement 的全球法律重构

    AI 与版权法的范式冲突 2026:从 NYT vs OpenAI 到 Suno/Udio settlement 的全球法律重构

    2026 上半年三场标志性诉讼把生成式 AI 与版权法的张力推到了范式转移的临界点——美式 fair use 在文本生成领域首次失守,音乐产业用 settlement 换来 30/70 分账模型,视觉模型的风格不侵权悖论正在被 Midjourney 判决推翻。本文从三大诉讼判例细节出发,重建 2026 H2 全球版权合规的工程化路径。

    2026年6月24日·
    AI 行业趋势
  • Weight Merging 的理论重建 2026:Task Arithmetic、TIES 与 DARE 三大范式的数学基础与边界

    Weight Merging 的理论重建 2026:Task Arithmetic、TIES 与 DARE 三大范式的数学基础与边界

    当多个微调后的 LLM 都站在损失景观的低谷平原上时,模型合并的成败取决于它们是否处于同一个线性模式连通盆地。本文从线性模式连通性出发,拆解 Task Arithmetic、TIES-MERGING 与 DARE 三大合并范式的数学假设、归并冲突与冗余处理。

    2026年6月24日·
    大模型研究
  • AI 搜索产品横评 2026:从 Perplexity Pro 到 Le Chat 的七大工具决策框架

    AI 搜索产品横评 2026:从 Perplexity Pro 到 Le Chat 的七大工具决策框架

    2026 H1 的 AI 搜索产品已从「带 LLM 的 Google 替代」演化为「检索-推理-引用」三段流水线上的工程竞赛,选型关键不在「最聪明」而在「引用透明度 / 实时延迟 / 定价模型」与工作流对齐。

    2026年6月24日·
    AI 工具与产品
  • AI 编程的上下文压缩与模型选型工程 2026:当 200K 上下文撞上 token 成本时,开发者的工程化决策

    AI 编程的上下文压缩与模型选型工程 2026:当 200K 上下文撞上 token 成本时,开发者的工程化决策

    从一线开发者视角,重新审视 2026 H1 三大主流范式(Cursor / Claude Code / Copilot)在上下文压缩、模型路由、token 成本闭环上的工程化路径,并给出一份可落地的选型决策清单与成本监控清单。

    2026年6月24日·
    AI 编程
  • LLM Prefix Cache 工程实战 2026:从单请求 KV 复用、自动 Prefix Tree 到跨请求命中率的工程真相

    LLM Prefix Cache 工程实战 2026:从单请求 KV 复用、自动 Prefix Tree 到跨请求命中率的工程真相

    当 Prompt 中存在可复用前缀时,跨请求复用 KV cache 可把首 token 延迟下降 50-90%、吞吐量提升 3-10 倍——但生产环境中真实的命中率分布、显存代价和失效模式远比论文与文档更复杂。

    2026年6月23日·
    AI 原生架构
  • 2026 H2 AI 估值泡沫的金融物理学:从 NVIDIA 4 万亿到 OpenAI 5000 亿轮的资本循坏与退出真相

    2026 H2 AI 估值泡沫的金融物理学:从 NVIDIA 4 万亿到 OpenAI 5000 亿轮的资本循坏与退出真相

    当 NVIDIA 跨越 4 万亿美元市值、OpenAI 私募估值达 5000 亿美元时,AI 资本周期已具备金融物理学系统的特征——正反馈环、临界相变、平衡态失稳。本文拆解流动性驱动的非线性定价机制、退出渠道的窄化动力学、算力期货化与 token 经济学的反馈环,并给出非共识判断:风险不在估值高度,而在退出动力学与估值-现金流的解耦深度。

    2026年6月23日·
    AI 行业趋势
  • 数据选择理论 2026:从 influence functions 到 data curation scaling laws 的范式跃迁

    数据选择理论 2026:从 influence functions 到 data curation scaling laws 的范式跃迁

    2026 年大模型研究的最深刻转向不是更大的模型,而是更聪明的“挑数据的策略”。本文从 influence functions 的早期理论出发,沿着 data curation scaling laws、selection-via-loss、qualitative diversity 三条路径,重建 2026 年大模型数据选择理论的全貌,论证“数据缩放律”正在替代“参数缩放律”成为预训练效率的新瓶颈。

    2026年6月23日·
    大模型研究
  • AI 语音克隆与 TTS 产品横评 2026:从 ElevenLabs 到 Cartesia 的六款主流工具决策框架

    AI 语音克隆与 TTS 产品横评 2026:从 ElevenLabs 到 Cartesia 的六款主流工具决策框架

    2026 年 AI 语音合成与语音克隆市场迎来双线竞速。本文以工程决策者视角,从音质、首包延迟、克隆能力、商用授权、单价、自托管可行度六维,横评 ElevenLabs / Cartesia / OpenAI / CosyVoice / F5-TTS / OpenVoice 2 六款主流 TTS / 语音克隆产品,给出三类典型负载(对话 Agent / 内容创作 / 客服外呼)的决策树与 5 个生产级工程坑。

    2026年6月23日·
    AI 工具与产品
  • AI 编程的代码安全工程化 2026:从红队评估、注入攻击防护到生成代码审计的工程闭环

    AI 编程的代码安全工程化 2026:从红队评估、注入攻击防护到生成代码审计的工程闭环

    系统梳理 2026 年 AI 编程工具面临的三大新型代码安全威胁——间接提示注入、生成代码脆弱性继承、代理链路供应链攻击,并给出从红队评估、纵深防御的四层架构(输入净化 / 推理约束 / 执行权限 / 审计回放)、到生成代码审计流水线的完整工程闭环,最终落到 IDE 工作流中的 MCP 安全扩展与实时 LSP 提示。

    2026年6月23日·
    AI 编程
  • LLM Serving 的显存池化与碎片化治理 2026:当 PagedAttention 之后,下一个工程焦点在哪里

    LLM Serving 的显存池化与碎片化治理 2026:当 PagedAttention 之后,下一个工程焦点在哪里

    从 vLLM 0.4 到 0.7,KV cache 的 PagedAttention 已经把 decode 阶段的显存利用率从 30% 拉到 70%;但 2026 H2 的实战表明,瓶颈正在迁移。本文从生产环境事故切入,给出分配器选型、prefix cache 治理、GPU 内存池监控的完整工程清单。

    2026年6月22日·
    AI 原生架构
  • 电力饥渴下的算力竞速:2026 H2 AI 数据中心、核能重启与电网承载能力的耦合博弈

    电力饥渴下的算力竞速:2026 H2 AI 数据中心、核能重启与电网承载能力的耦合博弈

    当 AI 训练从算力军备竞赛进入电力耦合博弈,真正的瓶颈不再是 GPU 与 HBM,而是电厂、变电站与数据中心园区三者之间的物理动力学。本文以 IEA《Electricity 2026》、Microsoft 三里岛重启协议、中国东数西算三组一手线索,推演 2026 H2 数据中心、核能重启、SMR 与地缘能源调配的耦合路径。

    2026年6月22日·
    AI 行业趋势
  • 万卡训练的张力:2026 年 3D 并行与 ZeRO 组合的工程真相

    万卡训练的张力:2026 年 3D 并行与 ZeRO 组合的工程真相

    从单卡 H100 到万卡集群,大模型训练基础设施的真正瓶颈不是显存,而是 TP+PP+DP+ZeRO+EP 组合策略的帕累托前沿。本文从内存数学出发,拆解 FSDP/DeepSpeed/Megatron 在 2026 年生产级训练中的角色定位与组合范式。

    2026年6月22日·
    AI 原生架构
  • 合成数据训练与模型坍缩的相变理论 2026

    合成数据训练与模型坍缩的相变理论 2026

    用统计力学和随机矩阵理论重新审视 model collapse:本文给出 2026 年关于递归合成数据训练的可量化边界,给出 n_c、rho、sigma_min* 三个可测量量。

    2026年6月22日·
    大模型研究
  • AI 文档协作工具横评 2026:从 NotebookLM 到 Notion AI Q&A 到 Mem X 的知识管理决策框架

    AI 文档协作工具横评 2026:从 NotebookLM 到 Notion AI Q&A 到 Mem X 的知识管理决策框架

    用同一份 30 页研究 PDF 作为输入,横向评测 NotebookLM 2.5、Notion AI Q&A 3.0、Mem X、Readwise Reader 3 与 Reflect 4 五款主流 AI 文档协作工具,从召回质量 / 多文档合成 / 来源可追溯 / 隐私边界 / 协作能力五个维度量化差异,给出按使用场景划分的选型决策树。

    2026年6月22日·
    AI 工具与产品
  • AI 辅助代码评审工程化 2026:从 PR 自动化、规则化评审到安全漏洞检测的工程闭环

    AI 辅助代码评审工程化 2026:从 PR 自动化、规则化评审到安全漏洞检测的工程闭环

    当 AI 代码评审从自动补全的副产品走向生产级协作基础设施,它必须解决三个核心工程问题——如何在评审延迟与人审介入之间取得平衡、如何把团队隐性经验沉淀为可复用规则、如何与 SAST/SCA 等安全工具协同而不产生噪声洪流。

    2026年6月22日·
    AI 编程
  • 基础模型竞速 2.0:2026 H2 资本、人才与算力的三重再分配前瞻

    基础模型竞速 2.0:2026 H2 资本、人才与算力的三重再分配前瞻

    从训练独大到推理 + 垂直 + 安全复合竞争,2026 H2 全球基础模型赛道的资本、人才与算力三重再分配前瞻。本文用复合效用模型与算力分配优先级公式拆解结构性转折,并对分层加速、开源复兴、地缘软固化三条路径给出可证伪推演。

    2026年6月21日·
    AI 行业趋势
  • 多 LoRA 推理服务工程实战 2026:从 S-LoRA、LoRA Hot-Swap 到生产级 PEFT 多租户调度的真相

    多 LoRA 推理服务工程实战 2026:从 S-LoRA、LoRA Hot-Swap 到生产级 PEFT 多租户调度的真相

    S-LoRA 的 Paged-Adapter、Punica 的多租户 kernel、SGLang 的 RadixAttention-LoRA 演进,把“adapter 即服务”从理论推到生产,但每条路径都有 5-7 个真实工程陷阱——本文逐条拆解。

    2026年6月21日·
    AI 原生架构
  • LLM 的归纳偏置与组合泛化:Transformer 是否真正具备系统性能力

    LLM 的归纳偏置与组合泛化:Transformer 是否真正具备系统性能力

    从 Chomsky 的系统性原则出发,结合 SCAN、COGS 等结构化基准的近期实证,重新审视 Transformer 是否真正具备结构性归纳偏置,并提出面向组合泛化的架构诊断框架。

    2026年6月21日·
    大模型研究
上一页1 / 9
下一页