博客
文章系列日历
归档关于搜索

鄂ICP备19019526号

© 2026 博客

标签

  • 全部
  • AI 日报(36)
  • AI 编程(34)
  • Hermes Agent(13)
  • AI 工具与产品(14)
  • AI 原生架构(21)
  • 大模型研究(18)
  • 杂项(1)
  • AI 行业趋势(6)
  • 行业研究(0)
  1. 文章
  • AI 劳动力冲击的第三条路径 2026:Botsitting、工时分层与 PwC 双路径模型的实证真相

    AI 劳动力冲击的第三条路径 2026:Botsitting、工时分层与 PwC 双路径模型的实证真相

    PwC 2026 AI Jobs Barometer 揭示工资增长在 AI 高/低暴露职业之间裂出 2-4 倍差距,Business Insider 6 月调查发现的「每周 6 小时 botsitting」揭示了隐性维护路径。本文用三路径动力学模型刻画 2026 H2 - 2027 H1 的结构性趋势。

    2026年6月20日·
    AI 行业趋势
  • Prefill-Decode 分离架构 2026:从 DistServe、MoE-Centric 到生产级推理调度的工程真相

    Prefill-Decode 分离架构 2026:从 DistServe、MoE-Centric 到生产级推理调度的工程真相

    当 8 卡 H100 跑 Llama-3-70B 的单请求端到端 TTFT 已经被压到 80ms 时,2026 年生产级 LLM 推理几乎集体掉头——把 Prefill 和 Decode 拆到不同 GPU 池。这是从 vLLM 0.4 统一调度范式推倒重来的工程革命,收益是 P99 尾延迟降 15-30×,代价是 KV cache 跨卡传输与动态调度的工程复杂度。

    2026年6月20日·
    AI 原生架构
  • Grokking 与大模型训练的相变理论:当泛化能力在损失饱和之后突然涌现

    Grokking 与大模型训练的相变理论:当泛化能力在损失饱和之后突然涌现

    本文重新审视 Grokking 现象在大模型训练语境下的理论意涵——损失函数在长时间饱和之后突然出现的泛化跃迁,并非“训练巧合”,而是损失景观中高维相变的宏观投影。理解这一相变结构,将重塑我们对涌现能力、缩放定律与训练策略的工程直觉。

    2026年6月20日·
    大模型研究
  • LLM 应用框架横评 2026:从 LangChain 到 DSPy 的五大主流工具工程决策框架

    LLM 应用框架横评 2026:从 LangChain 到 DSPy 的五大主流工具工程决策框架

    横评 LangChain/LlamaIndex/DSPy/Haystack/Semantic Kernel 的代际坐标、5 维评分、工程决策树与 12 条落地清单,附 4 个 H1 事故复盘。

    2026年6月20日·
    AI 工具与产品
  • Prompt 工程化 2026:从版本管理、A/B 测试到 CI 集成的工程闭环

    Prompt 工程化 2026:从版本管理、A/B 测试到 CI 集成的工程闭环

    2026 年的 AI 编程已经从「模型当黑盒调用」迈入「Prompt 当代码资产」的阶段。本文从版本管理、CI 集成、A/B 测试、回归评估、回滚 SOP 五个维度,系统性拆解如何把 prompt 写得像代码一样可审计、可回滚、可灰度,并附 16 条生产环境落地 checklist 与 4 类典型事故复盘。

    2026年6月20日·
    AI 编程
  • LLM 量化工程实战 2026:GPTQ、AWQ、SmoothQuant、FP8、GGUF 五条路径的精度-性能-工程化决策

    LLM 量化工程实战 2026:GPTQ、AWQ、SmoothQuant、FP8、GGUF 五条路径的精度-性能-工程化决策

    2026 年 LLM 推理栈中,量化从“可选项”升级为“一等公民”。本文从工程视角系统梳理 GPTQ、AWQ、SmoothQuant、FP8、GGUF 五条主流路径,给出精度-性能-工程化三角的可落地决策树与 16 条部署 checklist。

    2026年6月19日·
    AI 原生架构
  • 潜空间推理的几何学 2026:从 Coconut 到 CODI 的连续思维链如何重塑推理理论

    潜空间推理的几何学 2026:从 Coconut 到 CODI 的连续思维链如何重塑推理理论

    当显式 CoT 撞上 token 化的表达瓶颈,潜空间连续推理正成为 2026 年推理理论的新前沿。本文以 Coconut (ICLR 2025) 与 CODI (2026-01) 为轴,剖析连续思维链如何通过 hidden state 传递替代 token 生成,揭示其在隐空间几何、训练动力学、可解释性三个层面的理论重塑,并给出离散 vs 连续 CoT 的工程选型决策树。

    2026年6月19日·
    大模型研究
  • 【AI 日报】2026年06月19日 AI 行业最新动态

    【AI 日报】2026年06月19日 AI 行业最新动态

    今日 8 条重点:1)Meta 内部因 AI 推进节奏爆发员工抗议;2)Gallup:企业 AI 抵制者被裁概率是拥抱者的 3 倍;3)Meta WhatsApp Business AI Agent 全球上线;4)美国监管机构推动 AI 数据中心加速并网;5)Meter Pricing 模式冲击传统按席位软件计费;6)AI 可观测性赛道出现新抽象层;7)AI 治理不该是工具调用;8)MedHELM 推出日常临床 AI 评测基准。

    2026年6月19日·
    AI 日报
  • 主流大模型 API 横评 2026:从 GPT-4o 到 DeepSeek 的五大维度决策框架

    主流大模型 API 横评 2026:从 GPT-4o 到 DeepSeek 的五大维度决策框架

    用价格、延迟、上下文、工具调用、Vision 五大维度对 GPT-4o、Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3、Qwen3-Max 做工程化横评,给出可直接套用的选型决策树与 12 条生产环境落地清单。

    2026年6月19日·
    AI 工具与产品
  • AI 编程的可观测性 2026:从生成代码的回滚、trace 到事故复盘的工程闭环

    AI 编程的可观测性 2026:从生成代码的回滚、trace 到事故复盘的工程闭环

    当 AI 生成 800 行代码、自动合并、跑过 CI、进了主干——生产告警后你怎么定位是哪段 prompt 的产物?本文拆解 AI 编程可观测性的三层工程栈:生成层的 lineage 注入、合并层的 acceptance ratio 与 test pass rate 看板、运行层的 OpenTelemetry GenAI 语义约定穿透,以及 lineage-aware revert 与 postmortem 模板的回滚闭环。

    2026年6月19日·
    AI 编程
  • AI 监管的地缘三重奏 2026:欧盟 AI Act、美国算力出口管制与中国备案制的范式分化

    AI 监管的地缘三重奏 2026:欧盟 AI Act、美国算力出口管制与中国备案制的范式分化

    当欧盟用“风险分级 + GPAI 透明度”重塑 AI 合规、美国用 HBM 出口管制把算力武器化、中国用“备案三件套”把模型上线变成“准生证”流程——2026 三大监管体系的交叉地带正在重新定义 AI 公司的全球扩张成本函数。

    2026年6月18日·
    AI 行业趋势
  • Speculative Decoding 工程实战 2026:从 Medusa 到 EAGLE-3 的生产级投机采样

    Speculative Decoding 工程实战 2026:从 Medusa 到 EAGLE-3 的生产级投机采样

    投机解码在大模型推理中已经从研究原型跃迁为生产级标配,2026 年我们见证了 Medusa、EAGLE-3 与 n-gram 三大路线的工程化大爆发,吞吐 2-3 倍提升背后是 draft model 选择、verification 树管理、显存压力与 acceptance rate 调优的精密博弈。

    2026年6月18日·
    AI 原生架构
  • 优化器的几何学:2026 年大模型训练的 Lion-2、Muon 与 Shampoo 复兴

    优化器的几何学:2026 年大模型训练的 Lion-2、Muon 与 Shampoo 复兴

    当 LLM 训练规模突破万亿 token,AdamW 不再是默认答案——本文从损失景观几何学出发,分析 Lion-2、Muon、Soap、Shampoo 四大优化器家族在 2026 年 LLM 训练中如何超越 AdamW,节省 10-35% 训练 token。

    2026年6月18日·
    大模型研究
  • Agent 框架横评 2026:从 LangGraph 到 Swarm 的六款主流工具决策框架

    Agent 框架横评 2026:从 LangGraph 到 Swarm 的六款主流工具决策框架

    2026 年 Agent 框架市场进入分化淘汰——六款主流框架(LangGraph / CrewAI / AutoGen / Swarm / LlamaIndex / DSPy)合计 25 万+ Star,但生产可用性极端分化。本文用 2026-06-17 实时 GitHub 数据 + 四维决策框架(控制流 / 状态管理 / 可观测性 / 学习曲线)+ 三大范式对决(图状态机 / 角色扮演 / 声明式编程)+ 六框架生产踩坑实录,帮 AI 研究者和高级工程师 5 分钟完成选型。

    2026年6月18日·
    AI 工具与产品
  • AI 编程的上下文税 2026:从 Prompt 缓存到工具调用的成本工程真相

    AI 编程的上下文税 2026:从 Prompt 缓存到工具调用的成本工程真相

    2026 年 AI 编程 IDE 的 token 战争已从模型层下沉到上下文层 —— 单次补全的仓库上下文 + 工具结果 + 对话历史占总开销 70%+。本文通过真实生产数据拆解 prompt 缓存架构、四类上下文压缩策略、工具调用的预算分配,给出 75% 成本降幅的工程清单。

    2026年6月18日·
    AI 编程
  • [【AI 日报】2026年06月18日 AI 行业最新动态]

    [【AI 日报】2026年06月18日 AI 行业最新动态]

    [今日 9 条重点:1)美国暂缓 DeepSeek 黑名单;2)G7 峰会首议 AI 主权;3)Odyssey 3.1 亿拉动世界模型;4)Google 发布 Agentic Resource Discovery 规范;5)Strands 推出受限 Shell;6)LLM 评测却是“答别人的题”;7)本地 Qwen 与云端 Opus 选型之争;8)脑机接口瘫痪患者意念控电脑。]

    2026年6月18日·
    AI 日报
  • 2026 行业 AI 落地的真实采用率:医疗、法律、金融三大垂类的范式分化与失败模式

    2026 行业 AI 落地的真实采用率:医疗、法律、金融三大垂类的范式分化与失败模式

    2026 年医疗、法律、金融三大行业 AI 落地已度过概念验证阶段,但真实生产部署率远低于媒体叙事:医疗卡在临床验证和监管闭环、法律卡在幻觉责任和律所变革阻力、金融卡在合规审计和模型可解释性;只有 workflow-level copilot 是真正走通的范式。

    2026年6月17日·
    AI 行业趋势
  • Continuous Batching 与 Chunked Prefill 工程真相:从 vLLM 0.4 到 0.7 调度器的演进

    Continuous Batching 与 Chunked Prefill 工程真相:从 vLLM 0.4 到 0.7 调度器的演进

    vLLM 0.4 → 0.7 的调度器演进揭示了一个反直觉的事实:LLM 推理的瓶颈早已不在模型本身,而在调度器怎么把不同长度、不同生命周期的请求塞进同一个 GPU kernel。本文拆解 continuous batching 与 chunked prefill 两次决定性重构,以及 2026 年 disaggregation 的下一步。

    2026年6月17日·
    AI 原生架构
  • 稀疏注意力的第二次复兴:2026 年 Native Sparse Attention 与混合稀疏架构的理论重塑

    稀疏注意力的第二次复兴:2026 年 Native Sparse Attention 与混合稀疏架构的理论重塑

    从 $O(n^2)$ 全注意力的算法下界出发,分析 DeepSeek NSA 的“压缩-选择-滑动”三阶段架构为何能达到 $O(n log n)$ 复杂度和接近全注意力的检索精度,梳理 2026 年稀疏注意力四大方案的版图与三个未解的开放问题。

    2026年6月17日·
    大模型研究
  • 2026 本地 LLM 推理与服务框架横评:从 llama.cpp 到 vLLM 的六款主流工具实战决策框架

    2026 本地 LLM 推理与服务框架横评:从 llama.cpp 到 vLLM 的六款主流工具实战决策框架

    当一个团队决定把大模型从云端 API 转向自托管推理时,第一个选择是推理框架。本文用 2026 年 6 月 17 日实时数据,对 vLLM / llama.cpp / TGI / FastChat / MLC-LLM / text-generation-webui 六款主流框架做横评,含量化格式阶梯、显存分配、TTFT/TPS 实测对比、选型决策树与生产部署组合模式。

    2026年6月17日·
    AI 工具与产品
上一页1 / 8
下一页