2026/5/16

Week in May 16, 2026

这周听了张小珺对 Gemini 团队成员姚顺宇的访谈。嘉宾很真诚,整个访谈内容质量也很高,以至于后来几天我在很多地方都看到了关于这期博客的讨论。

下面是我印象比较深刻的部分。

播客

编程 Agent 场景爆发的原因

  • 反馈信号清晰且易于验证:软件工程任务通常有明确的输入输出预期。代码跑通与否、测试是否通过,能够为模型提供非常明确且容易量化的反馈信号(Reward Signal)。
  • 拥有高质量数据基础:GitHub 等平台积累了过去几十年优秀程序员写下的大量优质代码,这为模型构建虚拟环境和获取训练数据提供了极佳的来源。
  • 需求高度统一与标准化:优秀代码的标准大体是一致的(如结构清晰、抽象合理、代码干净),这使得 coding 产品的需求更为纯粹,产品迭代和打磨变得更简单。
  • 极佳的“工具使用”抽象与研究飞轮效应:代码场景不仅是模型与环境交互、使用工具的绝佳抽样体现,同时,提升模型的代码能力也能极大地加速 AI 研究员自身的代码和实验效率,从而形成加速 AI 研发进程的飞轮。

程序员的未来价值与挑战

  • 极强的技术硬实力:如果自身技术不够强,将没有任何理由不被 AI 取代,技术硬实力将成为留存的绝对前提。
  • 强大的项目拆解与规划能力:能够将极其复杂的大型系统任务,拆解为众多相对较小的模块,并交由不同的 AI Agent 或人员去执行。
  • 组织协同与宏观认知:必须能够理解自身负责的这部分工作在一个大型组织或公司发展大盘中是如何契合的。
  • 人机协作与顶层架构设计能力:需要懂得如何与 AI 有效协作,指导 AI 进行符合公司长期发展的方案设计,这些宏观维度的理解目前是模型难以独立完成的。

AI 能力边界与局限

  • 擅长理性客观,难以应对无标准的主观任务: 一个反直觉的现象是,人类认为最具智力挑战的理性、客观工作(如数学计算、写代码、物理研究),AI 反而最容易做好,因为这些任务的评价标准清晰,容易训练。相反,像“做一个好的产品经理”这种缺乏明确评价标准刻度和反馈信号的工作,目前还很难训练 AI 去完成。
  • 尚未形成完整的全自动研发闭环: 目前 AI 还不能真正实现从头到尾的独立闭环研发工作。例如,它还无法自主完成“写代码、跑实验、分析实验结果、找出错误原因、提出新假设、再跑新实验”的完整链条。
  • 物理世界泛化能力的缺失: 在机器人和物理世界交互等领域,AI 尚未迎来类似大语言模型的“泛化时刻”。机器人的训练目前仍处于“特征工程(Feature Engineering)”时代,只能针对单一给定的场景进行强化学习优化,缺乏水平提升所有能力并泛化到其他未见场景的通用性。
  • 无限长上下文处理的架构局限: 虽然现在的模型上下文窗口越来越长,但真正理想的 AI 应该像人类一样,拥有极其有限的短期记忆,但能够选择性遗忘并随时检索提取相关信息,从而实现“用有限上下文完成无限上下文工作”。这套技术机制目前在业界尚未完全找到最有效的最终方案。

文章