close

DEV Community

cognitalk
cognitalk

Posted on

《播客AI & I》对话数据标注和评估公司 Surge AI 的创始人兼 CEO Edwin Chen


https://www.youtube.com/watch?v=omX6wrLuX08
这段视频是播客节目《AI & I》的一期访谈,主持人 Dan Shipper 对话了数据标注和评估公司 Surge AI 的创始人兼 CEO Edwin Chen

Surge AI 是一家通过提供专家数据和环境来“抚养” AGI 的“隐形巨头”,据主持人透露其营收已达 10 亿美元且未进行过风险投资。在这场约 44 分钟的对话中,他们深入探讨了 AI 的最新进展、数据在模型训练中的核心角色,以及 AI 给人类带来的生存哲学思考。

以下是访谈的核心内容整理:


1. 模型发展与“研究级”数学的突破

  • 像办学校一样培养 AI: Edwin 将 Surge AI 的工作比作“AGI 的学校” 01:50。一年前他们主要测试模型解决中学生数学(如其参与创建的 GSM 8K 基准)或数学竞赛(IMO)的能力,而现在训练的维度已经大幅提升。
  • 攻克未解之谜: 他们推出了针对科研级数学的基准 Remon bench 03:51。Edwin 提到不久前 OpenAI 的模型利用新颖的代数几何技术,成功证伪了数学家保罗·埃尔德什(Paul Erdős)提出的一个公开猜想 04:07。菲尔兹奖得主 Timothy Gowers 甚至对此表达了“既震撼又松了一口气”的复杂心情 06:23

2. AI 公司的“指标陷阱”与人类 FLOURISHING(蓬勃发展)

  • 反对“成瘾性设计”: Edwin 尖锐地指出,许多 AI 实验室和产品当前在盲目模仿社交媒体的逻辑——优化用户停留时间(Session Length)和互动率 15:56。为了迎合类似 LMSYS Chatbot Arena 这类只有几秒钟权衡的投票机制,模型正在学会“奖励作弊(Reward Hack)” 22:21,例如故意使用极其华丽、充满套路的密集的隐喻来写文章(他们为此推出了 Hemingway bench 写作基准来测试这一现象) 39:51
  • 提倡“主动拒绝”与授权: Edwin 认为真正对人类有益的 AI 应该优化“人类的成长”。例如在用户反复纠结修改一封无关紧要的邮件 20 次时,AI 应该主动“推回”(Push back)并对用户说:“别改了,这就挺好,快发出去做更有意义的事吧。” 15:26

3. 数据与高阶 RL 环境的演变

  • 强化学习环境(RL Environments): 当前最前沿的训练不再只是喂干瘪的数据集,而是将模型放入包含各种工具(如 MCP 服务器、Google Drive API、Slack API)和几十个复杂文档的综合环境里 30:55。模型需要像真人一样,在被赋予一个模糊任务后(例如“去更新 2026 年的收入预测”),自己去翻看 PDF、判断 Slack 聊天记录里的哪些修正信息覆盖了旧数据 31:18
  • 深度个性化(Deep Personalization)的价值: 在谈到个人数据的价值时,Edwin 提到目前模型的个性化做得很糟(容易过度索引用户偶然提到的一句话) 36:21。未来真正有价值的是能全方位理解你行为上下文的互联数据网络(你的邮件、Slack、照片、浏览器交互历史等),从而学习你的写作风格和决策逻辑 38:49

4. 存在主义危机与 AGI 时间线

  • 对人类未来的担忧: 作为一个从小想成为纯数学家的人,Edwin 承认如果“缩放定律”(Scaling Laws)持续生效(他也坚信这点),未来几乎没有什么事情是人类能做而 AI 做不好的 07:33。这可能导致人类陷入某种无能为力的瘫痪状态。
  • “假装有自由意志”: 他引用了科幻作家姜峯楠(Ted Chiang)的小说《天意》(What's Expected of Us08:46,呼吁人类在未来必须“有意识地选择”自己去证明、去写作、去创造,即便 AI 的产出更优化,也要去坚守和保护“人类自身的价值” 09:16
  • AGI 预测: 如果将 AGI 定义为“能够自动化普通工程师的工作、在顶级期刊发表颠覆性科研成果,或有能力赢得菲尔兹奖/诺贝尔奖”,Edwin 认为未来 5 年内就会实现 42:08

如果你想了解技术细节(特别是关于数学和 RL 环境的部分),可以直接拖动到视频对应的时间戳观看。

Top comments (0)