Skip to content

DEV Community

cognitalk

Posted on Jun 25

《播客AI & I》对话数据标注和评估公司 Surge AI 的创始人兼 CEO Edwin Chen

https://www.youtube.com/watch?v=omX6wrLuX08
这段视频是播客节目《AI & I》的一期访谈，主持人 Dan Shipper 对话了数据标注和评估公司 Surge AI 的创始人兼 CEO Edwin Chen。

Surge AI 是一家通过提供专家数据和环境来“抚养” AGI 的“隐形巨头”，据主持人透露其营收已达 10 亿美元且未进行过风险投资。在这场约 44 分钟的对话中，他们深入探讨了 AI 的最新进展、数据在模型训练中的核心角色，以及 AI 给人类带来的生存哲学思考。

以下是访谈的核心内容整理：

1. 模型发展与“研究级”数学的突破

像办学校一样培养 AI： Edwin 将 Surge AI 的工作比作“AGI 的学校” 01:50。一年前他们主要测试模型解决中学生数学（如其参与创建的 GSM 8K 基准）或数学竞赛（IMO）的能力，而现在训练的维度已经大幅提升。
攻克未解之谜： 他们推出了针对科研级数学的基准 Remon bench 03:51。Edwin 提到不久前 OpenAI 的模型利用新颖的代数几何技术，成功证伪了数学家保罗·埃尔德什（Paul Erdős）提出的一个公开猜想 04:07。菲尔兹奖得主 Timothy Gowers 甚至对此表达了“既震撼又松了一口气”的复杂心情 06:23。

2. AI 公司的“指标陷阱”与人类 FLOURISHING（蓬勃发展）

反对“成瘾性设计”： Edwin 尖锐地指出，许多 AI 实验室和产品当前在盲目模仿社交媒体的逻辑——优化用户停留时间（Session Length）和互动率 15:56。为了迎合类似 LMSYS Chatbot Arena 这类只有几秒钟权衡的投票机制，模型正在学会“奖励作弊（Reward Hack）” 22:21，例如故意使用极其华丽、充满套路的密集的隐喻来写文章（他们为此推出了 Hemingway bench 写作基准来测试这一现象） 39:51。
提倡“主动拒绝”与授权： Edwin 认为真正对人类有益的 AI 应该优化“人类的成长”。例如在用户反复纠结修改一封无关紧要的邮件 20 次时，AI 应该主动“推回”（Push back）并对用户说：“别改了，这就挺好，快发出去做更有意义的事吧。” 15:26

3. 数据与高阶 RL 环境的演变

强化学习环境（RL Environments）： 当前最前沿的训练不再只是喂干瘪的数据集，而是将模型放入包含各种工具（如 MCP 服务器、Google Drive API、Slack API）和几十个复杂文档的综合环境里 30:55。模型需要像真人一样，在被赋予一个模糊任务后（例如“去更新 2026 年的收入预测”），自己去翻看 PDF、判断 Slack 聊天记录里的哪些修正信息覆盖了旧数据 31:18。
深度个性化（Deep Personalization）的价值： 在谈到个人数据的价值时，Edwin 提到目前模型的个性化做得很糟（容易过度索引用户偶然提到的一句话） 36:21。未来真正有价值的是能全方位理解你行为上下文的互联数据网络（你的邮件、Slack、照片、浏览器交互历史等），从而学习你的写作风格和决策逻辑 38:49。

4. 存在主义危机与 AGI 时间线

对人类未来的担忧： 作为一个从小想成为纯数学家的人，Edwin 承认如果“缩放定律”（Scaling Laws）持续生效（他也坚信这点），未来几乎没有什么事情是人类能做而 AI 做不好的 07:33。这可能导致人类陷入某种无能为力的瘫痪状态。
“假装有自由意志”： 他引用了科幻作家姜峯楠（Ted Chiang）的小说《天意》（What's Expected of Us） 08:46，呼吁人类在未来必须“有意识地选择”自己去证明、去写作、去创造，即便 AI 的产出更优化，也要去坚守和保护“人类自身的价值” 09:16。
AGI 预测： 如果将 AGI 定义为“能够自动化普通工程师的工作、在顶级期刊发表颠覆性科研成果，或有能力赢得菲尔兹奖/诺贝尔奖”，Edwin 认为未来 5 年内就会实现 42:08。

如果你想了解技术细节（特别是关于数学和 RL 环境的部分），可以直接拖动到视频对应的时间戳观看。

Top comments (0)

Subscribe