http://www.youtube.com/watch?v=FwA1bcpSGiM
这视频详细介绍了 Sakana AI 最新推出的多智能体编排系统 Sakana Fugu(包含基础版 Fugu 和最强版 Fugu Ultra) 01:24。
以下是视频内容的详细总结:
核心概念:Sakana Fugu 是什么?
- 多智能体编排系统:Fugu 并不是一个单一的基础大模型,而是一个经过训练、专门用来调用和协调其他大模型(包括它自己)的系统 00:36。
- 单一 API 接入:对用户或开发者来说,它就像一个普通大模型一样只有一个 API 接口。它会在后台自动进行模型选择、任务分配、结果验证和最终合成 00:52。
- 避开出口管制:视频提到 Fugu 具备一种“主权 AI”的优势。如果某个模型因为出口管制或服务不可用而无法调用,Fugu 会自动重路由,寻找其他可用模型来替代完成任务 02:28。
Fugu 的两个版本 01:24
- Fugu:平衡了性能与低延迟,适合日常工作(如代码审查、日常对话或交互式服务) 01:30。
- Fugu Ultra:针对需要多步骤解决的复杂高难度问题进行了优化,会调用更深层的专家智能体池,追求最高的准确性和深度(适用于 AI 研究、网络安全分析、专利调查等) 01:49。
基准测试(Benchmarks)表现 02:38
视频展示了 Fugu 在多个测试中击败了 Claude Fable 5、Gemini 3.1 Pro、GPT-5.5 以及 Claude 4.8 Opus:
- LiveCodeBench(动态代码测试):Fugu 和 Fugu Ultra 表现抢眼,大幅超越了 Fable 5 和 GPT-5.5 02:42, 03:06。
- GPQA / Charive Reasoning(科学图表与推理):Fugu Ultra 同样名列前茅,展示了极强的科学推理能力 03:21, 03:34。
- SWE-bench Pro(真实软件工程测试):这是唯一一个 Fugu 没能击败 Fable 5 的测试。因为 Fable 5 专门为长期、远期的智能体任务而设计,而 Fugu Ultra 的设计初衷是在单次复杂的任务中拿到最高分 03:53, 04:42。
5 大核心应用案例(Use Cases)
视频重点列举了 Fugu Ultra 在具体任务中的惊人表现 05:22:
- 自主机器学习研究:让 Fugu Ultra 连续运行 14 个小时去优化另一个小 GPT 模型的训练代码,它自主进行了 100 多次实验,不断调整批次大小、模型深度和学习率,最终效果超越了其他匿名大模型 05:28。
- 金融时间序列预测(炒股):在没有未来视角的情况下,给它 1 万美元初始资金处理 50 周的某股票历史数据(成交量、移动平均线等),Fugu Ultra 最终实现了 20% 的收益率(11,943 美元),而其他顶级模型普遍低于 15% 06:14。
- 盲棋(Blindfold Chess):不给看棋盘,纯靠内存记录整局棋的状况。Fugu Ultra 连玩 4 把,且对手包含 2100 ELO 的 Stockfish 引擎。其他模型玩着玩着就记错棋盘状态了,而 Fugu 保持了绝对精准,全以将军(Checkmate)获胜 07:07。
- 从零编写魔方解法(Rubik's Cube Solver):仅用一句提示词在纯 Python 下写出解魔方的代码。Fugu Ultra 编写的代码成功运行并解开了全部 300 个打乱的魔方,而另外两个大模型写出的代码在执行时直接崩溃了 07:39。
- 机械光圈 CAD 设计:设计一个类似相机光圈、多叶片联动的精确机械结构。Fugu Ultra 能够生成完全符合物理逻辑、闭合完好的设计;而其他模型的设计普遍存在缝隙、连接脆弱或无法完全闭合的问题 08:15。
Top comments (0)