Sakana AI 最新推出的多智能体编排系统 Sakana Fugu

http://www.youtube.com/watch?v=FwA1bcpSGiM
这视频详细介绍了 Sakana AI 最新推出的多智能体编排系统 Sakana Fugu（包含基础版 Fugu 和最强版 Fugu Ultra） 01:24。

以下是视频内容的详细总结：

多智能体编排系统：Fugu 并不是一个单一的基础大模型，而是一个经过训练、专门用来调用和协调其他大模型（包括它自己）的系统 00:36。
单一 API 接入：对用户或开发者来说，它就像一个普通大模型一样只有一个 API 接口。它会在后台自动进行模型选择、任务分配、结果验证和最终合成 00:52。
避开出口管制：视频提到 Fugu 具备一种“主权 AI”的优势。如果某个模型因为出口管制或服务不可用而无法调用，Fugu 会自动重路由，寻找其他可用模型来替代完成任务 02:28。

Fugu：平衡了性能与低延迟，适合日常工作（如代码审查、日常对话或交互式服务） 01:30。
Fugu Ultra：针对需要多步骤解决的复杂高难度问题进行了优化，会调用更深层的专家智能体池，追求最高的准确性和深度（适用于 AI 研究、网络安全分析、专利调查等） 01:49。

视频展示了 Fugu 在多个测试中击败了 Claude Fable 5、Gemini 3.1 Pro、GPT-5.5 以及 Claude 4.8 Opus：

LiveCodeBench（动态代码测试）：Fugu 和 Fugu Ultra 表现抢眼，大幅超越了 Fable 5 和 GPT-5.5 02:42, 03:06。
GPQA / Charive Reasoning（科学图表与推理）：Fugu Ultra 同样名列前茅，展示了极强的科学推理能力 03:21, 03:34。
SWE-bench Pro（真实软件工程测试）：这是唯一一个 Fugu 没能击败 Fable 5 的测试。因为 Fable 5 专门为长期、远期的智能体任务而设计，而 Fugu Ultra 的设计初衷是在单次复杂的任务中拿到最高分 03:53, 04:42。

视频重点列举了 Fugu Ultra 在具体任务中的惊人表现 05:22：

自主机器学习研究：让 Fugu Ultra 连续运行 14 个小时去优化另一个小 GPT 模型的训练代码，它自主进行了 100 多次实验，不断调整批次大小、模型深度和学习率，最终效果超越了其他匿名大模型 05:28。
金融时间序列预测（炒股）：在没有未来视角的情况下，给它 1 万美元初始资金处理 50 周的某股票历史数据（成交量、移动平均线等），Fugu Ultra 最终实现了 20% 的收益率（11,943 美元），而其他顶级模型普遍低于 15% 06:14。
盲棋（Blindfold Chess）：不给看棋盘，纯靠内存记录整局棋的状况。Fugu Ultra 连玩 4 把，且对手包含 2100 ELO 的 Stockfish 引擎。其他模型玩着玩着就记错棋盘状态了，而 Fugu 保持了绝对精准，全以将军（Checkmate）获胜 07:07。
从零编写魔方解法（Rubik's Cube Solver）：仅用一句提示词在纯 Python 下写出解魔方的代码。Fugu Ultra 编写的代码成功运行并解开了全部 300 个打乱的魔方，而另外两个大模型写出的代码在执行时直接崩溃了 07:39。
机械光圈 CAD 设计：设计一个类似相机光圈、多叶片联动的精确机械结构。Fugu Ultra 能够生成完全符合物理逻辑、闭合完好的设计；而其他模型的设计普遍存在缝隙、连接脆弱或无法完全闭合的问题 08:15。

访问地址：可在 sakana.ai 网站上使用（但由于数据隐私法案，英国和欧盟用户需要使用 VPN 才能访问） 08:59。
使用形式：它不是普通的聊天机器人（Chatbot），需要创建 API Key，通过代码调用 09:15。
计费与消耗：提供订阅制或按量付费（Pay-as-you-go）。目前有“买一个月送一个月”的促销，但因为它的底层是调用大量模型，Token 消耗（Usage）速度非常快，钱包烧起来会很快 09:25, 09:38。

DEV Community