close

DEV Community

cognitalk
cognitalk

Posted on

Sakana AI 最新推出的多智能体编排系统 Sakana Fugu


http://www.youtube.com/watch?v=FwA1bcpSGiM
这视频详细介绍了 Sakana AI 最新推出的多智能体编排系统 Sakana Fugu(包含基础版 Fugu 和最强版 Fugu Ultra) 01:24

以下是视频内容的详细总结:

核心概念:Sakana Fugu 是什么?

  • 多智能体编排系统:Fugu 并不是一个单一的基础大模型,而是一个经过训练、专门用来调用和协调其他大模型(包括它自己)的系统 00:36
  • 单一 API 接入:对用户或开发者来说,它就像一个普通大模型一样只有一个 API 接口。它会在后台自动进行模型选择、任务分配、结果验证和最终合成 00:52
  • 避开出口管制:视频提到 Fugu 具备一种“主权 AI”的优势。如果某个模型因为出口管制或服务不可用而无法调用,Fugu 会自动重路由,寻找其他可用模型来替代完成任务 02:28

Fugu 的两个版本 01:24

  1. Fugu:平衡了性能与低延迟,适合日常工作(如代码审查、日常对话或交互式服务) 01:30
  2. Fugu Ultra:针对需要多步骤解决的复杂高难度问题进行了优化,会调用更深层的专家智能体池,追求最高的准确性和深度(适用于 AI 研究、网络安全分析、专利调查等) 01:49

基准测试(Benchmarks)表现 02:38

视频展示了 Fugu 在多个测试中击败了 Claude Fable 5、Gemini 3.1 Pro、GPT-5.5 以及 Claude 4.8 Opus:

  • LiveCodeBench(动态代码测试):Fugu 和 Fugu Ultra 表现抢眼,大幅超越了 Fable 5 和 GPT-5.5 02:42, 03:06
  • GPQA / Charive Reasoning(科学图表与推理):Fugu Ultra 同样名列前茅,展示了极强的科学推理能力 03:21, 03:34
  • SWE-bench Pro(真实软件工程测试):这是唯一一个 Fugu 没能击败 Fable 5 的测试。因为 Fable 5 专门为长期、远期的智能体任务而设计,而 Fugu Ultra 的设计初衷是在单次复杂的任务中拿到最高分 03:53, 04:42

5 大核心应用案例(Use Cases)

视频重点列举了 Fugu Ultra 在具体任务中的惊人表现 05:22

  1. 自主机器学习研究:让 Fugu Ultra 连续运行 14 个小时去优化另一个小 GPT 模型的训练代码,它自主进行了 100 多次实验,不断调整批次大小、模型深度和学习率,最终效果超越了其他匿名大模型 05:28
  2. 金融时间序列预测(炒股):在没有未来视角的情况下,给它 1 万美元初始资金处理 50 周的某股票历史数据(成交量、移动平均线等),Fugu Ultra 最终实现了 20% 的收益率(11,943 美元),而其他顶级模型普遍低于 15% 06:14
  3. 盲棋(Blindfold Chess):不给看棋盘,纯靠内存记录整局棋的状况。Fugu Ultra 连玩 4 把,且对手包含 2100 ELO 的 Stockfish 引擎。其他模型玩着玩着就记错棋盘状态了,而 Fugu 保持了绝对精准,全以将军(Checkmate)获胜 07:07
  4. 从零编写魔方解法(Rubik's Cube Solver):仅用一句提示词在纯 Python 下写出解魔方的代码。Fugu Ultra 编写的代码成功运行并解开了全部 300 个打乱的魔方,而另外两个大模型写出的代码在执行时直接崩溃了 07:39
  5. 机械光圈 CAD 设计:设计一个类似相机光圈、多叶片联动的精确机械结构。Fugu Ultra 能够生成完全符合物理逻辑、闭合完好的设计;而其他模型的设计普遍存在缝隙、连接脆弱或无法完全闭合的问题 08:15

如何使用与注意事项

  • 访问地址:可在 sakana.ai 网站上使用(但由于数据隐私法案,英国和欧盟用户需要使用 VPN 才能访问) 08:59
  • 使用形式:它不是普通的聊天机器人(Chatbot),需要创建 API Key,通过代码调用 09:15
  • 计费与消耗:提供订阅制或按量付费(Pay-as-you-go)。目前有“买一个月送一个月”的促销,但因为它的底层是调用大量模型,Token 消耗(Usage)速度非常快,钱包烧起来会很快 09:25, 09:38

Top comments (0)