深夜王炸！OpenAI发布ChatGPT Agent，但Sam Altman的尴尬“翻车”，却给整个赛道蒙上了阴影

type

status

date

slug

summary

一、高调登场，意外“翻车”：当AI在亿万人面前“演砸了” 😱

发布会的规格，怎么看都是要“搞个大新闻”的架势。OpenAI的灵魂人物Sam Altman亲自坐镇，这在他过往的产品发布中极为少见，足见其对Agent的厚望。

然而，期望越高，场面可能越尴尬。

演示中最高能的任务，是让Agent规划一个“横跨美国30座职业棒球场并购买门票”的夏季旅行。起初一切顺利，Agent迅速抓取赛程、分析票价，尽显神通。但当它开始生成Excel表格和绘制地图时，戏剧性的一幕发生了：地图坐标严重错位，东海岸的球队集体“失踪”，墨西哥湾上空凭空多出了几个球场，引发现场一阵窃笑。

如果说这只是个小bug，那接下来的“买票”环节，则堪称灾难。

由于涉及金融操作，Agent进入了需要用户二次确认的“观察模式”。然而，当购票网站弹出我们再熟悉不过的“邮件/短信二次验证码”时，强大的Agent瞬间“懵圈”了。它无法处理这个验证流程，在几次尝试后，屏幕上无情地跳出了红色的错误信息——任务因超时而终止。

最后，Sam Altman不得不亲自上阵打圆场：“买票这步……我们之后会debug的。” 😅

这一幕，无疑是当天所有科技媒体的头条。连OpenAI都搞不定的事，其他人还有戏吗？

二、抛开“翻车”，ChatGPT Agent到底强在哪？ ✨

尽管演示出了岔子，但我们必须承认，ChatGPT Agent本身是绝对的“技术猛兽”。它并非简单的功能叠加，而是几项核心能力的深度融合：

一体化超强大脑：想象一下，它拥有一个专属的“虚拟电脑”，里面有浏览器、有代码终端、还有各种API接口。所有操作，无论是上网点击、写代码分析数据，还是调用Gmail发邮件，都在这一个沙盒环境里完成，互不干扰，也保证了安全。

真正的“放手去做”：最牛的一点在于，你不需要告诉它“第一步用浏览器，第二步写代码”。你只需下达最终指令，Agent会自己判断，什么时候该上网查资料，什么时候该运行脚本，将复杂的长任务一气呵成。

随时“喊停”与“倒带”：过去的Agent像个黑箱，任务开始就无法干预。现在，你可以像看视频一样，通过时间轴回放它的每一步操作。更重要的是，你可以随时暂停、打断、甚至修改指令，比如在规划旅行途中，临时让它加购一件露营装备，灵活性拉满。

“安全带”与“全平台”：对于发邮件、付款等高风险操作，它会启动“观察模式”，必须由你盯着并手动确认，否则自动超时。同时，你可以在手机、电脑上无缝切换，随时查看任务进度。

简单来说，ChatGPT Agent在执行长链路、复杂任务的流畅性和用户交互的灵活性上，迈出了一大步。

三、致命的阿喀琉斯之踵：为何说“模拟点击”是条走不通的“死胡同”？

然而，再强大的功能，也掩盖不了一个根本性的问题，这也是导致现场“翻车”的核心原因——ChatGPT Agent的技术路径，选择了**“模拟人类在浏览器上点击网页”**。

这种方式听起来很直观，但内在缺陷是致命的。作者一针见血地指出，这就像“马斯克的‘纯视觉’自动驾驶”，极度依赖一个本身就不完全可靠的输入源。

为什么说它“不靠谱”？

网站的“千人千面”：每个网站的架构、前端技术、缓存机制、反爬虫策略都天差地别。想让一个机器人完美适配所有网站，几乎是不可能完成的任务。

验证码的“天堑”：演示中的“二次验证”失败不是偶然。如今，为了账户安全，Google、Twitter等几乎所有重要网站都设置了邮件或短信验证。AI Agent无法接收短信，也难以登录你的邮箱去获取验证码，这道坎直接堵死了所有高权限操作的可能。

IP地址的“原罪”：Agent运行在数据中心的虚拟机上，使用的是微软机房的统一IP。当这些IP高频访问各大网站时，极易被识别为机器人行为，从而被拉黑、封禁。

网站更新的“无常”：网站随时可能更新改版，甚至出现Bug。依赖固定页面元素的“模拟点击”策略，稳定性根本无从保证。

与其让AI在一个充满不确定性的网页上“摸索”，更可靠的未来，或许是网站们提供标准化的、安全的API接口，让AI去直接调用。否则，“模拟点击”这条路，只会越走越窄。

四、给Manus们的“丧钟”：当“老大”都举步维艰，跟风者何去何从？ 💀

ChatGPT Agent的这次发布，对整个泛Agent赛道，尤其是像Manus这样的创业公司，绝非利好，甚至可以说是一记重拳。

第一，模式的上限被验证了。 当行业“老大”OpenAI，倾尽全力做出的产品，在万众瞩目下依然表现得“半半拉拉”，这传递出一个极其危险的信号：这条“通用型Agent”的路，可能本身就有天花板。 老大的尴尬，不仅没能“指明方向”，反而让所有跟进者都看到了前路的荆棘与风险。

第二，成本的冰山撞过来了。 💸 Agent执行一次复杂任务，背后是海量的TOKEN消耗。OpenAI是模型的所有者，它可以内部优化，可以战略性亏损（每年亏几十亿对它来说不算什么）。

但Manus这类第三方公司呢？它们只能“老老实实按TOKEN向OpenAI付钱”。这就形成了一个死亡循环：

为了效果好，必须调用最强的模型（如GPT-4o），成本高昂。

用户使用一次复杂任务，公司可能就要“血亏”。

在结果尚不可靠、时常“翻车”的情况下，又有多少用户愿意为这高昂的成本买单？

当结果无法保证时，成本就成了压垮骆驼的最后一根稻草。

写在最后

ChatGPT Agent的发布，是一场华丽又残酷的现实演示。

它用强大的功能，向我们展示了AI Agent的无限潜力；又用一次公开的“翻车”，无情地揭示了这个赛道的两大核心困境：

技术路径的不可靠性：依赖“模拟点击”的泛Agent模式，短期内无法克服稳定性和兼容性的硬伤。

商业模式的“原罪”：高昂的TOKEN成本，为所有非模型自有的第三方Agent公司，筑起了一堵几乎无法逾越的“成本壁垒”。

因此，这次发布对Manus们而言，非但不是可以借力的东风，反而是釜底抽薪式的打击。它不仅没有解决行业难题，反而将难题更清晰地摆在了所有人面前。AI Agent的未来依然光明，但通往光明的道路，显然不是复制OpenAI现在的这条。