财经
当前位置:首页 > TMT > 正文

巨头抢滩、资本沸腾,AI智能体如何跨越「幻觉」陷阱?

巨头抢滩、资本沸腾,AI智能体如何跨越「幻觉」陷阱?

Manus的出现,激起了科技与资本市场的双重震荡,一时间AI Agent相关概念股集体大涨,阿里、谷歌、微软等科技巨头密集发布智能体研发计划......

而在这场热潮的背后,是AI技术从“被动应答”向“主动执行”的范式跃迁。

尽管市场的评价褒贬不一,但不能否认,Manus的突破性在于,它首次验证了通用型AI Agent在复杂场景下的商业化可行性。

传统的大语言模型虽能生成文本,却难以闭环执行任务,而Manus通过“规划-验证-执行”的架构,将AI大模型的认知能力转化为生产力工具。

根据麦肯锡等多份权威报告,在多元化需求驱动下,AI Agent市场呈爆发式增长态势,2024年全球AI Agent市场规模约为51亿美元,预计2030年将飙升至471亿美元,复合年增长率高达44.8%。

然而,这场“智能体浪潮”并非坦途。技术瓶颈与商业野心的碰撞,让AI Agent的竞争既充满想象力,又暗藏风险。

破壁之战

本质上,AI Agent的是具备人类思维范式的数字劳动力。

如果说聊天机器人还停留在“对话”阶段,那么Agent则已经开始“行动”。简单来说,可以理解为一种更智能、更自主的AI应用,它不仅能回答问题,还能执行任务、完成交易。

它们可以被应用于各种场景,如客户服务、金融分析、软件开发等,极大地提高了生产力和效率。

以大语言模型为“大脑”,AI Agent不仅能理解指令表层语义,更能捕捉隐含需求。

例如用户说“找性价比高的酒店”,Manus会结合季节、当地活动等上下文推理出“预算敏感型”或“体验优先型”需求。而可以期待的是,随着大模型在多模态能力上的持续突破,特别是多模态融合技术的迭代升级,AI Agent将能够更精准地解析并反馈用户需求,逐步实现类人类的视听感知与交互能力。

这将使得AI Agent可以应用于更广泛的领域,如医疗诊断、自动驾驶、智能安防等。

在单体智能持续优化的同时,还可以想象的是,未来的AI Agent或许也能够突破单机运作模式,通过协同机制重构复杂任务处理与决策链条。

这种多智能体系统(MAS)通过角色定位机制,能够使每个智能体如同专业化分工的人类团队。

举例来说,在软件开发的场景下,每个AI Agent都有自己的特长,有的擅长编程,有的擅长设计,还有的专门检查质量,只要它们能很好的协作,就能一起完成一个高质量的软件项目。

此外,MAS系统还能模拟人类的决策过程,就像人遇到问题时会找人商量一样,多智能体也可以模拟集体决策的行为,这样就能为用户提供更好的信息支持,特别是在一些复杂的情况下。

比如遇到紧急情况,这些AI智能体就能帮用户模拟所有可能的情形,及时提供有用的信息,让用户能更快更好的作出决定。

可以说,这种“类人”的智能范式,正在重构生活、工作的成本结构。而从Manus开始,似乎AI Agent已从概念验证阶段,迈入规模化落地的临界点。

巨头竞速

AI Agent的热潮并非偶然,而是技术演进的必然产物。

早在2024年红杉AI峰会上,吴恩达教授便预言“AI Agent是AI发展的下一个关键阶段”。事实上,2024年期间,便有不少科技巨头布局AI Agent。

如谷歌在2024年12月发布了其最新版大模型Gemini2.0系列,并介绍了多个智能体应用,如ProjectAstra。微软也在2024年10月和11月分别发布了多个面向销售、运营等场景的AI智能体,并推出CopilotStudio平台支持用户构建自主智能体。

进入2025年,Manus的火热,彻底带动了市场的情绪。

海外,OpenAI近期公布的商业化计划进一步印证AI Agent的B端潜力。其“博士水平”Agent针对科研与软件开发场景,每月服务费高达2万美元,覆盖从基础分析到复杂任务的全链条需求。

国内方面,阿里千问QwQ-32B模型中也集成了与智能体Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

另一方面,开源社区已出现OpenManus、OWL等新产品,基于Manus进行复刻和创新,有望推动Agent产品百花齐放。

资本市场的狂热更加印证了这一趋势。Manus发布当天,A股超150只AI智能体概念股涨停,立方控股、酷特智能等涨幅超20%。

来源:东方财富

来源:东方财富

此外,Manus发布后,券商PPT、分析师路演火速上线,不完全统计显示,中金、华泰、招商、中泰等数十家券商研究所进行了路演,其中有分析师上线了多场路演,路演内容从技术原理、AI应用、受益方向到落地场景、产业圈推演,内容丰富。

当然,在热潮的背后,也有不同的声音。不少业内人士认为,Manus属于AI Agent初级的应用,市场的反应过大了。事实也的确如此,AI会进一步拉平信息差,大量收集信息、整理资料的工作可以交给AI,但真正距离生成投资决策,无疑还有很长的路要走。其中,最大的挑战在于:AI幻觉的幽灵始终萦绕不去。

技术瓶颈

AI Agent的竞争,入口为王。

当掌握更多用户流量的厂商,有望实现“流量-数据-使用体验”的正向循环,且随着开源模型能力升级弥补大厂及中小厂技术代差,AI产品工程化能力,或拉开产品使用体验差距。

可尽管展现出巨大的潜力,但AI Agent的爆发仍面临多重障碍。从商业模式到技术瓶颈,从法规缺失到用户认知,每个环节都在考验着行业的耐心。

首当其冲的原因就在于,现有技术还无法有效地解决AI幻觉的问题。以当红的Manus来说,虽然在GAIA基准测试中取得了优异成绩,但在实际应用中,仍存在一些不稳定的情况。

GAIA基准测试排名来源:ManusAIX平台

GAIA基准测试排名来源:ManusAIX平台

有实测用户反馈,在处理复杂任务时,Manus偶尔会出现任务执行失败或结果不准确的问题。在进行股票数据分析时,Manus可能会因为数据接口的临时故障或数据格式的细微变化,导致分析结果出现偏差。

再以OpenAI的GPT4.5来说,毫无疑问,这是目前最强的大语言模型。但在SimpleQA基准测试中,GPT-4.5的准确率为62.5%,幻觉率为7.1%,尽管这一成绩要远优于GPT-4o、OpenAIo1和o3-mini等模型,但是依然存在着相当高的幻觉率。

而这种幻觉,在金融、医疗等高风险领域,任何一点误差,都可能引发系统性风险。

假设某医疗诊断Agent,其误判罕见病案例的概率为3%,客若应用于千万级用户群体,那么潜在误诊人数将高达30万。

除了幻觉,紧接着的是数据孤岛与通用能力的矛盾。

AI Agent的效能高度依赖场景数据,例如金融风控需要实时交易数据,而医疗诊断依赖患者病史库,数据割裂会导致通用型Agent难以跨领域迁移。

最后是伦理与监管的滞后性。AI Agent的自主决策涉及隐私泄露、责任归属等伦理问题,比如调用用户健康数据、自动驾驶事故等等,而全球监管框架尚未成熟。

由此可见,AI Agent的破局路径需从技术、生态与监管三端协同推进。而未来,谁能率先突破技术瓶颈并构建合规生态,毫无疑问,谁就将主导这场智能体时代的“诺曼底登陆”。

(责任编辑:zx0600)

推荐阅读

AI“缝”搜索

AI“缝”搜索

下半年,搜索领域变得热闹起来。

光子星球 2024-09-19 15:59:39
手机厂商“AI劫”

手机厂商“AI劫”

“我每周都有一个AI专项会。”某手机厂商在发布新机后的沟通会上表示,AI功能首先需要符合用户的使用直觉,这也折射出手机厂商对AI越来越重视。

光子星球 2024-12-25 10:08:26
AI公务员都来抢饭碗了?AI时代打工人到底该咋办?

AI公务员都来抢饭碗了?AI时代打工人到底该咋办?

最近DeepSeek的全面大火又掀起了大家的担忧,特别是AI公务员的出现让大家的担忧更甚,AI时代我们打工人到底该咋办?

江瀚视野观察 2025-03-04 13:56:30
字节AI,“软硬”兼施

字节AI,“软硬”兼施

属于AI的投资热潮仍在继续,只不过资本的注意力开始由“软”变“硬”。

光子星球 2024-09-18 17:34:33
AI配件,假性繁荣

AI配件,假性繁荣

AI浪潮不断侵袭各行各业的当下,沉寂多年的消费电子领域终于熬来了AI硬件狂欢。

光子星球 2024-10-29 14:15:30
无 AI,不手机?

无 AI,不手机?

AI 是手机革命的工具,问题只在于,谁的革命更彻底。

蓝洞商业 2024-12-03 14:39:56
AI手机想借DeepSeek翻红!

AI手机想借DeepSeek翻红!

DeepSeek的红利,手机厂商能否接得住?

华尔街科技眼 2025-02-12 10:19:27
腾讯落子,AI 后手入场

腾讯落子,AI 后手入场

今年初,腾讯AI助手应用“元宝”已经完成了组织调整,产品团队从TEG事业群(技术工程事业群)调整至CSIG(云与智慧产业事业群)。

光子星球 2025-02-10 15:09:58
当AI搜索开始赚钱养家

当AI搜索开始赚钱养家

近期,在GPT-4o创造的新范式影响下,月暗、智谱、Perplexity和OpenAI相继上线了AI搜索推理功能。

光子星球 2024-11-05 10:05:37
2024年,多少人被AI“割韭菜”?

2024年,多少人被AI“割韭菜”?

“AI汹涌”。

趣解商业 2025-01-06 09:55:34
阿里云的野心,转让给了AI

阿里云的野心,转让给了AI

而对于标的公司来说,存储的云额度既降低了模型训练推理成本,也通过兑换估值提升其在牌桌上的赢面。

光子星球 2024-11-18 10:16:46
三部委指明卫生健康领域AI应用场景 美年健康加速领跑AI医疗

三部委指明卫生健康领域AI应用场景 美年健康加速领跑AI医疗

未来三年,美年将全面实施“ALL IN AI”战略,目标是成为数智化健康管理领域的领军企业,成为医疗+AI产业的领跑者。

中国网财经 2024-11-18 10:57:37
AI成为手机芯片“决胜点”

AI成为手机芯片“决胜点”

新一轮的手机芯片大战,将会围绕“AI”展开。

钛媒体 2024-10-17 13:51:22
电脑+AI,有搞头!但不多

电脑+AI,有搞头!但不多

AI PC“当下鸡肋,未来可期”。

钛媒体 2024-12-16 11:03:29
AI投流战,投不出未来

AI投流战,投不出未来

有B站用户吐槽,“以前在手机上划拉几下才能刷到,现在看什么都是Kimi”。

光子星球 2024-08-26 17:42:24
AI应用开发者,大厂“急招”

AI应用开发者,大厂“急招”

ChatGPT之后,人们依然渴望大模型长出爆款场景。

钛媒体 2024-08-28 14:37:26
iPhone 16来了, 但苹果AI还要等

iPhone 16来了, 但苹果AI还要等

北京时间9月10日,苹果“高光时刻”发布会落下帷幕,最受关注的iPhone 16和iPhone 16 Pro手机也终于露出庐山真面目。

北京商报 2024-09-10 17:25:55
慢热的腾讯,上火的AI搜索

慢热的腾讯,上火的AI搜索

11月13日,腾讯发布2024年Q3财报,结合各项数据来看,基本已结束降本周期。

光子星球 2024-11-15 08:46:54

友情链接

联系方式

中华网新媒体 财经频道
互动/投稿邮箱:
finance@zhixun.china.com
网上不良信息举报电话:010-56177181
财经频道联系电话:(010)56176102