财经
当前位置:首页 > TMT > 正文

AI大模型“百花齐放”背后:要裁判,更需要监督者

AI大模型“百花齐放”背后:要裁判,更需要监督者

文|罗曾

现如今,大模型热潮正盛,市场中的每一个参与者都能深切地感受到这股热潮的涌动。从百度文心一言、阿里通义千问到华为盘古,再到快手的快意,大厂们纷纷推出自家的AI大模型,一场全新的竞赛已然拉开帷幕,大家纷纷布局、加大投资,试图在这场竞赛中拔得头筹。

然而,比赛不能没有裁判。

北京大学教授、鹏城实验室网络智能研究部副主任田永鸿向中华网财经指出,在今年“百模大战”环境下,鱼目混珠的情况并不少见,这不仅是对公众造成混淆,对一些企业和政府机关而言,更加大了其判断成本。在此背景下,市场需要既有技术实力、研究基础,又保持公立客观的角色来帮助其进筛选评估。

事实的确如此。AI大模型的发展速度令人咋舌,但随之而来的问题也日益凸显。一方面,当其复杂性和规模不断增加,如何客观、准确地评估这些模型的性能,已成为一个亟待解决的问题;另一方面,随着AI技术的广泛应用,诸如AI诈骗、AI不良文案传播等社会问题也随之而来,这时,一个专业的监督者角色就显得尤为重要。

也正是在这样的市场需求和行业机遇下,围绕评测业务的机构或公司应运而生。数据堂创始人兼CEO齐红威向中华网财经表示,AI大模型评测行业的崛起不仅是对技术发展的一种回应,更是对市场需求的一种满足。

不过,目前而言,国内外的评测机构较少,且部分机构公信力不足。但在齐红威看来,随着政策的日渐明朗、AI技术的不断成熟和应用的不断拓展,大模型评测行业将迎来更多的参与者。“我预计在未来两年内,这个行业将迎来一次小的爆发,就像2023年的生成式AI一样。”

而随着AI大模型的进一步爆发,行业究竟需要怎样的专业“裁判”?此外,针对当下不同的市场需求和社会问题,除了第三方机构外,社会各界又将如何共同引导大模型产业的健康发展呢?

评测出现的背后:AI大模型爆发,需要“裁判”!

2023年,可以说是生成式AI大模型“百花齐放”的一年,众多大厂纷纷推出了自己的大模型产品,如同一场盛大的技术盛宴。

前有百度的“文心一言”、阿里巴巴的“通义千问”、华为的“盘古”、快手的“快意”等,后有字节的“云雀”、腾讯的“混元助手”纷纷亮相,与此同时,滴滴出行、百川智能等企业也相继推出了自己的大模型产品,都试图在这场技术竞赛中分一杯羹。

谈及今年AI大模型集中爆发的原因,CIC灼识咨询经理陈一心向中华网财经指出,一方面是中国在人工智能领域的快速技术进步和深度学习技术的不断积累,为大模型的训练和应用提供了更多的可能性;另一方面多样化的市场需求拓宽了AI大模型的应用场景;同时,大数据和云计算的发展为其提供了丰富的数据资源、加强了AI模型精确性和智能化程度、降低了计算成本;此外,强有力的政策支持等,共同推动了AI大模型的发展和广泛应用。

事实上,随着大模型的广泛应用,企业和个人用户对大模型的选择和评估需求不断增加,这些需求不仅来自于大模型的复杂性,也来自于不同应用场景对于大模型性能和功能的不同要求。

在此背景下,充当“裁判”角色的大模型测评类的项目或相关公司的出现尤为必要。

中华网财经了解到,有金融服务公司在开发智能客服系统时,最初选择了一款看似强大的AI大模型。然而,在实际使用中,却发现该模型在处理复杂金融问题时表现不佳,经常给出错误的答案或无法提供准确的解决方案,导致企业不得不重新选择其他模型,并投入更多时间和资金进行开发和培训。

无独有偶。某电商企业在推出新的智能推荐系统时,选择了市场上热门的某款AI大模型。但实际应用中,却发现这款模型在处理大量用户数据时性能下降严重,导致推荐准确性降低,用户体验受损,因此不得不投入更多资源对模型进行优化和调整,增加了开发成本和时间成本。

“现如今,随着我国AI大模型产业高速发展,企业对于AI大模型的选择和评估的标准也有必要逐渐完善起来。”陈一心坦言。

而基于“裁判”角色,通过专业的评测和比较,用户可以更加准确地了解各种大模型的性能、优缺点和使用场景,从而做出更为准确、更加适合自身的决策。

具体而言,B端用户对大模型的需求异质化程度较高,通常需要使用大模型来解决各种复杂的业务问题。陈一心表示,在大模型的选择中,B端客户通常会更关注模型与自身业务的契合度;模型性能和精度;成本效益;模型的可延展性和灵活性。“因此,B端客户通常需要花费较多时间来了解各个大模型产品的性能和特点。而大模型测评机构则可以为其降低搜寻成本,从而提升业务效率。”

而对于C端用户来说,通常需要使用大模型来解决各种日常生活中的琐碎问题,如智能客服、智能家居等。在大模型的选择中,C端客户通常会更关注模型使用体验,包括但不限于模型输出的准确性;易用性;实时性和响应速度。因此,通过各类测评结果,C端用户可以更好地了解和使用大模型产品。

在此之前,这些评测结果也可以为大模型厂商提供有价值的反馈和建议,帮助他们更加有的放矢地优化和改进自己的产品,避免盲目跟风或者走弯路。

评测出现的前期:权威机构眼中,怎样理解“裁判”、胜任“裁判”?

而如何理解对于AI大模型竞赛至关重要的“裁判”角色?

在田永鸿看来,专业资源、技术实力的基础,及中立客观的身份,缺一不可。“AI大模型评测的三个核心要素为性能、数据集来源和模型应用,其中前者是评测的重要维度,后两者则是关键所在。”

他指出,目前,国内外的评测机构较少,而评测过程中需要大量的数据和算力支持,部分机构由于缺乏强大的技术背景和基础设施,可能无法提供足够的资源来全面发挥模型的能力,导致评测结果的准确性受到质疑,公信力不足。

在此背景下,参考当前国际上权威性最高、影响力最广的国际AI性能基准测试——MLPerf的经验,田永鸿从四个方面给到了建议,包括建立具有公信力的评测机构,加强国际合作,制定合理的评测指标,持续优化评测方法。

“通过组建工作组,邀请国内外权威的科学家参与,形成一个共同认可的评测标准和方法,一方面借鉴国外先进的评测经验和技术,提升国内AI大模型评测的水平,另一方面选择具有强大数据和算力基础的公司或机构进行合作,以提高评测的准确性和可靠性;同时,在评测过程中,要充分考虑模型的安全性、性能、应用场景等多个方面,确保评测结果能够全面反映模型的实际表现,且随着AI大模型的发展,评测方法和基准系统也需要不断演进。要关注行业动态和技术发展趋势,及时调整和完善评测体系。”田永鸿如是说。

基于此,鹏城实验室亲自下场,早早启动针对AI大模型的评测项目。

田永鸿向中华网财经介绍称,近年来,受到深圳市的大力支持,鹏城实验室与华为共同打造了一个基于华为昇腾芯片的AI超级计算机——鹏城云脑,有望解决中高端GPU生态的国产替代问题,并在此基础上推出了AI大模型评测平台。

该平台积极积累国内外专家需求,从数据集、评测系统、评测基准等多维度进行开发,从而满足国家面向不同行业或应用领域的多样化模型评测需要,推进AI大模型的良性有序发展。

具体而言,首先在AI大模型评测标准的制定上,广泛吸纳各方的意见和提案,强调求同存异,找出大家认可的标准,并参考国内外其他评测的优点和缺点,以便评测更具有公信力;同时注重模型安全,考虑开放问题测试,建立一个公正、公平的评测环境,期间评测方法基准系统也会根据大模型发展同步演进。

而上述一切的基础在于数据,其重要性不言而喻,针对源头准确、数据安全、隐私保护等方面,市场也有着更高要求。

谈及安全性,作为数据服务商的数据堂提出了全新思路,即“数据不动、模型拜访”。齐红威表示,传统的数据服务模式存在隐私安全、版权等诸多问题,加之国家监管越来越严,导致“数据上门”这种对外直接提供或交易数据的模式越来越行不通。在此背景下,数据堂联合其他行业头部数据公司,共同成立了“联邦”组织,从联邦数据、联邦计算和联邦安全三方面,进行企业的数据安全保护。

具体而言,在客户提出需求后,组织成员带着算法或模型上门,将工具放入数据池中得出结果汇总即结束,而原始数据知情权及归属权始终都在企业手中。

评测出现的未来:政府+机构,如何做好监督者?

事实上,AI大模型评测系统的应用,并不仅仅局限于B端客户和特定的C端用户。

放眼整个AI行业,随着技术的广泛应用,人们日常生活中也随之出现一些社会问题,例如AI诈骗、AI生成不良价值传播等,此时,布局AI评测业务的相关企业,还需主动承担起社会责任,利用自身能力,关注新增社会需求并提供对应的解决方案,从而在保护个人权益、维护社会秩序、促进AI技术的健康发展等方面发挥更重要的作用

据新京报,在不久前最高人民检察院发布的检察机关依法惩治电信网络诈骗及其关联犯罪典型案例中,就曾提到有诈骗团伙利用AI语音机器人诈骗,共骗取1437人3586万余元。

而近年来,诸如此类利用AI技术合成的语音或视频进行诈骗的情况并不少见。犯罪分子通过AI技术合成出目标人物的语音或视频,冒充其身份进行诈骗活动,从而骗取钱财或敏感信息。这种行为严重侵犯了个人隐私和财产安全,给受害者带来巨大的经济损失和心理压力,同时容易破坏社会的信任机制,也在一定程度上对正常的社会秩序造成威胁。

对此,业内人士建议,相关公司可以通过提供AI诈骗检测服务,为公众和企业提供更安全的通信和交易环境。例如AI大模型评测系统可以新增部分功能,通过对AI生成的语音、视频以及文本进行深度分析和识别,有效区分真实和伪造的内容,从而帮助公众识别和预防诈骗行为。

除此之外,中华网财经注意到,通过AI技术生成虚假信息或恶意言论,并在社交媒体等平台上广泛传播的情况也频频发生。“网信中国”曾通过微信公众号发文强调,滥用AI技术造谣值得警惕。其指出,10月份网传多起所谓的“爆炸事故”、恶性刑事案件,事后均被证实为网络谣言。如利用编程和AI技术编造“广州地铁遭受恐怖袭击”、“安徽泾县发生校园伤人事件,多人伤亡”等恶性谣言,凭空捏造“西南大学药学院发生爆炸”“河北保定化粪池爆炸致1死5重伤”等虚假信息,制造社会恐慌。

在“三人成虎”的传播效应之下,网民若不明就里、轻易相信,就会成为谣言传声筒,造成不良社会影响。而以上只是AI带来的社会问题的一部分,随着AI技术的不断发展和广泛应用,我们还需要持续关注并应对更多的挑战。

在业内人士看来,相关公司可以通过提供舆情监测和内容审核服务,帮助企业和政府机构了解和控制信息传播的内容。例如AI大模型评测系统可以对文本进行语义分析和情感分析,检测和识别恶意言论、谣言、歧视性内容等不良文案,从而有助于阻止其传播。

“虽然评测系统本身无法解决AI带来的社会问题,但在评测过程中要关注模型的安全性和可控性,尽可能降低潜在的风险。”田永鸿称,针对AI诈骗等社会性问题,一方面,可以通过开发专门的反AI诈骗技术,提高模型的安全性和可信度,防止其被用于不良目的;但另一方面,也需要立法和技术手段相结合的方式来解决,政府出台相关法规和政策,规范AI技术的使用,打击与AI技术相关的违法犯罪行为;同时,基于互联网打破国界的情况,还需要加强国际协作,不能单靠某一方力量,且公众也需要提高自身的科技素养和防范意识,加强对AI技术的了解和认识,避免成为受害者。

(责任编辑:zx0280)

推荐阅读

携手联发科技,OPPO加码大模型

携手联发科技,OPPO加码大模型

大模型风口下,手机厂商也正虎视眈眈。

中华网财经 2023-10-11 18:00:32
大模型+,小度科技的上市新故事?

大模型+,小度科技的上市新故事?

百度要升级重构小度,为什么?

中华网财经 2023-10-11 16:12:11
科大讯飞半年净利同比陡降,大模型成营收回暖关键

科大讯飞半年净利同比陡降,大模型成营收回暖关键

第二季度营收止跌回升。

中华网财经 2023-08-12 17:16:12
阿里变革:科技与金融分道扬镳,AI或占据C位

阿里变革:科技与金融分道扬镳,AI或占据C位

已经发展24年的阿里巴巴,喊出“活102岁”的口号。企业要“长寿”,意味着只有引领行业才能立于不败之地。面对未来,阿里必须要“自我变革”,而且要“再次创业”。

览富财经 2023-09-14 10:48:28
北京将加强互联网诊疗监管,禁用AI自动生成处方

北京将加强互联网诊疗监管,禁用AI自动生成处方

8月21日,北京市卫健委日前牵头组织制定了《北京市互联网诊疗监管实施办法(试行)》。

快消八谈 2023-08-22 10:18:05
人脸识别技术戴上“紧箍咒”,AI巨头股价重挫

人脸识别技术戴上“紧箍咒”,AI巨头股价重挫

虽然目前不少法律和政策中对人脸识别技术的应用都有原则性规定,但出台专门的人脸识别技术应用安全管理规定,为其划定更准确的航道依然必要。

览富财经网 2023-08-11 10:22:39
“懒人旅游”火了,黄金周淘宝AI修图增长1000%

“懒人旅游”火了,黄金周淘宝AI修图增长1000%

国庆假期,90后新手商家靠AI修图赚数万元。

中华网财经 2023-10-08 14:15:06
百度二季度营收同比增15%,投资AI影响可控

百度二季度营收同比增15%,投资AI影响可控

李彦宏回应AI浪潮下,互联网行业如何提升变现能力。

华尔街科技眼 2023-08-24 10:39:06
一览科技牵头成立《水浒将星录》AI共创工作组

一览科技牵头成立《水浒将星录》AI共创工作组

近日,由中国互联网协会电竞办指导,一览科技、轩辕春秋、动漫之家、华强方特 AI Top100联合牵头,《水浒将星录》AI共创工作组正式成立。

中华网财经 2023-11-13 16:39:23
第四范式280亿市值上市 众为资本以产业视角布局AI

第四范式280亿市值上市 众为资本以产业视角布局AI

众为资本再次斩获一例独角兽IPO。

投中网 2023-09-28 13:45:42
深透医疗前7个月订单额近亿元,发力生成式AI

深透医疗前7个月订单额近亿元,发力生成式AI

医疗AI突围,路径并不唯一。

动脉网 2023-08-15 15:20:44
让郭德纲飚英文相声的AI,顶级VC早就投了

让郭德纲飚英文相声的AI,顶级VC早就投了

大家还在扫雷、还在尝试、还在判断。

投中网 2023-11-03 09:22:41
英伟达RTX 4090显卡遭全面下架,芯片概念股狂欢

英伟达RTX 4090显卡遭全面下架,芯片概念股狂欢

在美国制裁升级和算力紧缺的背景下,国内的AI企业和芯片厂商正奋楫前行。

览富财经 2023-10-20 09:08:52
“女儿概念股”信雅达三连板,实控人今年多次减持

“女儿概念股”信雅达三连板,实控人今年多次减持

信雅达董事长郭华强二女儿郭文景创办的AI视频软件Pika火爆海外市场。不过信雅达随后发布公告称,公司与Pika没有任何业务往来。

览富财经 2023-12-05 09:42:38
华映领投镭昱:AR上游,加注全彩微显示解决方案

华映领投镭昱:AR上游,加注全彩微显示解决方案

近日,镭昱半导体(Raysolve)宣布完成Pre-A3轮融资,本轮融资由华映资本领投,三七互娱及米哈游跟投。

中华网财经 2023-12-19 10:58:39
从华为到小米,汽车赛道的高段位竞争打响

从华为到小米,汽车赛道的高段位竞争打响

随着小米汽车发布时间临近,外界对这家企业的打法也更加好奇。在后续的竞争中,电动车品牌要以怎样的姿势参与竞争?

飞灵汽车 2023-12-15 09:13:24
市值蒸发340亿,南方人救得了“羽绒服一哥”吗?

市值蒸发340亿,南方人救得了“羽绒服一哥”吗?

气温骤降,最直观的影响是对羽绒服销量的拉动。除了过冬离不开羽绒服的北方人,南方人也不得不加入羽绒服大军。数据显示,上周羽绒服市场交易量迅速上升,日环比成交量超过100%。

首席品牌观察 2023-12-20 10:19:32
农夫山泉、东鹏饮料、安踏等企业驰援甘肃灾区

农夫山泉、东鹏饮料、安踏等企业驰援甘肃灾区

12月18日深夜,甘肃临夏州积石山县发生6.2级地震,消费企业马上行动起来,驰援灾区,解决当地居民的日常需求。

中华网财经 2023-12-19 18:59:22

友情链接

联系方式

中华网新媒体 财经频道
互动/投稿邮箱:
finance@zhixun.china.com
网上不良信息举报电话:010-56177181
财经频道联系电话:(010)56176102