当前位置：首页 > TMT > 正文

解题智实融合、音视频交互新挑战，AI 2.0时代怎么做？

2024-12-26 10:59:00 来源：钛媒体 A+A-

前不久，火山引擎利用3DGS技术把山西高平二郎庙和北京正乙祠两座珍贵的历史戏台建筑“搬进”了虚拟直播间，其应用于抖音戏曲直播的虚实融合效果得到了京剧专业人士的赞许。让技术有温度，火山引擎这些年一直坚持用新技术做文化传承。

2024年被视为AI应用元年，生成式AI迎来了爆发式增长。它不仅改变了音视频的生产与交互方式，也开始快速渗透进千行百业，但也在应用落地进程中对背后的音视频技术底座、多媒体处理架构、甚至芯片能力提出更高要求；而海量智能终端设备对大模型的调用需求，也对边缘智能和云边端协同发出更高挑战。IDC报告认为，生成式AI的IaaS市场去年实现爆发式增长，在AI与云有双向积累的公司获得了先发优势。

12月19日，智源研究院发布最新一期大模型综合及专项评测结果。在覆盖国内外100余个开源和商业闭源大模型的评测中，豆包通用模型pro获得大语言模型主观评测最高分；在多模态模型评测中，豆包视觉理解模型排名视觉语言模型第二，成绩仅次于GPT-4o；豆包文生图模型、豆包视频生成模型（即梦P2.0pro）也分别在相应测试中获得全球第二。

在一众“大厂”云+AI的布局中，火山引擎正以领先的技术创新切中用户需求，在行业落地中找准自身的生态位。为了进一步拓宽行业覆盖，火山引擎一年来在视频云、边缘云等领域做了诸多技术创新，并结合大模型与企业客户一起驱动业务创新。

大模型深入音视频

今年7月，抖音首部AIGC短剧《三星堆：未来启示录》上线，收获了惊人的1.4亿次播放量。这部有专业影视制作公司合作的剧作呈现出大片的既视感。

它向业界交出一份答卷：生成式AI是创作背后的辅助工具，思想与情感的传达仍是由人在主导，生成式AI将是审美加分项。从文生文、文生图，到文生视频，这些都已成为现实生产力。

眼下，生成式AI、多模态大模型、全景直播、3D生成等技术将数字视频带入AI视频时代，从追求视频的高清、实时，到追求更智能、更具交互性。由此也带来两个严峻的考验：一是AIGC方式下的视频数据量指数级增长对技术底座提出更高要求，比如视频数据以20倍的速度在增长，使得背后的计算成本与效率问题凸显；二是多模态媒体处理需求的增长对音视频处理全链路提出了新的要求，涉及视频的生产、交互与消费各环节。

针对前者，火山引擎去年至今集中做了一些底层自研探索，比如在抖音里使用自研视频转码芯片，可在同等视频压缩效率下获得数十倍的成本节约；它还基于深度学习的图像视频压缩技术，对自研的编解码技术BVC进行持续优化；去年就已经推出自研的多媒体处理开源框架BMF，今年升级后支撑了诸如豆包PixelDance等视频生成大模型的上线与调优。

针对后者，即位于上面的音视频应用，火山引擎视频云主要是将豆包大模型及平台AI能力去和音视频的全链路处理进行结合，使得内容生产更智能、人与AI交互更拟人、虚实融合更沉浸。

设想一场演讲直播如何同时满足不同语种收看者的需求？画面中还是演讲者本人，他可以实时出现在中文、英语或其他语种的频道中，供观众任意进行多语言切换。技术针对演讲内容实时进行跨语言翻译输出，再利用AI机器学习高度还原演讲者的声音特点和说话风格，并让后台算法根据所输出语言的不同对虚拟人口型进行差异化匹配，是不是会立刻产生一种身临其境的聆听效果？这就是火山引擎已经实施的“声影同传方案”，适用于同传直播场景的内容生产。

在本月18日举行的火山引擎冬季FORCE原动力大会上，在中文直播的同时，同声的英语频道采用的就是跨语言同声复刻方案。它以“跨语言直播”的方式，用AI“拟声”出主论坛所有演讲嘉宾的声音特点和口型，实时呈现英语演讲。

生产端的创新还体现在“多模态视频理解与生成方案”。它整合了语音识别、文字识别、自然语言处理、视频理解和视频生成等多种模态模型的能力，可适用于体育赛事直播、教育、节目剧集等多种场景：比如对课程知识点的精准提炼、短时间内针对一部剧集制作批量化的引流短视频、在一场球赛直播中快速制作进球回放视频等。

在音视频交互端，对话式AI的技术完善让大模型享有更宽广的应用场景，与硬件融合正成为重要趋势。同样在本次火山引擎冬季FORCE原动力大会上，火山引擎视频云与lOT芯片领域的领先企业乐鑫科技正式联合发布硬件对话式AI解决方案，提供了功能全面、即插即用的语音交互模组，旨在为硬件设备的智能化升级加速。目前，这一联合解决方案已与Toycity、Folotoy、魂伴科技等多领域硬件品牌方展开合作，共同推动智能硬件行业的发展。比如，魂伴科技(Cyber Partner)在做的就是融合AI软硬件技术赋予IP角色破次元能力，打造“有趣、有料、有AI”的产品，让每个人都能拥有自己的赛博伙伴。

而在音视频消费端，火山引擎联合豆包大模型推出了3D生成模型Beaver3D。与传统手工3D建模相比，3D生成模型在生产效率上有明显优势，它针对多模态的图、文建模，1分钟就可以生成高保真高质量的3D资产。该模型与火山引擎数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成和数字资产制作。

为提升3D数字形象在实际场景中的虚实无缝融合，火山引擎还推出了大场景重建方案，将3DGS渲染技术与自研大场景建模技术相结合。上述北京和山西的两座古戏台在这一技术加持下，在抖音戏曲直播的虚拟布景中重新散发出流光溢彩的视觉效果。而这两座戏台能成为直播间虚拟背景，本身也应用了3D生成模型方案。

另外在传统视频交互中，观众不能自由选择拍摄机位与观看视角。但基于3DGS重建的6DoF直播方案，可以让观众在播放端高自由度地观看多角度的3D直播内容，实现高质量、低延迟、360度看直播。抖音VR直播目前已能让普通用户采用一部手机或者相机即可开播，并能在播放端体验到一定范围内的多视角3D直播内容。

让边缘AI应用落地更容易

AI技术带来了前所未有的极致交互体验，同时也对硬件融合以及技术底座支撑提出了更高的要求，AI 2.0时代已经到来。

现在，一部手机不仅是高清视频、VR直播的生产工具，还可以成为AI智能体的一种“物理延伸”。随着AI PC、AI手机、AI玩具以及智能眼镜、耳机等可穿戴设备的普及，这些设备与大模型的结合衍生出丰富的端智能应用场景。除了个人消费场景之外，端侧智能在工业生产、能源、机器人等ToB基础行业的应用更早、也更深刻。边缘智能的需求也逐步演变升级。

在与众多客户深入合作的过程中，火山引擎边缘智能也洞察到新时代的技术挑战。比如，端智能在落地过程的问题和挑战可以总结归纳为四个“多”：“多平台集成”、“多SDK适配”、“多重设备身份管理”、“多种模型协同”。

其次，从端侧发起的AI服务调用越来越多，但整体上受限于功耗、成本等原因，端侧设备的算力远落后于中心计算。这就迫使业界将模型“小型化”，但这意味着模型通用性的减弱。

面向AI 2.0时代，如何突破限制，加速大模型落地？火山引擎边缘智能给出了自己的答案。

解题智实融合、音视频交互新挑战，AI 2.0时代怎么做？

首先，针对端智能面临的四个“多”问题，推出了三个“一”的解决方案——端侧OneSDK、OneCredential和OneStop一站式服务。具体来说，OneSDK，即端侧仅需集成一个SDK，即可一站式解决在线升级（OTA）、日志记录、远程登入、设备管理等设备运维需求，以及设备密钥、设备证书等设备安全需求，还能满足多模型和多智能体调用的设备智能需求。同时，提供硬件抽象层（HAL）接口，以便在RTOS、其他嵌入式操作系统，甚至是无操作系统的设备上轻松迁移SDK。OneCredential支持云上多平台间的身份互认和权限穿透，使得设备端可以共享一套密钥和证书，在确保安全性的同时，降低了成本并提升了性能。OneStop是通过深度融合端云技术打造的一站式端智能体方案，能大幅降低端侧智能体的开发与接入门槛。

在通过这一套OneSDK端智能一站式方案来统一端侧标准之后，以智能决策器决策在本地完成推理，还是将推理请求智能路由至边或云的算力中。对于推理请求需要转发到设备之外的场景，火山引擎边缘大模型网关提供了四大能力，帮助客户加速云边大脑的访问：一是网关的适配性，提供与OpenAI完全一致的接口，并屏蔽接口差异，帮助开发者更容易在模型间迁移；二是海量的边缘云节点，并通过流量调度，提供端侧就近接入大模型；三是通过各类缓存、边缘推理等方式进行查询加速；四是在稳定性上，通过多模型厂商间的故障迁移以及错误重试，提升请求的鲁棒性。

此外，产业未来的一个发展趋势是，从基础模型向多样化智能体转变，即“千模走向万体”。基础模型的持续迭代推动了智能体的发展，同时市场正专注于特定领域智能体的开发，带动了应用、平台和基础设施的匹配发展。在这一进程中，边缘原生智能体将扮演关键角色——通过理解设备能力，结合用户的输入进而实现自主感知或操控设备，并在端-边-云之间进行灵活调度，甚至实现多智能体协同完成更为复杂的任务。

基于这一构想，火山引擎边缘智能联动扣子，通过定制插件和工作流让智能体具备感知、操作设备的能力，目前已在智能数字工厂、智慧园区落地。管理者只需通过设备，即可实时查询工厂或园区情况、掌握各类数据，进一步提高管理水平。

质检智能体也在解决传统质检中无法反映中间过程质量的难点。火山引擎边缘智能利用多模态大模型，以工厂具体制定的SOP（标准化作业程序）为输入，智能监督整个工序过程是否符合规范，最终提高了质检的全面性和准确性。

实现高智能水平的多智能体协同调度任务，还有赖于高效可靠的云边端网络通信。火山引擎利用分布在全球2500多个边缘云节点，建设了全球分布式云网基础设施，面向端-边互联、边-边互联以及边-云场景提供从1ms到40ms时延的广域网络接入，支持智能应用就近上云。此外，它的分布式边缘云异构算力解决方案可以为用户就近提供多形态异构算力，具备小型化与轻量化的特点，支持算力、服务混合部署，集群功能按需调配，最大化利用资源。

与此同时，AI技术应用发展虽快却并不够成熟，在传统安全威胁之外，还面临诸如幻觉攻击、对抗性攻击等新型安全攻击和挑战。尤其在智能体连接物理世界的过程中，这种威胁也将传导至实体。

对此，火山引擎边缘智能在传统的安全防护措施，如 DDoS 防护、WAF 和频次控制的基础上，增添了针对 AI 2.0 时代的边缘安全防护功能。具体来说，在输入层对输入的提示词进行安全性检测，拒绝任何不安全或不合规的提示词请求，同时，通过提示词扰动，降低提示词的安全风险。另外，通过在系统提示词中有针对地添加防御性的描述，增强大模型对提示词攻击的防范能力。在输出层，对智能体的输出结果进行深入分析和检测，以提高结果的安全性和合规性。

随着大模型深入千行百业，“每个App都值得用大模型重做一遍”的豪言壮语响彻业内。但在实际中，各行业的Know-How不是大模型平台朝夕间就能掌握的。

针对特定领域的智能体开发是大模型落地的加速器，这一过程体现为AI生态的价值。在火山引擎边缘智能研发负责人谢皓看来，“融入生态不仅是被集成，而是一种相向而行的互相集成。”

基于这一理念，最近一年，火山引擎边缘智能已在不同领域推进行业生态合作，帮助众多企业加速落地大模型，助力业务增长。比如地瓜机器人通过集成边缘大模型网关入口，支持开发者通过标准化的ROS接口调用大模型，同时大模型网关主动集成ROS中间件，通过容器化提升中间件的复用价值，推动具身智能行业的数智化进程；抖音电商通过边缘智能，完善智能仓储基础建设，构建智能物流体系；上海某高校通过火山引擎边缘智能，面向产学研场景孵化边缘AI方案，开创校企合作新篇章。

未来，是终端智能与虚实体验融合的时代，也是一个视频交互时代。来自市场调研机构的数据显示，视频是云业务中增长最快的工作负载之一，到2026年视频在数据中心基础设施中的占比将从10%增长到20%-25%。面对海量视频资源的AI化处理需求和智能终端设备的访问请求，火山引擎视频云和边缘云积累了自身的平台经验，并将能力开放给行业与开发者，使之逐步成为大模型时代的重要基础设施和技术底座。

而随着AI能力应用逐渐深入，在基础设施能力之上，助力大模型在更多行业实现更好、更稳、更快的落地成为新的时代命题。火山引擎深入业务场景，正打造趋势洞察与技术迭代的飞轮，与各行业企业客户一起推动技术创造真正的价值。

(责任编辑：zx0600)