当前位置：首页 > TMT > 正文

京东探索研究院院长、京东科技人工智能业务负责人何晓冬：让大模型在产业先跑起来

2024-07-31 10:37:04 来源：中华网财经 A+A-

文｜罗曾

近年来，大模型飞速发展，但同时也面临一些问题。

7月30日，在2024京东云峰会上，京东探索研究院院长、京东科技人工智能业务负责人何晓冬博士深入剖析了大模型面临的困境，并提出了解决之道。

何晓冬博士指出，数据和算力的限制可能导致大模型发展迅速触及天花板。经济效益若不能覆盖成本，大模型的可持续发展将面临挑战。此外，大模型的商业化进程相对滞后，而高幻觉率的存在也给产业应用带来隐患。

面对这些挑战，何晓冬博士提出，让大模型在产业中先行先试，是推动技术生态良性发展的有效途径。

在此背景下，据介绍，京东在大模型的应用上已先行一步，将其融入严肃的商业场景中，解决实际问题。

基于这一思路而推出并持续优化的京东言犀大模型，即是案例之一。

据介绍，京东的言犀大模型，经过不断升级，已从单一的语言处理走向了多模态能力，涵盖了语言、语音、图像、视频和数字人等。

这一跨越，得益于京东在对话、语音、商品图像、视频、直播等多模态数据层面的训练积累以及包括BUTD Attention、Attention GAN在内的算法层面的持续深耕，此外，在场景层面，立足京东零售、物流、健康、工业场景，解决生产、流通、服务等各环节的真实问题。

具体来看，言犀大模型在语言模型的基础上，实现了自进化技术，通过构建偏好数据集和奖励模型打分机制，促进模型的快速迭代更新；在推理技术方面，京东采用了端到端低比特高精度量化技术，有效降低了模型体积，同时提升了推理性能，显存节约高达70%；在语音领域，言犀大模型通过迭代优化，实现了跨语种的语音合成，仅需3-6秒的语音样本即可复刻一个人的音色；在图像领域，言犀图像大模型支持中文原生的文生图，超高分辨率图像生成，以及多风格图像定制，满足了产业级的应用需求。

与此同时，基于言犀大模型+多模态能力，京东打造了系列AI产品，如智能客服、AIGC商品图、京小智等，显著提升了业务效率。数字人技术在618期间支撑了大规模直播，展现了京东在数字人领域的商业化实力。

何晓冬指出，当前大模型的核心人机交互介质有三种：在线下物理世界，通过场景理解、环境互动并执行复杂任务，以具身智能形态在物理世界创造价值；在端上，主要以交互型数字人形式，提供更逼真的交互体验，创造AI与人之间更真实的情感链接；在云上，通过智能体学习、适应人类的行为模式，做出更个性化的规划和决策。

“在未来，大模型将全方位渗透进产业里。”何晓冬如是说。

据其介绍，言犀大模型下的数字人，在过往的产业实践中，其效果转化指标已经达到真人主播的均值。而此次峰会，京东正式发布言犀数字人3.0平台，这一版本拥有更强的行业属性与专业深度，深入到各个垂直领域中，可为所有零售、政企客户提供个性化、风格化、小时级的数字人方案。

在内容为王的时代，优秀的主播是稀缺资源。何晓冬透露：“3.0版本的数字人，我们的目标不是替代那20%的顶级主播，而是通过个性化角色、丰富的知识库和多样化的互动玩法，助力那些80%尚未被满足的品牌，推动商家店播的长效增长。”

从数字人到具身智能，京东在这一方向上也进行了一系列探索。据悉，京东探索研究院发布了国内首个双臂移动机器人操作数据集JD ManiData，目前已有包括清华、华南理工、北邮等科研机构申请使用。

在基础模型上，其团队不断研发多模态具身智能的基础模型，提升机器人执行任务的成功率和流畅度，同时在服务型机器人场景中不断探索，让数字世界的智能体走向物理世界；在端侧，京东基于模仿学习持续迭代端侧多技能操作模型，实现指令驱动下的不同操作任务。

回顾过往，何晓冬表示，言犀大模型始终坚定追求的，不仅是基础模型的能力提升，更是在商业化标准之上，打造可用、好用的端到端产品。展望未来，言犀将继续践行长期主义，致力于依托供应链，成为更强的产业基础设施。(责任编辑：zx0600)