当前位置：首页 > 医药 > 正文

DeepSeek，灵魂三问

2025-02-28 10:56:47 来源：动脉网 A+A-

没有什么技术能像大语言模型一般，能在破圈之后如此迅速地接入各行各业。但未等到他们找到合适的商业路径，行业已围绕参数、成本、性能等要素开始内卷，深陷算力“堆积”。

今年1月，横空出世的DeepSeek-R1改写了过去一年由GPT们主导的游戏规则。创新的模型架构与训练优化策略之下，DeepSeek向业界证实：有限规模的参数也能创造高性能的通用模型。

除了打破“算力垄断”，DeepSeek参数高效微调（PEFT）、混合专家架构（MoE）等创新设计还成功降低了大模型的“入场门槛”。

低成本叠加“国产”标签，国内大量顶级医院，前沿医疗科技企业迅速展开部署，甚至是医保局都在高调宣布接入DeepSeek，将大模型再度推至风口浪尖。

究竟跟风还是新的路径？动脉网近日与已接入DeepSeek的科技医疗企业们进行了对话，逐一回答“DeepSeek在医疗领域的真实价值”“DeepSeek在医院的应用方式”及“基于DeepSeek-R1的医疗场景应用开发现状”三个问题。

低成本算力需求下，基层医疗成为新落地可能？

远在DeepSeek-R1诞生之前，国内已有医院部署通用模型，主动开启了生成式AI的探索之旅。

由于临床相关的数据不能脱离院区，当时的大模型只能通过封装入院。这里问题在于：大部分医院拥有的资源环境基本是面向通用计算的CPU，少有医院有面向图形处理和并行计算的GPU资源，很难提供充足算力。

算力的困境紧扣成本。众多医院中，佼佼者有能力花大价钱上全套的GPU，将通用模型完整搬入院内，服务全院系统；少部分能对模型进行精简，使其特定的科室受益。

当绝大部分医疗机构不能自由配置大模型、开发相关临床应用时，医疗大模型的从业公司也不过好过。缺乏充足的买方，他们很难在大模型方向上进行持续的高额研发投入。

DeepSeek-R1的出现打破了这一现状。借助创新架构与开源代码，它从根本上解决了通用模型的部署、运行产生的成本问题。

福鑫科创CEO吴笛表示：由于DeepSeek-R1采用的是混合专家架构（MoE），每次推理时仅激活约370亿参数（总参数6710亿），避免了传统稠密模型必须全参数激活的高昂计算成本，理论上能在节省40%以上算力消耗的前提下保持推理的精度。若企业需要扩展模型规模，也无需线性增加算力投入即可补全模型能力。

DeepSeek、GPT o1 、GPT o3 mini能力对比（输入价格仅统计Cache Hit下标准时段的价格，数据来源：动脉网、深透智医）

更为重要的是，DeepSeek拥有非常友善的MIT license协议，允许用户本地化部署，自由使用、复制、修改和分发软件，也鼓励了企业在产品中采用和集成，鼓励合作和创新，从而推动整个生态系统的发展。

这种开放的生态系统使得普通医疗机构能够根据自身的业务需求，开发出更符合实际应用场景的医疗大模型。若只是部署一些蒸馏得到的100B参数量以内的小模型，不少基层医疗手中的集成显卡都能带动模型顺利运行。

"在我们同区域型医疗机构的沟通中发现，他们的诉求其实更加明确，希望能将DeepSeek的推理能力用在基层，因为那里最缺能够处理复杂能力的医生。"

总的来说，DeepSeek-R1的价值在于降低了大模型应用的门槛，开辟了新的落地市场，同时加速了垂直应用的诞生。这个过程中，这一新兴模型给予了医疗大模型走向商业化的可能。

医疗机构如何用好DeepSeek？

当计划部署大模型的医院及从事大模型开发的医生个体日趋增多，医疗IT产业中处于上游位置的众多企业也随之活跃了起来。

据卫宁健康CTO赵大平介绍，DeepSeek-R1出现后，国内的主流部署模式可简单划分为三种。首先他们可以快速从云端、源端下载模型，快速完成部署，主要适用于已有显卡设备的大型医院。若医院没有运算需要的显卡，他们可以去云端租用设备。同时，也有部分民营医院选择订阅的方式实现部署，主要服务于特定科室。

此外，风口之下亦催生了不少制造大模型一体机的企业。但在赵大平看来，医院要想实现大模型的有效运行，首先要将其与医院信息系统本身进行融合，其次信息系统本身要尽量使用支持AI运行的智能架构。

毕竟，大模型一体机虽然能够通过外挂的方式实现一部分交互能力，但很难与医院已有的几十套系统进行充分数据交换。除非能够实现“模型+应用”的一体式解决方案，否则很难满足医院多元的需求。

那么，理想状态下医院应该如何部署大模型？赵大平认为：伴随大模型的不断深入，未来医院的配置方式一定是多元混合的。“医院可能会配置一个大模型及一些服务细分科室的小模型。大模型用于需要推理、思考、诊断的大型交互场景，小模型用于强调规则、强调判断、矫正以及简单生成的场景，在满足需求的同时实现最经济最高效的应用。”

"进一步延伸，医院中存在很多移动化的场景，如果我们能将手机上的小模型建立起来，那么现有医疗流程中的大量工作可以向移动端转移，极大提升医疗效率。"

再谈医生及其他试图主动开发临床应用的个体。

DeepSeek爆火的同时，各式教程顺势而出，铺天盖地，鼓励用户独立配置、训练模型。但在医疗领域，DeepSeek的出现虽然降低了模型训练的各项门槛，但本地化训练私有模型需要经过数据准备与处理、模型选择与配置、模型训练、模型评估与调优、模型部署与集成五个步骤，仍需要研究人员具备一定的技术功底。

“现在的很多大模型的应用开发程度不高，很多医院的研究机构在买了卡配置了模型之后都想立马搭建一个特定场景的应用，但在实际操作时会发现不具备相应的开发能力。要实现医生个体的广泛使用，并以此取得研究成果，我们还需等待服务方对UI进行升级，进一步简化大模型应用的开发路径。”

换句话说，企业与医疗机构共同进行垂直模型开发，仍是医疗AI的主旋律。

DeepSeek下，医疗场景应用开启革新？

DeepSeek-R1虽在医疗领域实现了大规模部署，但上线时间较短，在应用场景的开拓方面，它暂未突破大模型已有应用范畴，更加聚焦于部署训练成本的降低与文本处理效率的提升。最初阶段中，着力于互联网医疗的一批大模型企业最先受益。

譬如，腾讯健康通过腾讯云接入DeepSeek系列，再结合自研的混元大模型，迅速完成了对智能导诊、预问诊、健康问答、影像报告解读及质控等医疗服务的迭代，并加速帮助全国超过1000家医院快速升级智能应用。

目前，腾讯的“深圳医保”应用其智能客服已搭载了最新AI大模型。用户可以自由地选择擅长推理的DeepSeek，或者可以多维度理解问题的腾讯混元，无论是咨询"生育津贴怎么算"这类复杂政策，还是询问"门诊特定病种如何认定"等专业问题，融合后的大模型都能结合具体参保情况，给出精准到位且具备“Think”的解答，在回复用户的同时帮助用户理解问题。

当DeepSeek积累的医疗数据日益增多，它在医院场景中的应用优势也开始逐步显露。得益于在提示词方面的要求显著降低与思维链技术赋能，DeepSeek有效提升了AI在临床诊断中的透明度与可解释性，并能帮助医生更为高效地与模型沟通。

举个例子，医生过去使用大模型生成手术方案，需要完整清晰地写明过往病史、手术情况等信息，而使用DeepSeek时只用输入一些关键信息，模型会在“Think”的过程中自主填补相关信息。

此外，医疗推理讲究循证过程，DeepSeek不仅能够提供有效的诊疗建议，更能详细阐明其背后的推理过程，包括诊断依据、用药选择和检查项目等。这种透明化极大化解了医生对AI系统的猜忌，为医患沟通提供了清晰的依据，进而促进了AI技术在临床中的更广泛应用。

“很多医生都非常关注模型‘think’的过程，他们会大致扫一眼Deepseek的逻辑，这是一种重要的交互，能让医生产生信任。”

到目前为止，已有不少医院上线了大模型相关应用。以医疗文书书写为例，福鑫科创、卫宁健康等企业都开发了类似应用。以福鑫科创为例，该公司与武汉协和医院、武汉大学中南医院等医院落地门诊、住院多个场景的AI生成式电子病历系统，尝试提高医生的书写病历效率。

传统的医生在门诊看诊场景中，单个患者就诊时长按照10分钟计算，一般用于书写电子病历的时间在5分钟，开药、开检查的时间在3分钟，真正用于问诊的时间也平均只有2分钟。有了AI之后，AI会实时记录医患的对话，并将其转化为医学术语，按照门诊电子病历模板自动书写电子病历，省下电子病历的书写时间。

“按照一个医生每天看诊50个病人计算，每天可以至少节省1个多小时的书写病历时间，若医院将节省的时间用于看诊更多的患者，那大模型可以为医院创造实实在在的经济价值。”因而在吴笛看来，这是目前价值最高，相对容易落地的场景。

由于DeepSeek模型本身没有投喂过CT、MR相关影像数据，企业开发相关应用时需要自行建立影像数据集并构建模型。因而相较于各类文本工具，医学影像领域展开基于DeepSeek大模型研究相对较少。

目前，深智透医在内部工具层面对DeepSeek进行了部分探索。譬如，他们将DeepSeek用于影像数据多模态标准化和增强，利用图像数据+meta data非图像数据（EMR、HISRIS、DICOM header等有大量语言信息）提高成像内容及命名的一致性，优化下游应用（例如hanging protocol等更准确一致可以提高医生效率）。

而在质控数据分析方面，深智透医则在尝试借助大模型提升医学影像质量控制、异常识别能力、工作流问题交互能力。

需要注意的是，虽然基于DeepSeek进行的影像学研究颇为有限，但行业对于影像大模型已实现大量研究成果。部分企业基于GPT等模型建立起了影像基座模型，并在临床试验中证实了LLM对于医学影像诊断的准确率、效率提升。伴随DeepSeek能力的进一步增强，这些企业亦有可能慢慢转至国产通用模型。

再谈医院场景之外的药物研发，这里同样是各类大模型的重要竞技场。

目前，深智透医已在尝试使用DeepSeek处理医学影像标准化问题，进而在医药研发试验中更好地解决影像数据质控等问题。据深智透医CEO宫恩浩透露，该企业已签约一批国际药厂，优化他们已有研发中的影像试验数据。

还有一些模型虽然没用DeepSeek，但也采用了类似的创新技术。

例如，百图生科的xTrimo系列大模型同样采用了Moe框架，其V3版本可处理DNA、RNA、蛋白质、细胞、化合物－蛋白互作、蛋白－蛋白互作及生命系统等七大模态数据，可实现从碱基对到细胞集群的全尺度建模，进而赋能抗体和细胞基因疗法药物领域、靶点发现方面、微生物等领域的科学研究。

不过也需注意，无论是医疗机构相关的赋能，还是药物研发的前沿探索，开发者们使用DeepSeek等大模型几乎都是在原有场景中进行升级，尚未能开发出颠覆已有场景的应用，谈不上革新。好在DeepSeek-R1的上线仅有不足两个月的时间，伴随时间的推移，我们很有可能目睹来自医疗AI的惊喜。

无远弗届

虽说DeepSeek-R1的出现极大程度推进了医疗领域对于大模型的应用深度，但理性来讲，要在医院日常之中用上大模型，仍然需要等待不少时日。

首先，解决复杂问题需要大模型像医生一样结合患者的各模态数据，进行综合推断。但在“Think”过程中，DeepSeek时常会陷入一种可能无限循环的情况，导致出现大量无关于问题本身的答案。对医疗这样严肃、高频的领域，必须消除这些场景幻觉才能有望规模化落地。

其二，DeepSeek拥有的“国产”身份证明使其更受国内医疗机构的青睐，但要规模应用，仍需符合医学数据隐私与安全合规。因而需要DeepSeek出台更完善的数据脱敏、加密技术，确保患者数据安全。

其三，DeepSeek解决的是过往大模型欠缺的产品质量和性能问题，未能找到“杀手级应用”推动医疗机构主动付费。就目前来看，AI的付费逻辑还是和用户认知及产品本身方向是否能真实降本增效创收赋能有关。因此，DeepSeek要想规模落地，一是提升医院与医生的接受度，二是要在传统AI的基础上进一步提升。至于谁付费这一问题，从AI近十年的发展看，基层医疗比等级医院更为需要大模型的支持。

第四，DeepSeek的技术突破并非不可复制。如今，GPT的部分版本已将模型训练成本大幅压缩，逼近DeepSeek水平，且在逻辑推理能力方面不断提升。这需要DeepSeek进一步巩固优势，在实际临床问题方面做出成果。

尽管挑战重重，我们依然能够从中看到很多积极的东西。毕竟，大量医疗企业与医疗机构的加入必将生成更多的垂直应用，拓宽大模型商业化的可能。

同时，DeepSeek等模型自身的潜力也不容忽视。按照现有大模型的迭代速度，每三个月通用模型都将完成一波全面迭代。或许在2025年之中，我们便能目睹某一大模型脱颖而出，逐一攻克上述问题，与众多医疗科技企业一同开启医疗大模型的新图景。

(责任编辑：zx0600)