深信服DeepSeek承载创新方案深度解析

一、方案概述与架构定位

2025年2月，深信服正式发布"一朵云面向AI升级"战略，以超融合基础设施（HCI）为底座，叠加AICP算力平台与AI应用创新平台，构建了一套从算力供给到应用落地的完整技术栈^[1]。该方案的核心命题是：如何在企业现有的超融合集群上，以最小改动承载DeepSeek等大模型的推理与训练工作负载，同时保证企业级的安全性与可管理性。

从架构层面看，深信服的方案并非简单地在虚拟机上部署Ollama或vLLM，而是设计了一套名为"智能融合架构（Smart Fusion Architecture, SFA）"的中间层^[3]。SFA位于GPU硬件与上层模型服务之间，承担异构算力抽象、vGPU切分、任务调度和性能优化四项核心职责。这种设计使得企业无需为AI工作负载单独建设基础设施，而是在现有HCI集群中增加GPU节点即可完成升级。

方案整体分为三个层次：底层是HCI超融合平台（计算虚拟化aSV + 存储虚拟化aSAN + 网络虚拟化aNET + 安全虚拟化aSEC），中间层是AICP算力平台（含SIF推理引擎、模型仓库、AI网关），上层是AI应用创新平台（SF-FastGPT、RAG引擎、数据运营闭环）^[2]。三层架构的解耦设计，使得企业可以按需从任意层级切入，不必一步到位投入全部建设成本。

二、AICP算力平台：推理性能的工程实现

AICP（AI Computing Platform）是深信服方案的技术核心。它并非一个通用的Kubernetes调度器，而是专门面向大模型推理场景优化的算力管理平台。其关键差异化能力体现在推理引擎层面的深度优化。

深信服自研了SIF（Sangfor Inference Framework）推理引擎^[3]，这是一个能够自适应多种GPU类型的推理运行时。与社区常用的Ollama相比，SIF在企业级场景中实现了显著性能差距。以DeepSeek-R1-32B模型为例，在日常问答场景（2K上下文）下，AICP的并发能力是Ollama的8至10倍，总吞吐量提升超过10倍^[1]。在知识库应用场景（4K上下文）中，并发约为Ollama的2倍，总吞吐提升4至8倍。测试硬件配置为INT4量化使用2张RTX 4090，FP16使用4张RTX 4090。

8-10x

日常问答并发提升

10x+

总吞吐量提升

4-8x

知识库场景吞吐提升

5-10x

多实例整体性能提升

这一性能差异的工程根源在于SIF的多层优化策略。首先是请求批处理（Continuous Batching）机制的优化，Ollama默认的批处理策略偏向单用户低延迟场景，在多实例高并发时批处理效率急剧下降；SIF则针对企业级多用户场景重新设计了调度策略，能够感知上下文长度动态调整batch size，在保证单请求延迟可接受的前提下最大化GPU利用率^[3]。

其次是显存管理优化。大模型推理的显存瓶颈通常不在模型权重本身，而在KV Cache的动态分配上。SIF实现了PagedAttention机制，将KV Cache按固定大小的block分配，避免显存碎片化，显著提升了单卡可承载的并发序列数量。在MoE（Mixture of Experts）架构的DeepSeek-V3-671B模型上，这一优化尤为关键——MoE模型每次推理仅激活部分专家网络，SIF能够据此实现专家级别的显存预取与缓存策略，减少不必要的显存占用^[3]。

第三个优化维度是量化与编译的协同。AICP支持INT4、INT8、FP16多种精度，并提供一键最佳实践配置能力。对于671B参数的DeepSeek-V3模型，AICP在2025年4月推出了基于4090D的商用方案^[3]，这意味着企业无需采购昂贵的H100或H20，即可使用消费级显卡运行超大参数模型。这背后是SIF对GPTQ/AWQ量化算法的深度调优，以及针对MoE模型专家路由模式的计算图优化。

工程洞察：为什么5-10倍性能提升是可信的

Ollama的设计初衷是个人开发者的本地推理工具，其默认配置偏向单用户体验优化，在并发场景下缺乏有效的请求调度和显存复用机制。当并发用户超过个位数时，Ollama的推理延迟会急剧上升。而SIF从设计之初就面向企业级多租户场景，其Continuous Batching、PagedAttention和MoE专家缓存三重优化的叠加效果，在并发场景下实现数量级的性能差距在工程上是合理的。但这并非意味着SIF在绝对算力上超越了英伟达的TensorRT-LLM等推理框架，而是在"易用性与性能的平衡点"上找到了更好的工程折中。

三、异构算力调度与vGPU切分

企业AI基础设施面临的核心现实挑战是硬件碎片化。一个中大型企业在不同阶段可能采购了英伟达A100、H20、L20、RTX 4090D，同时受到信创政策驱动引入昇腾910B、海光、天数智芯、沐曦、燧原等国产GPU^[1]。这些硬件的驱动栈、计算能力、显存规格差异巨大，传统方式下需要为每种硬件维护独立的部署和运维流程。

深信服通过AICP中的"自适应硬件屏蔽层（Smart HAS）"解决这一问题^[3]。Smart HAS本质上是一个硬件抽象层，向上暴露统一的模型服务API（兼容OpenAI API格式），向下通过Device-Plugin机制对接不同GPU的Kubernetes调度。当用户请求部署一个模型时，Smart HAS会根据当前集群中各GPU的型号、显存余量、当前负载，自动选择最优的部署目标。例如，将671B大模型调度到H20集群，同时将7B的Embedding模型调度到切分后的vGPU实例上。

vGPU切分是AICP的另一项关键能力。在大模型应用场景中，除了核心的大语言模型外，还需要运行大量辅助小模型——Embedding模型、Rerank模型、OCR模型等。如果为每个小模型独占一张物理GPU，资源浪费极为严重。AICP支持最小1%算力、256MB显存级别的vGPU切分^[3]。在实际案例中，一张4090D通过vGPU切分后可同时运行8个以上的小模型实例，相比未切分方案节省约2/3的显卡消耗。深信服的官方数据显示，vGPU切分后单卡承载模型数量可提升8倍以上，整体资源利用率提升3倍以上^[3]。

GPU型号	类型	vGPU切分	典型承载模型	适用场景
NVIDIA H100/H20	企业级	支持	DeepSeek-V3-671B	大规模推理、训练
NVIDIA L20/L40S	中端	支持	DeepSeek-32B/70B	中等规模推理
NVIDIA 4090D	消费级	支持	DeepSeek-32B(INT4)/671B(优化)	低成本起步
昇腾910B	国产NPU	适配中	DeepSeek-7B/32B	信创场景
沐曦/天数智芯/海光	国产GPU	适配中	中小模型	异构补充

异构调度的另一个技术难点是跨架构性能一致性。不同GPU厂商的驱动和计算库差异，导致同一模型在不同硬件上的推理性能可能有数倍差距。AICP针对昇腾910B做了专项优化，包括算子融合、自定义算子适配和通信优化^[3]。同时，AICP引入了"语义Cache"机制——对于语义相似的用户请求，系统可以直接返回缓存结果而无需重新推理，这在企业知识库问答等高频相似查询场景中可显著降低GPU计算负载。

四、HCI超融合底座：从传统承载到智算承载

深信服超融合平台由四大虚拟化模块构成：aSV（计算虚拟化）、aSAN（存储虚拟化）、aNET（网络虚拟化）和aSEC（安全虚拟化）^[4]。在AI升级方案中，HCI的核心角色变化是从"通用计算承载平台"演进为"通算+智算统一承载平台"。

在存储层面，大模型训练和推理对存储I/O提出了独特需求。模型权重文件通常为数十GB到数百GB，推理过程中的模型加载延迟直接影响首次响应时间。训练场景中的数据集读取则要求持续的高吞吐。深信服通过其vEDS（虚拟化分布式存储）模块提供NAS级别的文件存储能力，基于自研存储架构在超融合体系内实现接近中高端存储的文件读写性能^[5]。vEDS的分布式架构使得存储容量和吞吐可以随节点扩展线性增长，满足大模型场景对海量数据的存取需求。

在网络层面，多GPU节点间的模型并行训练需要高带宽低延迟的网络互连。深信服超融合的网络虚拟化模块支持SR-IOV和RDMA透传，使得GPU节点间的通信可以绕过虚拟化网络栈，直接利用物理网卡的硬件加速能力^[4]。这对于DeepSeek-V3-671B这类需要多卡张量并行的超大模型尤为关键——在不支持RDMA的环境中，多卡并行的通信开销可能占据总训练时间的30%以上。

部署模型的工程流程被设计为"增量式"：企业只需在现有HCI集群基础上增加一台GPU节点，即可通过SCP（信服云管理平台）统一纳管通算和智算资源^[1]。平台支持大模型和小模型的混合部署——同一集群内，既有运行ERP、OA等传统业务的虚拟机，也有运行DeepSeek推理服务的GPU容器。AICP的调度器会自动识别工作负载类型，将AI任务调度到GPU节点，传统任务调度到CPU节点，避免资源争抢。

五、AI应用创新平台：从模型到应用的闭环

深信服的AI应用创新平台（SF-FastGPT）定位为"数据运营驱动的AI应用构建平台"^[1]。其设计哲学是将AI应用开发从"需要AI专家的工程问题"转化为"业务人员可自主驱动的数据运营问题"。

平台内置了RAG（检索增强生成）最佳实践流程，涵盖数据清洗、内容提取、概要生成、QA对生成、智能分片、向量索引构建、问题重写、召回重排等完整环节^[3]。用户通过向导式界面导入企业知识库文档后，系统自动完成分片和向量化，无需手动编写任何代码即可构建知识问答应用。在生成阶段，用户可以在DeepSeek、Qwen、Llama等主流模型间自由切换，选择最适合当前场景的模型能力^[1]。

平台的核心差异化在于"运营-评估-调优"闭环。应用发布后，系统通过AI自动识别用户反馈中的高频问题，生成优化建议并推荐调优策略。例如，当发现某个知识领域的回答准确率持续偏低时，系统会建议补充该领域的知识文档或调整分片策略。这一闭环机制使得AI应用的迭代不再依赖技术团队介入，业务人员可以直接根据效果数据驱动优化。

从技术实现角度看，SF-FastGPT的RAG引擎采用多阶段检索架构：首先通过BM25进行粗召回，再通过向量相似度进行精排，最后通过Rerank模型进行最终排序。这种级联检索策略在保证召回率的同时，将最终答案的相关性提升到传统单阶段检索难以企及的水平。同时，平台支持直连企业已有知识库（如飞书文档、企业微信文件等），避免知识迁移的额外成本^[1]。

六、安全体系：大模型场景的纵深防御

深信服作为网络安全厂商，其AI方案的安全设计并非附加功能，而是贯穿整个技术栈的架构性能力。在模型资产保护层面，AICP提供模型加密技术，对训练产出的模型权重文件进行加密存储和运行时解密^[1]。这意味着即使攻击者获取了模型文件，也无法直接使用——模型权重以密文形式存储在vEDS上，仅在推理引擎加载时通过安全信道的硬件可信根进行解密，防止"模型资产"泄露。

在AI内容安全层面，深信服提供了大模型安全护栏解决方案^[6]。安全护栏在用户输入和大模型输出之间设置了多重检查机制：输入侧进行提示注入检测和敏感内容过滤，输出侧进行事实性校验和合规性审查。这一机制不仅保护企业免受模型幻觉带来的业务风险，也满足了中国监管环境对AI生成内容的合规要求。

在基础设施安全层面，aSEC安全虚拟化模块为GPU节点提供微隔离、入侵检测和流量审计能力。在多租户场景下，不同业务部门的AI应用运行在同一集群上时，aSEC确保模型推理的数据流在不同租户间严格隔离，防止跨租户的数据泄露^[4]。此外，AI网关支持API多Key精细运营，可以对不同业务线的模型调用进行细粒度的访问控制和用量计量。

安全挑战：vGPU切分引入的侧信道风险

vGPU技术在同一物理GPU上隔离多个虚拟实例，但GPU硬件层面缺乏CPU级的完整隔离机制。学术界已有多项研究表明，共享GPU的不同实例间可能存在侧信道攻击风险。深信服的vGPU方案在软件层面实现了显存和算力的配额隔离，但在面对高级持续性威胁（APT）时，物理层面的隔离强度仍需谨慎评估。对于处理高敏感数据的场景（如医疗、金融），建议采用物理GPU独占模式而非vGPU切分。

七、典型部署模式与客户实践

深信服为DeepSeek承载提供了三种部署模式，覆盖从"零基础起步"到"大规模生产"的不同阶段需求^[1][2]。

模式一：HCI+AICP本地部署。适用于对数据主权要求严格的场景。企业在现有超融合集群中增加GPU节点，部署AICP和DeepSeek模型。某新能源科技企业基于3台共24卡L20 GPU裸金属服务器建设AICP平台，系统性规划50个AI应用场景，开发了膜材料知识问答助手、订单设计生成系统等应用。人事行政智能问答助手上线后，单项任务处理时间从小时级降至分钟级^[3]。

模式二：托管云订阅。适用于希望快速获取AI能力、不愿自建基础设施的企业。深信服托管云提供基于专属资源+AICP的模型服务，用户通过SCP的AI模型服务目录一键订阅DeepSeek等模型，按用量付费^[1]。这一模式的核心优势是零运维——用户无需关注GPU驱动更新、模型版本升级、性能调优等底层细节。

模式三：混合部署。结合本地和云端的优势。企业在本地HCI集群上部署核心业务AI应用（如内部知识库、敏感数据分析），同时通过托管云获取弹性算力应对峰值需求。某医疗健康集团依托AICP统一管理4节点32卡H100算力资源，部署DeepSeek-V3-671B为数十万会员提供智能健康服务。当用户增长导致性能瓶颈时，深信服通过AICP的定向调优使APP并发能力翻倍、系统稳定性显著提升，AI建设ROI翻倍^[3]。

八、技术演进趋势与竞争分析

深信服的AI能力建设经历了清晰的演进路径：2021年明确"AI First"战略，2023年组建AIC产品团队并发布安全GPT大模型，2024年推出AICP算力平台，2025年2月发布AI应用创新平台，2025年4月AICP 2.1版本支持4090D商用671B方案^[3]。这一演进逻辑从"AI能力融入安全产品"出发，经过"AI基础设施平台化"，到"AI应用开发平民化"，体现了深信服从安全厂商向AI基础设施提供商的战略转型。

在竞争格局中，深信服的方案处于一个独特的市场定位。横向对比，华为的ModelArts和百度智能云的千帆平台更偏向公有云AI服务，适合需要大规模弹性算力的场景；新华三的AI服务器方案更偏向硬件集成，适合一次性采购大规模GPU集群的场景。深信服的差异化在于"超融合底座上的渐进式AI升级"——企业不需要推倒重来，不需要一次性采购大量GPU，而是可以在现有基础设施上逐步添加AI能力。

这种渐进式路径的代价是单点性能天花板相对较低。在极致性能场景下，专用AI集群（如英伟达DGX SuperPOD）的计算效率和网络互连能力仍然显著优于超融合方案。但对于大多数企业的实际AI应用场景——内部知识问答、智能客服、文档分析、代码辅助——推理性能的需求远未达到硬件天花板，渐进式方案的成本效益优势更为突出。

展望未来，深信服面临的关键技术挑战包括：国产GPU的推理性能优化仍需持续投入，昇腾910B与NVIDIA H20在FP16推理性能上仍有2-3倍差距；多模态模型（如视觉-语言模型）的推理优化尚处于早期阶段，需要新的显存管理和计算调度策略；AI Agent工作流的编排和执行能力，是下一代企业AI应用的核心基础设施需求，目前AICP对此的支持还不够完善。

九、结论

深信服DeepSeek承载创新方案的核心价值在于"降低AI建设的起步门槛和试错成本"。通过HCI+AICP的超融合架构，企业可以在不改变现有基础设施架构的前提下，以"增加一台GPU节点"的最小改动启动AI能力建设。SIF推理引擎在并发场景下相对Ollama的5-10倍性能提升，解决了开源推理框架在企业级场景下的性能瓶颈。vGPU切分和异构算力调度则为GPU资源的精细化利用提供了工程手段。

方案的局限性同样需要客观认识：超融合架构在GPU密集型训练场景下的效率不如专用AI集群；vGPU切分的安全隔离强度在高敏感场景下需要谨慎评估；国产GPU的性能优化和生态兼容仍需时间。对于预算充裕、追求极致性能的大型企业，专用AI集群方案可能更合适；但对于希望以低成本启动AI建设、逐步扩展的中小企业和政府机构，深信服的渐进式方案提供了一条务实可行的路径。