跨越拐点：腾讯云以全栈AI能力，驱动具身智能迈入规模商用新阶段

2026-04-02 12:23 289

摘要：

在第二届焉知人形机器人大会上，腾讯云制造行业华东解决方案负责人马英奎发表了主题演讲，其题目为“从实验室到规模化落地——腾讯云助力具身智能走进千行百业”。随后，他接受了焉知机器人的专访，深入阐释了腾讯云作为“机器人的数字化伙伴”所承担的角色，并系统分享了其在推动具身智能产业规模化过程中的核心战略、技术布局与实践思考。以下为本次专访的实录，全面呈现了腾讯云在该领域的洞察与行动路径。

随着人工智能从虚拟世界走向物理实体，具身智能正成为推动新一轮产业变革的核心技术方向。人形机器人作为具身智能的重要载体，已从早期的实验室原型和概念验证，迈入场景化试点与小规模复制的关键拐点。然而，产业在迈向规模商业化的道路上，仍面临数据稀缺、模型泛化能力不足、系统集成复杂、成本与ROI验证等多重挑战。能否跨越从“单点演示”到“稳定、高效、可复制运营”的效率与成本曲线，成为行业破局的关键。

在此背景下，以腾讯云为代表的云计算与人工智能基础设施提供商，正通过构建开放、通用、全栈的数字化底座，将高性能算力、多模态数据处理、模型训练与推理、实时音视频与网络协同等核心能力模块化、服务化，旨在提升机器人的研发效率，显著降低机器人厂商与集成商的研发门槛与部署成本，加速技术成果在真实场景中的落地与应用。

腾讯云制造行业华东解决方案负责人马英奎

焉知：您演讲的主题是“从实验室到规模化落地”，在您看来，当前具身智能产业正处于从技术验证走向规模商业化的哪个阶段？主要的驱动力、技术瓶颈以及商业阻力分别是什么？

马英奎：我认为，具身智能当前正处在一个非常关键的阶段，可以概括为：已经完成从“可行性验证”到“场景化试点”的跃迁，正在进入“小规模复制”向“规模商业化”过渡的拐点期。现在行业已经不是“能不能做”的问题，而是“能不能持续、稳定、低成本地做”。

驱动力主要有三个方面。第一是政策驱动，国家层面已经把具身智能纳入重点发展方向，标准体系、产业协同和地方落地都在加速。第二是技术驱动，尤其是 VLA、多模态、强化学习和世界模型的发展，让机器人第一次有机会把“看见、理解、行动”真正打通。第三是场景驱动，工业制造、物流仓储、商业服务、文旅导览等场景，已经从展示型应用转向真实运营型应用。

技术瓶颈也非常明确。第一是数据瓶颈，真实世界高质量、多模态、可闭环的数据仍然稀缺，采集和标注成本都很高。第二是模型瓶颈，模型在复杂环境下的泛化能力、鲁棒性和安全性仍需提升。第三是系统瓶颈，具身智能不是单一模型问题，而是本体、感知、交互、规划、控制、云边端协同共同组成的系统工程。

商业阻力则集中在三个方面：成本、交付和 ROI 验证。很多客户最关心的不是技术指标，而是部署周期多久、能不能稳定运行、多久能回本。因此我们认为，具身智能规模化的核心，不只是技术突破，更是效率和成本曲线的突破。

焉知：腾讯云将自身定位为“所有机器人的数字化伙伴”和“产业生态连接者”，在推动具身智能规模化过程中，腾讯云的核心战略与独特价值体现在哪些方面？

马英奎：腾讯云的定位非常明确，我们不是去做机器人本体，而是希望成为机器人厂商、场景伙伴和应用开发者背后的数字化伙伴。我们的核心战略，是围绕产业规模化落地最难的几个环节，去构建一套通用、开放、可复制的数字化底座。

第一，我们的价值体现在全链路能力整合。从数据采集、训练、评测、推理，到远程遥操、实时音视频、云边端协同、全球网络，我们提供的是一整套能力闭环，而不是单点工具。

第二，我们强调开放生态。比如 Tairos 的定位就是“机器人的云上大脑”，我们通过 SDK、API 的方式开放能力，帮助本体厂商快速获得感知、交互、规划和决策能力，而不是让所有企业都重复造轮子。

第三，我们的独特价值在于把腾讯已有的成熟能力迁移到具身智能产业。比如实时音视频、全球网络、高性能云服务、对象存储、大模型训练平台，这些能力原本已经在大规模产业场景中长期验证过，现在能够直接服务具身智能企业。

第四，我们还承担一个非常重要的角色，就是连接生态。一端连接机器人本体企业、算法企业、场景运营方，另一端连接制造、文旅、零售、服务等行业客户，帮助产业从“单点试点”走向“规模复制”。

一句话总结，腾讯云不参与硬件竞争，而是聚焦平台能力，帮助具身智能企业提升落地效率、降低成本，并推动业务规模化发展。

焉知：全栈能力整合：腾讯云如何将算法模型、仿真计算、云端算力、数据与网络、音视频能力等进行系统整合，构建面向真实运行环境的全栈AI底座？这套体系如何帮助企业降低研发门槛？

马英奎：具身智能真正难的地方，不在于某一个模型有多强，而在于它必须在真实世界里稳定运行。这就决定了它一定是一个全栈系统能力问题，而不是单点 AI 能力问题。

腾讯云的思路，是把产业真正需要的关键能力整合成一个面向真实运行环境的底座。具体来说，最上层是具身智能开放平台 Tairos，它负责把感知、理解、规划、交互等 AI 能力，以模块化方式开放给机器人厂商和开发者。再往下是数据平台，帮助客户做采集、存储、回放、检索、标注和数据管理，形成数据闭环。训练侧，我们通过TI 平台、高性能计算集群、分布式存储、云原生调度和多元算力架构，支撑模型的训练、精调和评测。推理侧，我们通过HAI 推理服务，提供即插即用、按量计费、自动扩缩的模型运行能力。对于远程操控和实时交互，我们有TRTC 实时音视频、低延迟网络、多网聚合能力。在全球化和云边协同场景下，我们还有全球基础设施和跨区域网络能力做支撑。

这套体系对企业最大的帮助，就是显著降低研发门槛。过去企业要自己解决算力、模型、数据、网络、部署、监控、扩缩容等一系列问题，投入大、周期长、试错成本高。现在可以基于我们的平台和服务，直接从业务场景出发，把更多精力放在本体能力、应用逻辑和行业 know-how 上，而不是把时间耗在基础设施重复建设上。

具身智能今天最大的变化，不是能不能做，而是能不能规模化做。行业真正要跨越的，不只是技术边界，而是效率和成本曲线。

未来真正有竞争力的，不是单台机器人，而是背后整套数据、模型、算力和网络协同体系。

焉知：数据与算力挑战：具身智能的训练需要海量多模态数据和极致算力，腾讯云的Data Platform、高性能计算集群等服务，是如何针对性解决这些瓶颈，以加速模型迭代的？

马英奎：数据和算力是具身智能迭代速度的两大底层变量。我们在这两个方向上，都做了有针对性的设计。

先说数据。具身智能的数据不是简单的文本或图像，它往往是视觉、语音、动作、位姿、控制信号等多模态数据的组合，而且必须和真实任务过程强绑定。所以腾讯云的数据平台重点解决三件事：第一，采得更高效，通过 VR 头显、动捕套件、远程遥操、设备接入等能力，让真实数据采集效率更高；第二，管得更系统，依托对象存储、GooseFS、智能视图、智能检索等能力，实现从采集、存储、回放、检索到标注审核的闭环管理；第三，用得更充分，让数据能够真正进入训练、评测、推理和持续优化的全流程。这样企业不是“采一堆数据放着”，而是形成一个可迭代的数据资产体系。

再说算力。具身智能训练需要的不只是 GPU 多，还要解决算力调度、存储吞吐、网络带宽、训练稳定性和利用率问题。腾讯云通过高性能计算集群、RDMA 网络、分布式存储、云原生调度、多机多卡分布式训练等能力，帮助客户把训练效率提起来。比如我们支持一云多芯、多元算力架构，也内置了 Angel 等训练加速能力，帮助提升训练性能和资源利用率。

更重要的是，这些能力不是孤立存在，而是和数据平台、模型训练平台、推理平台打通的。这样客户可以更快完成“数据进入训练—训练完成评测—评测后部署推理—推理结果再反哺数据”的闭环，真正加速模型迭代。

焉知：“云-边-端”协同与实时性：对于需要低延迟、高可靠远程操控或实时响应的场景，腾讯云提供了哪些关键技术和网络保障方案？

马英奎：具身智能有一个非常鲜明的特点，就是它和传统互联网应用不一样，它往往直接连接真实的物理动作，所以实时性和可靠性不是加分项，而是底线能力。

腾讯云在“云—边—端”协同上，重点做了三层保障。

第一层是实时音视频与遥操链路。依托 TRTC 能力，我们在具身智能远程遥操场景下，可以做到本地局域网内端到端延迟小于 30 毫秒，全国跨域公网均值小于 100 毫秒，同时在弱网场景下也能保持较好的流畅度。

第二层是网络保障能力。我们支持多网络聚合、跨区域加速、全球网络覆盖和高可靠传输，适合机器人远程运维、跨园区操作、跨国部署等场景。

第三层是推理与边缘协同能力。对于需要毫秒级响应的任务，可以在边缘或本体侧部署必要的轻量能力；对于复杂任务规划、多轮推理、群体协同等任务，则由云侧模型承担。这样可以实现“本地实时执行 + 云侧复杂决策”的协同模式。

所以我们理解的“云边端协同”，不是简单把能力拆开，而是让不同层级各司其职，在保证实时性的同时，实现整体智能水平最优。

焉知：在人形机器人于制造业的规模化落地进程中，您观察到最普遍、最迫切的需求是什么？哪些是目前最具潜力的典型应用场景？腾讯云的服务如何精准适配这些多样化需求？

马英奎：在人形机器人进入制造业的过程中，我观察到最普遍、最迫切的需求，其实不是“炫技”，而是三个非常务实的问题：第一，是否真的能稳定干活；第二，是否足够安全；第三，是否值得投入。

制造企业特别关注的是可复制性和确定性。它不希望看到一个只能在演示环境里表现很好的机器人，而是希望它能在真实产线、仓储、巡检、上下料、搬运、质检等场景中长期稳定运行。因此当前最具潜力的应用场景，往往是那些流程相对明确、任务标准化程度较高、环境半结构化、ROI 相对清晰的场景。比如产线物料搬运、设备巡检、园区物流、柔性装配辅助、危险环境作业、夜间值守等，这些场景都很有潜力。

腾讯云的适配方式，是按照场景来提供底层能力支撑。对于数据密集型场景，我们提供数据采集和数据闭环平台；对于模型复杂度高、迭代频繁的场景，我们提供训练云和算力底座；对于需要快速上线、低成本运行的场景，我们提供 HAI 推理服务；对于需要远程操控和跨区域部署的场景，我们提供实时音视频和网络保障；对于工业客户已有数字化基础的场景，我们还能结合工业互联网能力一起做融合。换句话说，我们不是用一种产品去覆盖所有需求，而是用一套可组合的底座去适配多样化场景。

焉知：腾讯云已与宇树科技等公司合作，在文旅、律所等场景进行了试点。这些试点经验如何提炼成可复用的方法论，以支持在不同区域、不同细分行业的制造企业中规模化推广？在此过程中，遇到的最大共性挑战是什么？

马英奎：我认为，试点的价值不在于“做成一个案例”，而在于能不能沉淀出一套可复制的方法论。从我们目前的实践看，这套方法论至少包括四个层面。

第一，要先做场景分层。不是所有场景都适合第一阶段导入具身智能。我们会优先选择任务边界相对清晰、作业流程相对稳定、人工替代价值明确的场景。

第二，要做数据闭环设计。很多试点失败，不是因为模型不够强，而是因为没有持续采集、标注、回流和优化机制。

第三，要做云边端一体化架构设计。哪些能力放端侧，哪些放边缘，哪些放云上，要根据场景实时性、安全性、成本结构来规划。

第四，要从一开始就按规模化交付思维去做，而不是做单点工程。也就是说，方案必须具备模块化、标准化、可迁移的特征。

最大的共性挑战，我认为是两个。一个是场景碎片化，不同客户的流程、空间、设备和管理习惯差异很大；另一个是预期管理，很多客户希望一次性解决所有问题，但现实中具身智能仍然需要分阶段落地，从单任务到多任务、从辅助到自治逐步演进。

所以我们的经验是，先找准高价值场景，再通过数据闭环、模块化平台和生态协同，逐步扩展到更多区域和更多行业。

焉知：腾讯云的WeMake工业互联网平台已助力制造业数字化转型多年，而具身智能作为新兴技术方向，您认为它是对WeMake方案的升级迭代，还是开创了全新的技术范式？从制造业‘降本、增效、提质’的角度看，具身智能将带来哪些突破性改变？

马英奎：我认为它既是升级，也是新范式。

从延续性来看，WeMake 工业互联网平台过去解决的是制造业的“连接、可视、协同、优化”问题，也就是让设备、产线、系统、管理流程更数字化、更高效。而具身智能是在这个基础上，进一步把“认知和执行”能力引入到物理世界中，所以它某种意义上是工业数字化的进一步升级。

但从本质上讲，它也确实开启了一个新范式。因为过去工业互联网更多是“让系统看见工厂”，而具身智能开始走向“让系统在工厂里行动”。这意味着我们从信息流优化，进入到了“感知—决策—执行”闭环优化的新阶段。

如果从制造业最关心的“降本、增效、提质”来看，具身智能有三个突破方向。

第一，降本，通过替代高重复、高风险、高强度岗位，降低人力和安全成本。

第二，增效，通过 7×24 小时连续作业、远程协同和更灵活的调度，提高整体运行效率。

第三，提质，通过更稳定的执行、一致性的质量控制和更强的数据反馈机制，提升生产质量和管理精度。

所以我会把它理解为：具身智能不是对工业互联网的替代，而是在工业互联网之上，把数字能力进一步转化为实体生产力。

焉知：腾讯云与众多机器人本体公司、算法公司的合作模式是怎样的？是提供标准化产品，还是深度定制的联合解决方案？如何平衡技术的开放与生态的共赢？

马英奎：我们的合作模式通常是“标准化平台能力 + 场景化联合方案”双轮驱动。

一方面，像 Tairos、数据平台、训练平台、HAI 推理服务、实时音视频、全球网络这些能力，本身就是标准化平台能力，可以通过 SDK、API、云服务等方式快速接入，帮助合作伙伴降低门槛、提升效率。

另一方面，在具体行业场景里，我们也会和机器人本体公司、算法公司、场景运营方一起做联合方案，把技术能力和行业 know-how 结合起来。因为具身智能最终落地，不是拼谁的单点技术最强，而是拼整个系统能否在真实场景里协同工作。

关于开放与共赢，我们的原则一直很明确：腾讯云做数字化底座，不抢生态伙伴的价值空间。我们希望把底层能力开放出来，让本体厂商更快拥有智能，让算法公司更快服务行业客户，让集成商更容易完成交付。只有底座开放、接口标准化、合作机制透明，生态才有机会真正做大。

所以从我们的角度看，最好的合作模式不是单点绑定，而是形成一个彼此增益、长期演进的产业协同网络。

焉知：展望未来1-2年，腾讯云在具身智能领域会重点投向哪些技术方向或行业场景？对于那些希望拥抱具身智能的中小型制造企业，您会给予怎样的入门建议和发展路径规划？

马英奎：未来 1 到 2 年，我们会重点投入三个方向。

第一，是平台化能力持续增强。包括 Tairos 的模块化能力、数据闭环能力、训练与推理效率、云边端协同能力，这些会继续升级。

第二，是面向真实场景的基础能力强化。比如多模态理解、远程遥操、低延迟网络、实时推理、群体协同等，这些是具身智能真正走入产业现场的关键。

第三，是行业场景深耕。我们会重点关注制造、物流、文旅、商业服务等场景，因为这些领域既有明确需求，也具备较好的复制基础。

对于中小型制造企业，我的建议是不要一上来就追求“大而全”，而是按照“三步走”来规划。

第一步，先找一个最适合试点的高价值场景，最好是流程相对明确、重复度高、人工压力大、ROI 清晰的场景。

第二步，用平台化能力去做轻量化验证，优先选择现成底座和成熟能力，而不是从零自建全部系统。

第三步，在试点跑通后，逐步建立数据闭环和标准化交付机制，再从单点扩展到多场景。

我想特别强调一点，具身智能不是“大企业专属”。对于中小企业来说，更重要的是找准切入口，借助成熟的云平台和生态能力，降低前期投入，缩短验证周期。只要场景选得对、路径规划得当，中小企业同样有机会在这一轮产业变革中受益。

追光者

352

获赞

粉丝

关注