跨越拐点:腾讯云以全栈AI能力,驱动具身智能迈入规模商用新阶段
随着人工智能从虚拟世界走向物理实体,具身智能正成为推动新一轮产业变革的核心技术方向。人形机器人作为具身智能的重要载体,已从早期的实验室原型和概念验证,迈入场景化试点与小规模复制的关键拐点。然而,产业在迈向规模商业化的道路上,仍面临数据稀缺、模型泛化能力不足、系统集成复杂、成本与ROI验证等多重挑战。能否跨越从“单点演示”到“稳定、高效、可复制运营”的效率与成本曲线,成为行业破局的关键。
在此背景下,以腾讯云为代表的云计算与人工智能基础设施提供商,正通过构建开放、通用、全栈的数字化底座,将高性能算力、多模态数据处理、模型训练与推理、实时音视频与网络协同等核心能力模块化、服务化,旨在提升机器人的研发效率,显著降低机器人厂商与集成商的研发门槛与部署成本,加速技术成果在真实场景中的落地与应用。
在第二届焉知人形机器人大会上,腾讯云制造行业华东解决方案负责人马英奎发表了主题演讲,其题目为“从实验室到规模化落地——腾讯云助力具身智能走进千行百业”。随后,他接受了焉知机器人的专访,深入阐释了腾讯云作为“机器人的数字化伙伴”所承担的角色,并系统分享了其在推动具身智能产业规模化过程中的核心战略、技术布局与实践思考。以下为本次专访的实录,全面呈现了腾讯云在该领域的洞察与行动路径。
腾讯云制造行业华东解决方案负责人马英奎
焉知:您演讲的主题是“从实验室到规模化落地”,在您看来,当前具身智能产业正处于从技术验证走向规模商业化的哪个阶段?主要的驱动力、技术瓶颈以及商业阻力分别是什么?
马英奎:我认为,具身智能当前正处在一个非常关键的阶段,可以概括为:已经完成从“可行性验证”到“场景化试点”的跃迁,正在进入“小规模复制”向“规模商业化”过渡的拐点期。现在行业已经不是“能不能做”的问题,而是“能不能持续、稳定、低成本地做”。
驱动力主要有三个方面。第一是政策驱动,国家层面已经把具身智能纳入重点发展方向,标准体系、产业协同和地方落地都在加速。第二是技术驱动,尤其是 VLA、多模态、强化学习和世界模型的发展,让机器人第一次有机会把“看见、理解、行动”真正打通。第三是场景驱动,工业制造、物流仓储、商业服务、文旅导览等场景,已经从展示型应用转向真实运营型应用。
技术瓶颈也非常明确。第一是数据瓶颈,真实世界高质量、多模态、可闭环的数据仍然稀缺,采集和标注成本都很高。第二是模型瓶颈,模型在复杂环境下的泛化能力、鲁棒性和安全性仍需提升。第三是系统瓶颈,具身智能不是单一模型问题,而是本体、感知、交互、规划、控制、云边端协同共同组成的系统工程。
商业阻力则集中在三个方面:成本、交付和 ROI 验证。很多客户最关心的不是技术指标,而是部署周期多久、能不能稳定运行、多久能回本。因此我们认为,具身智能规模化的核心,不只是技术突破,更是效率和成本曲线的突破。
焉知:腾讯云将自身定位为“所有机器人的数字化伙伴”和“产业生态连接者”,在推动具身智能规模化过程中,腾讯云的核心战略与独特价值体现在哪些方面?
马英奎:腾讯云的定位非常明确,我们不是去做机器人本体,而是希望成为机器人厂商、场景伙伴和应用开发者背后的数字化伙伴。我们的核心战略,是围绕产业规模化落地最难的几个环节,去构建一套通用、开放、可复制的数字化底座。
第一,我们的价值体现在全链路能力整合。从数据采集、训练、评测、推理,到远程遥操、实时音视频、云边端协同、全球网络,我们提供的是一整套能力闭环,而不是单点工具。
第二,我们强调开放生态。比如 Tairos 的定位就是“机器人的云上大脑”,我们通过 SDK、API 的方式开放能力,帮助本体厂商快速获得感知、交互、规划和决策能力,而不是让所有企业都重复造轮子。
第三,我们的独特价值在于把腾讯已有的成熟能力迁移到具身智能产业。比如实时音视频、全球网络、高性能云服务、对象存储、大模型训练平台,这些能力原本已经在大规模产业场景中长期验证过,现在能够直接服务具身智能企业。
第四,我们还承担一个非常重要的角色,就是连接生态。一端连接机器人本体企业、算法企业、场景运营方,另一端连接制造、文旅、零售、服务等行业客户,帮助产业从“单点试点”走向“规模复制”。
一句话总结,腾讯云不参与硬件竞争,而是聚焦平台能力,帮助具身智能企业提升落地效率、降低成本,并推动业务规模化发展。
焉知:全栈能力整合:腾讯云如何将算法模型、仿真计算、云端算力、数据与网络、音视频能力等进行系统整合,构建面向真实运行环境的全栈AI底座?这套体系如何帮助企业降低研发门槛?
马英奎:具身智能真正难的地方,不在于某一个模型有多强,而在于它必须在真实世界里稳定运行。这就决定了它一定是一个全栈系统能力问题,而不是单点 AI 能力问题。
腾讯云的思路,是把产业真正需要的关键能力整合成一个面向真实运行环境的底座。具体来说,最上层是具身智能开放平台 Tairos,它负责把感知、理解、规划、交互等 AI 能力,以模块化方式开放给机器人厂商和开发者。再往下是数据平台,帮助客户做采集、存储、回放、检索、标注和数据管理,形成数据闭环。训练侧,我们通过TI 平台、高性能计算集群、分布式存储、云原生调度和多元算力架构,支撑模型的训练、精调和评测。推理侧,我们通过HAI 推理服务,提供即插即用、按量计费、自动扩缩的模型运行能力。对于远程操控和实时交互,我们有TRTC 实时音视频、低延迟网络、多网聚合能力。在全球化和云边协同场景下,我们还有全球基础设施和跨区域网络能力做支撑。
这套体系对企业最大的帮助,就是显著降低研发门槛。过去企业要自己解决算力、模型、数据、网络、部署、监控、扩缩容等一系列问题,投入大、周期长、试错成本高。现在可以基于我们的平台和服务,直接从业务场景出发,把更多精力放在本体能力、应用逻辑和行业 know-how 上,而不是把时间耗在基础设施重复建设上。
具身智能今天最大的变化,不是能不能做,而是能不能规模化做。行业真正要跨越的,不只是技术边界,而是效率和成本曲线。
未来真正有竞争力的,不是单台机器人,而是背后整套数据、模型、算力和网络协同体系。
焉知:数据与算力挑战:具身智能的训练需要海量多模态数据和极致算力,腾讯云的Data Platform、高性能计算集群等服务,是如何针对性解决这些瓶颈,以加速模型迭代的?
马英奎:数据和算力是具身智能迭代速度的两大底层变量。我们在这两个方向上,都做了有针对性的设计。
先说数据。具身智能的数据不是简单的文本或图像,它往往是视觉、语音、动作、位姿、控制信号等多模态数据的组合,而且必须和真实任务过程强绑定。所以腾讯云的数据平台重点解决三件事:第一,采得更高效,通过 VR 头显、动捕套件、远程遥操、设备接入等能力,让真实数据采集效率更高;第二,管得更系统,依托对象存储、GooseFS、智能视图、智能检索等能力,实现从采集、存储、回放、检索到标注审核的闭环管理;第三,用得更充分,让数据能够真正进入训练、评测、推理和持续优化的全流程。这样企业不是“采一堆数据放着”,而是形成一个可迭代的数据资产体系。
再说算力。具身智能训练需要的不只是 GPU 多,还要解决算力调度、存储吞吐、网络带宽、训练稳定性和利用率问题。腾讯云通过高性能计算集群、RDMA 网络、分布式存储、云原生调度、多机多卡分布式训练等能力,帮助客户把训练效率提起来。比如我们支持一云多芯、多元算力架构,也内置了 Angel 等训练加速能力,帮助提升训练性能和资源利用率。
更重要的是,这些能力不是孤立存在,而是和数据平台、模型训练平台、推理平台打通的。这样客户可以更快完成“数据进入训练—训练完成评测—评测后部署推理—推理结果再反哺数据”的闭环,真正加速模型迭代。
焉知:“云-边-端”协同与实时性:对于需要低延迟、高可靠远程操控或实时响应的场景,腾讯云提供了哪些关键技术和网络保障方案?
马英奎:具身智能有一个非常鲜明的特点,就是它和传统互联网应用不一样,它往往直接连接真实的物理动作,所以实时性和可靠性不是加分项,而是底线能力。
腾讯云在“云—边—端”协同上,重点做了三层保障。
第一层是实时音视频与遥操链路。依托 TRTC 能力,我们在具身智能远程遥操场景下,可以做到本地局域网内端到端延迟小于 30 毫秒,全国跨域公网均值小于 100 毫秒,同时在弱网场景下也能保持较好的流畅度。
第二层是网络保障能力。我们支持多网络聚合、跨区域加速、全球网络覆盖和高可靠传输,适合机器人远程运维、跨园区操作、跨国部署等场景。
第三层是推理与边缘协同能力。对于需要毫秒级响应的任务,可以在边缘或本体侧部署必要的轻量能力;对于复杂任务规划、多轮推理、群体协同等任务,则由云侧模型承担。这样可以实现“本地实时执行 + 云侧复杂决策”的协同模式。
所以我们理解的“云边端协同”,不是简单把能力拆开,而是让不同层级各司其职,在保证实时性的同时,实现整体智能水平最优。
焉知:在人形机器人于制造业的规模化落地进程中,您观察到最普遍、最迫切的需求是什么?哪些是目前最具潜力的典型应用场景?腾讯云的服务如何精准适配这些多样化需求?
马英奎:在人形机器人进入制造业的过程中,我观察到最普遍、最迫切的需求,其实不是“炫技”,而是三个非常务实的问题:第一,是否真的能稳定干活;第二,是否足够安全;第三,是否值得投入。
制造企业特别关注的是可复制性和确定性。它不希望看到一个只能在演示环境里表现很好的机器人,而是希望它能在真实产线、仓储、巡检、上下料、搬运、质检等场景中长期稳定运行。因此当前最具潜力的应用场景,往往是那些流程相对明确、任务标准化程度较高、环境半结构化、ROI 相对清晰的场景。比如产线物料搬运、设备巡检、园区物流、柔性装配辅助、危险环境作业、夜间值守等,这些场景都很有潜力。
腾讯云的适配方式,是按照场景来提供底层能力支撑。对于数据密集型场景,我们提供数据采集和数据闭环平台;对于模型复杂度高、迭代频繁的场景,我们提供训练云和算力底座;对于需要快速上线、低成本运行的场景,我们提供 HAI 推理服务;对于需要远程操控和跨区域部署的场景,我们提供实时音视频和网络保障;对于工业客户已有数字化基础的场景,我们还能结合工业互联网能力一起做融合。换句话说,我们不是用一种产品去覆盖所有需求,而是用一套可组合的底座去适配多样化场景。
焉知:腾讯云已与宇树科技等公司合作,在文旅、律所等场景进行了试点。这些试点经验如何提炼成可复用的方法论,以支持在不同区域、不同细分行业的制造企业中规模化推广?在此过程中,遇到的最大共性挑战是什么?
马英奎:我认为,试点的价值不在于“做成一个案例”,而在于能不能沉淀出一套可复制的方法论。从我们目前的实践看,这套方法论至少包括四个层面。
第一,要先做场景分层。不是所有场景都适合第一阶段导入具身智能。我们会优先选择任务边界相对清晰、作业流程相对稳定、人工替代价值明确的场景。
第二,要做数据闭环设计。很多试点失败,不是因为模型不够强,而是因为没有持续采集、标注、回流和优化机制。
第三,要做云边端一体化架构设计。哪些能力放端侧,哪些放边缘,哪些放云上,要根据场景实时性、安全性、成本结构来规划。
第四,要从一开始就按规模化交付思维去做,而不是做单点工程。也就是说,方案必须具备模块化、标准化、可迁移的特征。
最大的共性挑战,我认为是两个。一个是场景碎片化,不同客户的流程、空间、设备和管理习惯差异很大;另一个是预期管理,很多客户希望一次性解决所有问题,但现实中具身智能仍然需要分阶段落地,从单任务到多任务、从辅助到自治逐步演进。
所以我们的经验是,先找准高价值场景,再通过数据闭环、模块化平台和生态协同,逐步扩展到更多区域和更多行业。
焉知:腾讯云的WeMake工业互联网平台已助力制造业数字化转型多年,而具身智能作为新兴技术方向,您认为它是对WeMake方案的升级迭代,还是开创了全新的技术范式?从制造业‘降本、增效、提质’的角度看,具身智能将带来哪些突破性改变?
马英奎:我认为它既是升级,也是新范式。
从延续性来看,WeMake 工业互联网平台过去解决的是制造业的“连接、可视、协同、优化”问题,也就是让设备、产线、系统、管理流程更数字化、更高效。而具身智能是在这个基础上,进一步把“认知和执行”能力引入到物理世界中,所以它某种意义上是工业数字化的进一步升级。
但从本质上讲,它也确实开启了一个新范式。因为过去工业互联网更多是“让系统看见工厂”,而具身智能开始走向“让系统在工厂里行动”。这意味着我们从信息流优化,进入到了“感知—决策—执行”闭环优化的新阶段。
如果从制造业最关心的“降本、增效、提质”来看,具身智能有三个突破方向。
第一,降本,通过替代高重复、高风险、高强度岗位,降低人力和安全成本。
第二,增效,通过 7×24 小时连续作业、远程协同和更灵活的调度,提高整体运行效率。
第三,提质,通过更稳定的执行、一致性的质量控制和更强的数据反馈机制,提升生产质量和管理精度。
所以我会把它理解为:具身智能不是对工业互联网的替代,而是在工业互联网之上,把数字能力进一步转化为实体生产力。
焉知:腾讯云与众多机器人本体公司、算法公司的合作模式是怎样的?是提供标准化产品,还是深度定制的联合解决方案?如何平衡技术的开放与生态的共赢?
马英奎:我们的合作模式通常是“标准化平台能力 + 场景化联合方案”双轮驱动。
一方面,像 Tairos、数据平台、训练平台、HAI 推理服务、实时音视频、全球网络这些能力,本身就是标准化平台能力,可以通过 SDK、API、云服务等方式快速接入,帮助合作伙伴降低门槛、提升效率。
另一方面,在具体行业场景里,我们也会和机器人本体公司、算法公司、场景运营方一起做联合方案,把技术能力和行业 know-how 结合起来。因为具身智能最终落地,不是拼谁的单点技术最强,而是拼整个系统能否在真实场景里协同工作。
关于开放与共赢,我们的原则一直很明确:腾讯云做数字化底座,不抢生态伙伴的价值空间。我们希望把底层能力开放出来,让本体厂商更快拥有智能,让算法公司更快服务行业客户,让集成商更容易完成交付。只有底座开放、接口标准化、合作机制透明,生态才有机会真正做大。
所以从我们的角度看,最好的合作模式不是单点绑定,而是形成一个彼此增益、长期演进的产业协同网络。
焉知:展望未来1-2年,腾讯云在具身智能领域会重点投向哪些技术方向或行业场景?对于那些希望拥抱具身智能的中小型制造企业,您会给予怎样的入门建议和发展路径规划?
马英奎:未来 1 到 2 年,我们会重点投入三个方向。
第一,是平台化能力持续增强。包括 Tairos 的模块化能力、数据闭环能力、训练与推理效率、云边端协同能力,这些会继续升级。
第二,是面向真实场景的基础能力强化。比如多模态理解、远程遥操、低延迟网络、实时推理、群体协同等,这些是具身智能真正走入产业现场的关键。
第三,是行业场景深耕。我们会重点关注制造、物流、文旅、商业服务等场景,因为这些领域既有明确需求,也具备较好的复制基础。
对于中小型制造企业,我的建议是不要一上来就追求“大而全”,而是按照“三步走”来规划。
第一步,先找一个最适合试点的高价值场景,最好是流程相对明确、重复度高、人工压力大、ROI 清晰的场景。
第二步,用平台化能力去做轻量化验证,优先选择现成底座和成熟能力,而不是从零自建全部系统。
第三步,在试点跑通后,逐步建立数据闭环和标准化交付机制,再从单点扩展到多场景。
我想特别强调一点,具身智能不是“大企业专属”。对于中小企业来说,更重要的是找准切入口,借助成熟的云平台和生态能力,降低前期投入,缩短验证周期。只要场景选得对、路径规划得当,中小企业同样有机会在这一轮产业变革中受益。
热门文章
更多精华美文扫码阅读
焉知汽车
希骥电池与储能

请先 登录 后再发表评论~