赛可智能CTO专访:智能化下半场,端到端是竞争的关键
2024年世界人工智能大会暨人工智能全球治理高级别会议(WAIC2024)于7月4日上午10时在上海盛大开幕。其中,7月6日,在WAIC2024分论坛:汽车数据应用技术会议上,赛可智能科技(上海)有限公司CTO于乾坤分享了主题为《端到端自动驾驶的数据挑战》的演讲。
演讲内容主要分为三大部分:1)自动驾驶的技术演讲;2)端到端的工程化的挑战;3)上汽L3/L4级的端到端的实践。
自动驾驶技术的演进阶段划分(图片来源:赛可智能)
会后,焉知汽车有幸邀请到了赛可智能CTO于乾坤,并针对端到端相关话题就行了深度访谈。以下内容是焉知汽车在不改变受访者原意的基础上,对访谈的核心内容进行了整理和提炼,以供业内人士参考。
端到端的技术实现路径选择
焉知汽车:目前端到端方案还存在多种形式,有分段式的端到端,也有“One Model”端到端,对于车企而言,应该如何去选择适合自身的技术路线?
于乾坤:真正所谓的自动驾驶端到端,也就是狭义上的端到端,其实是One Model方案;但目前大家在做的,更多的是一种广义上的端到端,即Two Model方案。
如果车企主销车型是面向15万以下的市场,其实也不需要考虑端到端,用传统的模块化方案就可以。之前的1V1R/1V3R/1V5R 方案基本够用。
如果是一家主打高端车型的车企,那就必须得“卷”所谓的端到端了,因为智能化是汽车下半场竞争焦点。此时,路线的选择还要看自身的财力以及是否具备足够多的GPU训练卡。像特斯拉做One Model 端到端,每年的投入达到数十亿美金,拥的GPU训练卡也是远超我们国内的车企。这些差距不是靠拼人数就能够弥补的。所以,对于国内车企而言,我觉得最好先从Two Model方案做起,先把规控模块做到端到端。
焉知汽车:您认为,目前采用端到端方案还存在哪些挑战?
于乾坤:现在AI模型最大的劣势就是不可解释性,比如,训练出来的Feature可能对感知有用,但对于规控不一定有用,因为两者的关注点不一样。
另外,把端到端模型部署到车端也还存在一些问题。首先,车端的计算资源通常有限。部署端到端模型需要高性能的硬件支持,这会受到整车成本和布置空间的限制。其次,为了在车辆上部署端到端模型,需要对模型进行优化,比如模型剪枝、量化等技术,以减少模型大小和提高运行效率。最后,还需要软件和硬件的紧密协同设计,以确保端到端模型在车端能够发挥最佳的性能和效率。
Two-Model的现实选择(图片来源:赛可智能)
焉知汽车:基于纯视觉传感器数据训练出来的端到端模型,跟既有视觉也有激光雷达的多传感器数据训练出来的端到端模型,会存在比较大的区别么?
于乾坤:在Two Model方案中,通常将感知和规控过程分开,感知模块负责获取环境信息,而规控模块基于这些信息进行操作。如果感知模块能够提供准确和丰富的环境信息,无论这些信息来自纯视觉传感器,还是多个异构传感器,规控模块的模型基本都不会受到太大影响。
在One Model方案中,感知和决策过程通常是集成在一起的,因此传感器的选择会直接影响训练出来模型的性能。
焉知汽车:目前,赛可智能在端到端自动驾驶领域有何布局和规划?如何看待端到端方案的技术落地可行性?
于乾坤:我们这块已经在做了。是Two Model的方案,重点发力就是规控的端到端。从技术落地进度来讲,我们现在已经完成了在非路口场景端到端方案的仿真和压力测试。
因为路口场景比较复杂,我们是由易到难。现在,我们正在把方案去拓展到一些相对简单的路口,今年我们准备把一些端到端方案部署到我们的 Robotaxi上,甚至还会部署到一些乘用车量产车型上。今年,我们会实现初步落地,明年会实现比较大规模的推广。
端到端与数据闭环
焉知汽车:相比之前模块化的自动驾驶解决方案,端到端的解决方案对于训练数据有什么特别的地方么?
于乾坤:对于传统模块化的解决方案,下游规控模块基本都是基于规则的方法,不需要太多数据去训练。但上游的感知模块需要投入很大的精力去标定数据。
对于Two Model的端到端方案,规控模块是基于数据驱动。我们现在采用人类驾驶员的数据,即所谓的半监督或者无监督的一些数据。基本假设就是人类驾驶员的开车轨迹是比较理想的轨迹。当数据量比较大的时候,训练出来的模型便具备了人类驾驶员的“平均能力”—— 有的人驾驶激进,有的人驾驶保守,通过模型学到的就是介于这些人类驾驶员的“中间状态”。
Two Model的端到端方案对标注的要求并不高,但对数据采集的要求比较高。规控的端到端需要5个维度的数据,数据采集的时候,很多数据可能不够5个维度,即数据要素不全、缺失,数据就没法用。
另外,还存在数据采集的复用性问题。比如,规划接收上游感知显式输出,感知模型可能会存在漏检、误检、错检等问题,导致信息不准,同时随着感知模型的升级,对应的数据分布会发生改变,进而对OD、实时地图、红绿灯等产生影响。其次,同样的方向盘角度,不同轴距、质量、驱动形式的车,对应的行驶轨迹干差万别。
焉知汽车:在Two Model方案中,感知模型和规控模型所需要的训练数据是统一采集,还是分开采集?
于乾坤:在Two Model方案中,感知模型和规控模型的训练数据可以分开采集,也可以根据实际需求进行统一采集。统一采集可以在录制时同时记录人类驾驶员的驾驶数据和感知图像,从而为两个模型提供所需的数据。然而,这种全量采集方式可能会带来数据传输和存储的高成本,因此需要权衡资源投入和数据需求。
感知模型对数据的覆盖面要求较高,但实际所需的数据量可能并不大,几万条经过精确标注的数据可能就足够了。相比之下,规控模块可能需要更多的数据,尤其是在复杂的交通场景中,可能需要几十万甚至上百万条的数据。
由于数据采集和存储的成本问题,通常情况下,感知模型和规控模型的数据采集是分开进行的。这样可以根据每个模型的具体需求来优化数据采集过程,同时减少不必要的数据传输和存储成本。此外,采集到的数据还需要经过后期处理,如筛选、清洗和标注,以确保数据的质量和模型训练的有效性。
焉知汽车:训练规控模型,传感器配置是一样的,但传感器的安装位置不一样,数据是否能共用?
于乾坤:上面谈数据采集的复用性问题时,已经提到了相关问题。对于不同级别的车辆,如A级车和B级车,在执行相同操作时,由于轴距和其他车辆特性的差异,它们的轨迹可能会有显著不同。为了使这些数据能够在模型训练中通用,需要考虑如何将它们统一到一个共同的维度下。
一种策略是使用数据的归一化技术,将不同车辆的轨迹映射到统一的参考框架中。比如,我们现在有一套策略,在三维空间看轨迹是不一样的,但把它拓展到高维空间,映射到五维或六维空间来看,其实是一样的。
焉知汽车: 端到端系统在很大程度上依赖于大量的训练数据。如何确保数据的多样性和覆盖度,以及如何平衡数据有效性和数据的规模(成本)问题?
于乾坤:端到端系统对数据采集有很高的要求,确保数据的多样性和覆盖度是其主要难点之一。为了解决这一问题,可以采取多种策略,包括派遣专门的数据采集车进行有针对性的采集,以及基于量产车通过策略性触发上传,如影子模式,利用用户的车将数据上传到云端。然而,这些方法收集到的数据可能包含大量噪声和重复信息。为了提高数据质量,云端需要部署一套数据筛选系统,以筛选出真正有用的数据。
在运营策略上,可以借鉴《口袋妖怪》等游戏的策略,通过发布任务的方式鼓励用户参与数据采集,并提供奖励以增加用户的积极性。这种运营策略可以在一定程度上弥补数据多样性和覆盖率的不足。
端到端与AI大模型
焉知汽车:目前,常见的有大语言模型(LLM),视频生成大模型(VFM),还有多模态大模型(MFM)。应用在自动驾驶领域的端到端大模型属于什么类别的大模型?
于乾坤:大语言模型(LLM)在自动驾驶中的应用相对有限,主要处理文本数据。相比之下,视频生成大模型因其在视觉数据处理方面的优势而被广泛使用。而多模态大模型能更全面地模拟复杂驾驶环境中的人类感知和决策过程,因此,它具有较大的应用潜力,在未来将成为主流的应用方向。
这里说的大模型都是放在云端运行的。云端大模型通常用于复杂的数据处理和模型训练,而通过蒸馏、剪枝等技术,可以开发出简化版的“小模型”,并部署到车端,以满足车端实时性和资源限制的要求。
焉知汽车:把端到端的模型放到车端,大概需要多大的算力,现在有一些标准么?
于乾坤:单看需要多少算力不太科学。将端到端的模型部署到车端需要综合考虑算力、显存、芯片架构优化以及其他多种因素。目前,自动驾驶领域并没有一个统一的算力标准,不同模型和应用场景的需求可能会有很大差异。如果要用算力来衡量,行业内一些粗略的估计认为500TOPS可能是一个起点,但这个数字需要根据具体模型的复杂性和车辆的实际需求进行调整。并且,随着技术的进步和模型优化技术的发展,对算力的实际需求将会发生变化。
焉知汽车:关于自动驾驶领域端到端模型的训练方法,有的用模仿学习,有的用强化学习,您认为哪种方式最适合自动驾驶,为什么?
于乾坤:在自动驾驶领域,端到端模型的训练方法包括模仿学习和强化学习。强化学习依赖于仿真环境,通过与环境的交互来学习最优行为策略,但其效果受限于仿真环境的真实性。模仿学习则直接从人类驾驶员的行为中学习,利用真实世界数据来训练模型,这使得它在泛化能力上更胜一筹。
请先 登录 后再发表评论~