Alluxio Tech Day丨自动驾驶数据底座进化:跨云、算力利旧与极致加速实战
点击海报,即刻报名
为什么自动驾驶需要一场“数据底座进化”?
自动驾驶已从“单点算法竞赛”进入“数据工程效率竞赛”。一辆路测车每天产生 TB 级传感器数据,一个大规模车队每月轻松迈入 PB 级。但行业普遍面临的现实是:
1 数据入湖慢:车端上云、预处理、入湖链路长,断流与积压频发;
2 GPU 喂不饱:大量时间浪费在数据加载与格式转换上,昂贵算力闲置;
3 仿真回流难:仿真结果与影子模式数据难以高效回传,闭环“断在半路”;
4 存算分离的 I/O 瓶颈:对象存储成为新的性能墙。
更棘手的是——多云与存量算力带来的“碎片化”困境。
绝大多数自动驾驶企业采用多云/混合云策略,同时机房中仍有大量未充分利用的旧 GPU 服务器。这导致:
1 数据散落在不同云的对象存储、文件系统或冷存中,形成新的数据孤岛;
2 跨云访问延迟高、带宽贵,训练任务频繁跨云拉取数据,GPU 等待时间长;
3 不同云生态的元数据、权限、API 不一致,数据治理与统一视图极难实现;
4 算力利旧难:旧有 GPU 服务器因数据访问慢、位置绑定而难以被有效利用,造成资源浪费。
这些问题不是靠买更多 GPU、换一种存储,或者斥巨资引入并行文件系统就能解决的。需要从“数据底座”层面进化——通过一层无侵入的数据编排层,统一管理跨云、跨存储、跨算力的数据访问,实现极致加速。
活动目标
聚焦自动驾驶 AI 数据全链路(采集 → 预处理 → 训练 → 仿真),来自国内头部智驾企业的专家将分享如何通过高性能数据编排、智能缓存、存算分离架构,在多云/混合云环境下实现:
1 跨云数据统一访问与加速
2 利旧存量 GPU 算力,降低基础设施成本
3 端到端数据闭环的极致性能优化
这些深度实践将为更多AI从业者带来洞见与启发。
活动信息
联合主办 Alluxio & 张江孵化器 & 火山石投资
活动时间 4月25日(周六)13:00-17:00
活动地点 上海市浦东新区纳贤路800号(位于张江AI创新小镇)科海大楼1F纳贤厅
交通指南
公交:周边有多个公交站点,线路如:浦东25路、浦东58路、161路等
地铁:地铁13号线中科路站无缝接驳
驾车:开车近中环,设地下停车场
适合参与 来自数据闭环、AI 基础设施、算法平台、MLOps、云原生、高性能计算与存储领域的技术负责人、架构师与一线工程师。
日程安排
13:00 活动签到
13:30 开场:火山石投资
13:40 千里智驾:从GPFS扩容困境到Alluxio智能缓存架构的演进之路
14:20 造父智能(哈啰Robotaxi) - 造父智能在阿里云环境下构建极致透明的训练加速层
15:00 九识智能 - Alluxio在仿真云端调度中的应用
15:40 Alluxio - 从预训练到仿真:Alluxio 自动驾驶全链路数据流转加速方案
16:20 技术交流
线上直播将从 13:30 准时开始噢
报名方式
点击上方按钮或扫码填写信息
(线下参与名额有限,先到先得)

活动亮点抢先看
「主题一」千里智驾:从GPFS扩容困境到Alluxio智能缓存架构的演进之路

分享摘要
在AI训练场景中,存储性能往往成为制约GPU利用率的瓶颈。千里智驾成立后面临两大挑战:一是数据中心整合后训练数据供应和传输效率问题;二是高速缓存GPFS容量不足,无法满足大规模业务训练,扩容周期长。
本次分享将介绍千里智驾如何利用Alluxio,在不扩容GPFS的前提下,通过整合闲置NVMe盘构建分布式缓存层,实现优异的训练吞吐,同时打通异地数据访问链路。我们将对比GPFS传统方案的局限性,分享千里智驾从“数据搬不动”到“缓存用得满”的真实演进历程。
分享提纲
✓千里智驾的“前世今生”——Infra现状与挑战;
-
千里智驾成立于 2025 年 8 月,整合了极氪智驾、吉利研究院智驾、旷视迈驰智行三支团队,是国内智驾领域规模最大的团队整合之一。
-
算力与存储基础设施主要分布于自建私有云与公有云两类形态,算力规模达万卡以上,训练数据总量规模庞大。
-
业务整合带来核心 Infra 挑战:如何在多数据中心间实现数据高效流通,以及如何保障训练算力的无缝迁移与切换。
✓第一仗:打通异地数据链路
-
面对公有云对公有云、私有云对私有云、公有云对私有云等多种数据传输场景,优先完成各数据中心之间的专线网络链路建设,带宽达 200 Gbps,为高速数据传输奠定基础。
-
专线打通后,实现了 2 PB/天的点对点数据迁移能力,可稳定支撑业务的常规训练数据供应需求。
-
链路先行策略有效降低了后续数据加速架构的设计复杂度,为第二阶段的缓存层建设提供了可靠的底层传输保障。
✓第二仗:不扩GPFS,如何“满足”高并发数据训练需求
-
数据整合完成后,GPFS 高并发文件系统的容量瓶颈成为制约大规模业务训练的首要障碍——扩容周期长、成本高、灵活性差。
-
存量私有云大卡服务器中默认配置了 4 块 NVMe 磁盘,其中 3 块长期处于闲置状态,如何盘活这部分存量资源成为架构设计的核心出发点。
-
引入 Alluxio 分布式缓存层作为解决方案:以专线带宽为传输底座,以闲置 NVMe 磁盘为本地缓存介质,在 GPFS 不扩容的前提下,实现了跨数据中心的 NAS/OSS 数据高性能预热与并发访问。
-
方案落地后,训练吞吐和闲置资源利用率大幅提升,真正实现了"用存量换增量"的降本增效目标。
✓实战中的挑战与应对
-
数据访问异常排查:在高并发训练场景下遇到的数据访问稳定性问题,包括缓存命中率波动、跨数据中心延迟抖动等典型问题的诊断与调优过程。
-
结合实际运营经验,总结出适用于异构多云存储场景的 Alluxio 配置策略与运维最佳实践。
✓经验总结与未来展望
-
Alluxio 的分布式缓存架构有效解决了跨数据中心的数据传输与加速难题,充分盘活了服务器闲置存储资源,是经过实际生产验证的可落地降本增效方案。
-
在 AI 快速发展的背景下,该方案为企业提供了一条无需大规模存储扩容即可支撑大规模训练的可行路径,具有较强的复制推广价值。
-
期待与 Alluxio 团队持续深入合作,进一步探索智能缓存调度、异构存储统一管理等前沿方向,共同为企业 AI 基础设施赋能。
听众收益
✓学会“省”:了解如何在不扩容GPFS的情况下,利用闲置NVMe盘扩展缓存容量,规避高昂的硬件采购成本和漫长的扩容周期;
✓学会“快”:掌握在100Gbps网络条件下实现优异训练吞吐的架构方法,让GPU不再等数据;;
✓学会“通”:学习跨数据中心、跨KDC的统一数据访问方案,消除异地训练的数据流转障碍;
✓学会“选”:理解GPFS vs Alluxio在AI训练场景下的适用边界,为自己的架构决策提供参考。
「主题二」造父智能(哈啰Robotaxi)在阿里云环境下构建极致透明的训练加速层

分享摘要
在存算分离的阿里云环境下,自动驾驶模型训练面临 OSS 数据访问延迟高、GPU 利用率不足的普遍挑战。造父智能基于 Alluxio 构建了一套对用户完全透明的训练数据加速层:平台自动完成 OSS Bucket 到 Alluxio UFS 的注册,根据队列节点类型智能选择挂载策略(CSI Ephemeral / Sidecar FUSE / PVC),训练 Pod 内仅可见标准 POSIX 路径,数据加速与缓存管理对用户完全不可见。
本次分享将剖析这套加速层从架构设计到生产落地的完整过程,涵盖 UFS 自动化管理、多策略挂载翻译引擎、跨命名空间 PVC 同步、多云凭证治理等已落地的核心实践。
分享提纲
✓背景与挑战:阿里云存算分离架构下 GPU 训练的 I/O 困境
✓架构总览:「对用户透明」的数据加速层设计理念
✓Alluxio 深度集成实践
-
UFS 自动注册与生命周期管理;
-
多策略挂载翻译引擎(CSI / Sidecar / PVC);
-
SubPath 失效问题分析与 CSI Ephemeral 自愈方案;
-
跨命名空间 PVC 自动同步机制。
✓生产经验:多云凭证治理、路径规范化踩坑、队列级灰度策略
听众收益
✓了解如何将 Alluxio 深度集成到 K8s 训练平台,实现用户零感知的数据加速
✓掌握 CSI Ephemeral / Sidecar FUSE / PVC 三种挂载策略的选型与灰度切换方法
✓理解 SubPath 失效根因,获取基于 CSI Ephemeral 的自愈方案
✓借鉴多云环境(阿里云 OSS + 百度云 BOS)下的数据统一访问与凭证管理实践
「主题三」 Alluxio在仿真云端调度中的应用

分享摘要
我们的仿真 pipeline 集群需要频繁访问对象存储中的热数据。为减轻对象存储带宽压力,我们自研了 Cache系统 将热数据缓存到 PFS 上,同时 PFS 也承担 pipeline 步骤间的中间数据交换。
随着业务规模扩张,PFS 带宽为新瓶颈——扩带宽必须购买多余存储空间,普通版有上限,性能版成本过高。为此我们引入 Alluxio 企业版分布式缓存,利用 K8s 节点本地磁盘替代 PFS 作为缓存介质,实现 IO 带宽随节点数线性扩展;同时用 Alluxio 的 Cache-Only 集群级写缓存替代 PFS 做中间数据交换。
本次分享将介绍我们从问题发现、技术选型到方案落地的完整过程,以及 Alluxio 在仿真 pipeline 场景下的适用性评估。
分享提纲
✓业务背景:分布式仿真 pipeline 的数据访问架构
✓遇到的挑战:自研Cache + PFS 组合的带宽瓶颈与成本困境
✓为什么选择 Alluxio:技术选型的核心考量
✓Alluxio 如何解决两个问题:读缓存层替代自研Cache + PFS,Cache-Only 写缓存替代 PFS 中间数据交换
✓收益与对比:性能、架构的前后变化
听众收益
✓了解 PFS 带宽受限场景下的一种低成本替代方案
✓理解 Alluxio 分布式缓存的核心架构与适用场景(特别是仿真/AI pipeline 中的热数据缓存与中间数据交换)
✓获得"自研缓存 → 成熟商业产品"迁移的选型思路和评估方法
✓掌握 Alluxio Cache-Only 模式在短生命周期、单写单读数据场景中的实践经验
「主题四」 从预训练到仿真:Alluxio 自动驾驶全链路数据流转加速方案

分享摘要
自动驾驶的研发是一场数据驱动的“耐力赛”。从数 PB 级的原始路采数据清洗、到高强度的感知模型预训练,再到大规模的仿真闭环测试,每一个环节都面临着严苛的 I/O 挑战:计算资源被 I/O 阻塞、多地协同效率低下、海量小文件读取缓慢。
本次分享将重点介绍 Alluxio 如何构建自动驾驶全链路的数据加速闭环:从感知训练的高性能数据读取,到仿真测试的大规模并发接入。同时,我们也将首次分享 Alluxio 在 Checkpoint 写加速领域的最新探索——Write Cache 能力。通过读写解耦实践,在保障稳定性的前提下,解决由于底层存储延迟带来的 GPU 算力损耗,助力自动驾驶全链路效率的极致优化。
分享提纲
✓自动驾驶数据闭环的核心挑战
-
读瓶颈:感知模型训练中的海量图片与点云读取延迟。
-
写瓶颈:大规模分布式训练中 Checkpoint 写入导致的训练 Stall。
✓Alluxio 全链路加速技术栈
-
感知训练加速:基于 POSIX 的透明加速方案与元数据优化。
-
Write Cache 技术前瞻:实现 Checkpoint 的异步写缓存,缓解底层存储 I/O 压力,提升任务连续性。
-
仿真闭环加速:支撑大规模仿真容器集群的并发数据分发。
✓典型场景与实战经验
-
如何在混合云架构下实现数据的高效编排。
-
针对自动驾驶场景的缓存策略实践。
✓Roadmap 展望:从读加速走向读写全链路加速
听众收益
✓全链路视角:获取从预训练到仿真测试的一站式数据加速思路。
✓抢先了解新特性:了解 Alluxio Write Cache 的性能benchmark,探讨如何减少训练过程中的写等待。
✓算力利用率优化:学习如何通过数据编排减少 I/O 等待,让昂贵的 GPU 资源运行更高效。
✓同行交流:与 Alluxio 技术专家探讨自动驾驶领域数据平台的演进趋势。
Dressing Code
凡是参会者着装带有蓝色元素,即可领取精美小礼品一份。
主办方简介
Vπ张江孵化器
Vπ张江孵化器立足张江科学城核心区,以连锁化模式运营专业孵化载体,深耕数字信息产业赛道。以培育“未来”、服务“早小”、助力“青创”为使命,以“孵投一体”为特色,以十余年科创服务经验为保障,深度联动张江科学城产业生态资源,为早期科技型企业提供全周期、全链条专业孵化服务,构建投资引领的创新创业生态圈,全力支撑张江全球科创中心建设。
火山石投资
火山石投资是一家覆盖人民币、美元基金的风险投资机构,管理资产规模30亿人民币以上。由三位创始合伙人章苏阳、董叶顺、吴颖于2016年成立。
致力于发掘、投资并服务中国硬科技和医疗健康领域具有高成长潜力的早中期创业企业。我们希望持续陪伴那些勇敢的、有韧性的、有创新精神的创业者们,以厚积薄发之力,造勇者开创之梦。
目前已投资100+优秀企业,包括极智嘉(2590.HK)、灿芯半导体(688691.SH )、格思航天、凌空天行、海微科技、上海超导等智能技术领域的投资项目和佳量医疗、同心医疗、光脉医疗、三迭纪、凡恩世、吉因加等医疗健康领域的投资项目。荣获投中网2024年度最佳早期投资机构TOP30、清科2024年度中国创业投资机构TOP100、36Kr 2024年度中国股权投资行业创业投资机构100等殊荣。
Alluxio
Alluxio是全球领先的高性能数据平台提供商,聚焦于AI & 大数据场景,可加速企业Al产品价值变现,并最大化基础设施的投资回报。Alluxio 数据平台位于计算与存储框架之间,能够在数据工作流的各个阶段为数据平台上的工作负载提供统一视图。无论数据位于何处,该平台均可提供高性能的数据访问,简化数据工程,提高GPU 利用率,并降低云计算和存储成本。企业无需使用专用存储,即可大幅加速AI 全链路数据闭环,在现有数据湖上构建Al基础设施。
Alluxio在头部投资者的支持下,为全球科技、互联网、金融和电信企业提供服务,目前全球排名前10的互联网公司中有9家在使用Alluxio。
【添加小助手获取更多资料】
*本文配图由AI生成
热门文章
更多精华美文扫码阅读
焉知汽车
希骥电池与储能

请先 登录 后再发表评论~