DeepSeek:一场手撸算子的革新,将为具身智能带来哪些革命性颠覆?
作者 | lotus
出品 | 焉知人形机器人
最近,DeepSeek对OpenAI的突然袭击可以说成为了震动全球的“黑马事件”。可以说这样的重大突破在业内引起了轩然大波,很多专业人士意识到了三方面业务调整正在如火如荼的进行中:即整个算力霸权正在转移、开源生态正在进行商业重构、中国式0-1的创新已经开始崛起。大家体会下这句话的分量,以及对于CUDA的启示...
可以说,幻方这帮人都是手撸算子的天才。即当OpenAI沉迷于通过基于足够的算力作为基础堆叠算法优化时,中国团队则考虑基于纯算法优化将每个CUDA核心的价值压榨到小数点后四位,这种过程个人以为类似于"算力堆栈优化",即同一基座叠加不同的算力方块,将算力缝隙全部填满。笔者认为,像Deepseek这样的算法创新突破所实现的"算力基座优化器",正在逐步造成像英伟达这类以算力为核心进行研发优势布局AI领域的高新技术公司的市值萎缩甚至崩塌。
因为他颠覆了传统方式计算AI算力成本=GPU数量×单价的方式,改为新范式中有效算力=算法效率×硬件利用率的方式。
那么,有人可能会问,Deepseek在ai上为啥能够比当前的大模型算法更优,技术原理到底好在哪里?
简单地说,DeepSeek在AI领域的优势主要源于它具备高效架构设计、先进算法、数据处理与增强、优化与加速、持续学习与更新、安全与隐私、用户体验优化。比如,DeepSeek的高效架构设计通过模块化、轻量化、分布式计算、自动化、缓存、容错和可扩展性等技术,这种高效架构设计着力于所应用的蒸馏模型在推理效率方面表现出的显著提升,表现为模型结构的优化和蒸馏技术的应用。通过将知识从大型复杂模型(教师模型)迁移到小型高效模型(学生模型),DeepSeek的蒸馏模型在计算资源、内存使用和推理速度方面都实现了显著的优化,同时使其在大规模数据处理和复杂任务中表现优异。
有人可能会问,以上的措施别的ai大模型也做到了,为什么deepseek就比别人做的好呢?
DeepSeek 之所以在某些方面比其他 AI 大模型表现更优,不仅仅是因为它采用了高效架构设计、轻量化模型、分布式计算等技术,更重要的是它在技术细节的实现,创新点的结合以及对实际应用场景的深度优化上做得更好。这些技术细节包括算法创新、数据利用、模型优化、场景适配、资源管理、生态整合等方面进行的更深度优化和创新。这些优势不仅体现在技术层面,还体现在对实际应用场景的深刻理解和快速响应能力上。正是这些细节上的精益求精,使得 DeepSeek 能够在竞争激烈的 AI 领域中脱颖而出。
大家都是知道,大模型时代是数据为王的时代,即在完全实现生成式AI的情况下,做推理式AI是需要足够多数据进行支撑的。基于如上的技术拆解,我们来详细讲解一下deepseek如何在如上提到的高效数据利用上体现出优势的?
本文将以具身智能AI Agent(智驾汽车、智能机器人等)领域的实例来进行讲解。
数据增强与合成
数据生成方面,通过数据增强与合成来应对极端场景。由于在自动驾驶中,真实路测难以覆盖所有危险场景(如行人突然横穿马路)。DeepSeek 可以构建高保真的虚拟驾驶场景(如极端天气、突发事故),通过合成数据训练模型,弥补真实数据中罕见场景的不足。生成对抗网络(GAN),包括生成多样化的行人、车辆行为模式,提升模型对复杂交通场景的适应能力。基于此,DeepSeek所构建的虚拟仿真生成的此类场景数据,使模型提前学习应对策略,避免实际路测中的安全隐患。通过云端协同的方式,将数据合成和仿真训练放在云端完成,车端仅需加载轻量化模型,避免占用车端算力。
实际上,DeepSeek 在高效数据利用和处理方面的优势主要体现在其对数据的深度挖掘、增强、保护以及跨领域迁移能力的优化上。且DeepSeek架构的优雅之处就在于,和标准的transformer架构比较起来, 并没有引入特殊的算子,理论上可以相对轻松支持各种类型卡。因此,对于车端域控的芯片及核间布局来讲,可以完全进行算子适配,只要在前端进行适当的模型和数据拆解即可。
在模型处理方面,通过小样本学习来降低数据依赖。比如采取元学习(Meta-Learning)方式,通过少量真实驾驶数据(如不同城市的交通规则),快速适配新环境。同时,基于预训练模型迁移应用到大规模通用驾驶数据(如城市道路、高速公路)预训练模型中,再通过少量本地数据进行微调。
实际上,如上这种方式在DeepSeek中被称之为知识蒸馏处理技术。蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。其核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署。这也是我们这里将重点展开讲的一种技术,将是如何应用到具身智能中的,也是业界需要深入探索的技术。
当然除了模型蒸馏外,还包括数据蒸馏技术。数据蒸馏通过优化训练数据,帮助小模型更高效地学习。DeepSeek的蒸馏技术将数据蒸馏与模型蒸馏相结合,实现了从大型复杂模型到小型高效模型的知识迁移。当然知识蒸馏过程中,DeepSeek设计了混合损失函数,这样的处理方式也类似于当前在具身智能领域所应用的预训练与微调技术。不同之处在于,DeepSeek这种设计混合损失函数的模式很值得借鉴:即设计包括软标签损失(软标签损失鼓励学生模型模仿教师模型的输出概率分布)和硬标签损失(确保学生模型正确预测真实标签)。
在应用于具身智能(如自动驾驶、智能机器人等)场景数据训练过程中,使用DeepSeek 所具备的神奇自我进化能力可以自发地产生一些高级推理行为,如自我反思。同时,它还会重新审视和评估自己之前的推理步骤,以及探索多种解题思路,尝试从不同角度解决问题。这一特殊性能可以很好的被利用在基于基础驾驶场景的泛化设计处理中。
当然,当前对于具身智能处理模型而言,通常是基于大量基础大模型做监督微调优化进行处理的。这与Deepseek中知识蒸馏技术中应用SFT监督微调处理模式差不多。具体来说,学生模型通过学习教师模型的输出概率分布,调整自身的参数,以尽可能接近教师模型的性能。与直接从DeepSeek基础模型V3开始强化学习不同,升级版本R1综合考虑在训练初期构建并收集少量高质量的长思维链数据(进行多步推理、长期记忆和上下文关联的数据),引导模型生成详细结果,并以此对模型进行微调,这样就可以作为初始的强化学习 RL 训练的起点。这种模式应用到智驾系统开发中,可以是已经完成监督学习后形成的高质量标注专家数据,类似LSTM网络结合Transformer的处理方式对每个图像Token进行处理。
当然,如果能绕过传统的监督微调步骤,直接在基础模型上开展强化学习,让模型在自我探索中挖掘推理潜力。也可以减少了对大规模标注数据的依赖,降低数据收集和标注成本,还赋予模型自主学习复杂推理策略的能力。这也是下一步具身智能领域正在探索的重要步骤,这对于基于基础数据做泛化设计来说是非常有利的。比如,由OpenAI最新发布的Deep Research技术就是一种典型的不依赖于已有数据进行监督学习的方式,可以堪称生成式AI推理的典范。借用该模型主导思想是通过模型不断的与环境进行交互,从环境反馈中学习最优行为策略,这样在感知获取信息是,模型就会根据感知到的具体环境内容结合人类赋予这一具身AI Agent的任务项,自主判断该场景下需要调用的合适且符合安全的处理策略。比如,制动避撞还是绕行避撞;拧开门锁抑或是打开瓶盖等。
实时数据处理与增量学习
在实时数据处理与增量学习方面,将Deepseek的思维方法应用到自动驾驶中,可以通过边缘计算在车端部署轻量化模型,实时处理传感器数据(如摄像头、激光雷达),实现低延迟决策。同时辅以增量学习在车端注入新数据持续优化模型。借用DeepSeek 流式数据处理方式、辅以边缘计算、在线学习、记忆回放、弹性权重巩固等技术,实现自动驾驶中的实时数据处理与增量学习。这些技术不仅提升了系统的实时性和适应性,还确保了模型能够持续优化,适应动态环境的需求。
比如使用Deepseek的记忆回放(Memory Replay)技术,存储部分旧数据和新数据一起训练。通过重放旧数据,避免模型遗忘之前学到的知识(比如基于具身智能中之前在面对某一个危险场景下,已有专家策略是进行障碍物大小识别后,进行绕行避撞,如果此时复现该类似场景,那么就可以通过记忆回放直接调用之前的处理小模型,再次利用该绕行避撞策略进行局部端到端的处理,这是一个非常省时省力的做法)。不仅能够防止灾难性遗忘,还可以很好的提升泛化能力。
而使用弹性权重巩固(Elastic Weight Consolidation, EWC)技术,保护重要参数不被大幅修改。通过计算参数的重要性,限制其在增量学习中的变化范围。这样既可以很好的保护重要知识,又可以平衡新旧知识。这种技术应用在自动驾驶中,当模型学习新场景时,可以很好的保护已有场景的关键参数,只调节部分新参数,从而避免性能下降。
此外,DeepSeek最重要的是使用知识蒸馏的方式,在实时数据处理与增量学习中可以很好的进行模型微调。微调的方式仅更新部分参数,即通过冻结部分层(如特征提取层)在新数据上对模型进行微调(Fine-tuning),这样可以很好的减少计算量。这样将在自动驾驶中,当遇到新的天气条件(如暴雨)时,对已有的天气模型进行微调,提升其在恶劣环境下的性能。又如,如当如果之前训练过智能机器人拧门把手这一动作,那么后续拧瓶盖这一动作,就可以直接模仿拧门把手这个动作来做了,相关的控制参数只需要简单的调整即可,无需重新训练整个模型。
如上图所示,随着学生模型训练步数的增加,模型的思考时间逐渐变长,平均每步响应的长度也不断增加,这意味着它能够利用更多的计算资源去探索和解决复杂的推理任务。而车端算力和存储资源相对受限的情况,这样的方式也有其弊端。因此,做好平衡是模型思维能够很好应用在后续开发过程中的有利保证。
此外,这里要进行说明的是,将DeepSeek处理的策略思维进行智驾系统处理时,需要提前进行任务对齐与模型改造,调整DeepSeek-R1的输出层或中间层,使其与学生模型任务对齐(例如,DeepSeek-R1若以NLP任务为主,其知识迁移至自动驾驶CV任务需解决模态差异。因此,需要将语言生成任务输出转换为目标检测的边界框预测,过程中可能会用到跨模态蒸馏技术对齐视觉-语言特征)。
当前在具身智能领域,下一个阶段期待达到的状态则是脱离于基础教师模型对学生模型的监督学习SFT,这样很多对泛对泛化场景的处理也可以通过类似生成式AI推理过程达到对场景及时有效的处理。当然,车端模型需满足毫秒级延迟要求(如10ms内完成一帧处理),蒸馏后的小模型需在算力(TOPS)和内存(MB级)上与车载芯片匹配。同时,自动驾驶要求模型决策高度可靠,需设计蒸馏损失函数时加入安全约束(如对关键场景的误差加权惩罚),并验证学生模型的可解释性。
总结
请先 登录 后再发表评论~