毫末的Drive GPT是什么？蹭热点还是真有料？

时间：2023-04-11浏览：

前段时间毫末搞了个DriveGPT，蹭热点蹭得让业内一顿喷。

今天他们正式做了个发布，给解释了下。

一起来看下。（虽然我没有太理解。）

现在自动驾驶的技术难点在于层出不穷的长尾难题（Corner case）。

背后原因是，目前系统在认知各类驾驶场景时，主要靠的还是人工写规则。

有多少特殊场景，就用多少规则来约束，但始终无法穷其尽。

为了解决这个问题，业内一直在探索“实现端到端的自动驾驶”——感知数据输入、规划决策数据输出，靠神经网络来解决。

而毫末觉得ChatGPT里的GPT，就能为解决问题提供帮助。

什么是GPT？

2018年，OpenAI这家公司基于Transformer提出了GPT。

GPT的全称是生成式预训练Transformer模型，本质上是在求解下一个词出现的概率，这是它的数学原理，每一次调用都是从概率分布中抽样并生成一个词，这样不断地循环，就能生成一连串的字符，用于各种下游任务。

现在被大家所熟知的ChatGPT就是在这样一个模型上进化而来的。但其实在ChatGPT大火之前，GPT就已经用在了其他领域。

比如2021年7月的CodeX，也就是CodeGPT，可以用于代码生成，提升写代码的效率，还有2021年12月发布的WebGPT，可以让GPT利用搜索引擎，主动搜索结果并汇总整理出答案，也就是近期微软发布的New Bing搜索。

所以，在毫末的定义里，GPT本身是一种非常通用的建模范式，能应用的领域非常之多。

特别是在自动驾驶领域，由于在公开的互联网上相关数据几乎没有，所有就会形成一个稀有的垂类GPT。

毫末就把他们这个自动驾驶的GPT叫做：DriveGPT雪湖·海若。

参考的是GPT的建模范式。

本质上Drive GPT定义是自动驾驶领域的生成式预训练Transformer大模型，也是在求解下一个Token的概率，每一次调用都相当于根据前序Token序列生成一个Token，这些Token就相当于自然语言处理中的一个词语，只不过这里的Token是用来描述驾驶场景的。

一连串的Token拼在一块就是一个完整的驾驶场景时间序列，包括了未来某个时刻整个交通环境的状态以及自车的状态。

毫末认为DriveGPT可以这么用：

•可以按概率生成很多个这样的场景序列，每个场景都是一个全局的场景，每个场景序列都是未来有可能发生的一种实际情况。

•在所有场景序列都产生的情况下，能把场景中最关注的自车行为轨迹给量化出来，也就是生成场景的同时，便会产生自车未来的轨迹信息。

•有了这段轨迹之后，毫末希望这条轨迹是可解释的，而GPT模型最擅长的领域便是对话和推理，DriveGPT在生成场景序列、轨迹的同时，也会把整个决策逻辑链给输出。

这样一来，在一个统一的生成式框架下，DriveGPT就可以做到将规划、决策与推理等多个任务全部完成。

思路有了，但具体怎么执行呢？

毫末先讲了讲火山引擎的算力支持。

（这一部分我选择略过）

DriveGPT雪湖·海若的一个关键设计，就是场景的Token化表达，毫末管这种方式叫做Drive Language。

自然语言中的Token很好理解，就是单字或单词，中文的Token词表有5万个左右。

把Token输入到模型，输出则是下一个字词的概率，这种概率分布隐藏了语言中的知识和逻辑，例如：根据一部侦探小说复杂线索，推理出凶手是谁。

Drive Language基于毫末的CSS场景库理论，将驾驶空间进行离散化处理，每一个Token都表征场景的一小部分，目前毫末Token的词表空间是50w个左右。

如果输入一连串过去已经发生的场景Token序列，那模型就可以根据历史，去生成未来所有可能的场景，DriveGPT雪湖·海若就像一部推理机器，你告诉它过去发生了什么，它按概率推理出未来多个可能。

（听起来像是一个自动驾驶场景库的标签管理系统，给很多场景打上了标签？）

DriveGPT的具体训练过程毫末讲得很简单：

•首先根据驾驶数据以及之前定义的驾驶尝试CSS做一个大规模的预训练。

•然后，通过一些在使用过程中接管或者不接管的场景，对预训练的结果进行打分和排序，再用强化学习的思路，把反馈模型认为好的结果排上来，差的结果排下去，最后把参数更新到一个备份模型（Active Model）中。

•整个迭代流程中利用了大量的接管或者不接管的数据，这些数据中隐藏了不同场景下错误的自动驾驶开法与正确的人类开法。

预训练是怎么搞的？

在预训练模型上，毫末从encoder+decoder的结构，调整为Decode-only结构的GPT模型，其中每一个Token就是刚才提到的Drive Language，用于描述某时刻的场景状态，包括障碍物的状态、自车状态、车道线情况等等。

预训练模型使用了1200亿个参数的大模型（是个感知模型？），使用4000万量产车驾驶数据训练（这些数据都有哪些维度？）。

模型本身能够对各种场景做生成式任务，但这些生成结果还需要按照人类偏好去调优，在安全、高效、舒适等维度上做出取舍。

（从下面实验结果的图片来看，生成的是规划路径？）

强化学习又是怎么搞的？

接下来毫末用部分经过筛选的人类接管数据，大概5万个Clips去做反馈模型的训练。

（在毫末的定义里，clip就是一个个场景）

反馈模型的样本使用了这部分实车的接管数据，这些数据经过预训练模型后，可以生成出多种结果，假设是A、B、C、D四个结果，这四种结果都是机器生成的，可以用人驾接管数据去做一个Grading打分模块，用这个模块对四个结果做评分，这样就能产生一组带有偏序关系的Pair样本对，即C>A、C>B、D>A、D>B。

（对规划路径做打分？）

有了偏序对之后，就可以用LTR（Learning To Rank）的思路去训练反馈模型（Reward Model）。

毫末说，这样相当于是把影子模式从车端转到云端，规模更大，效果更强。

如何保证可解释性？