51c自动驾驶~合集21-牛翰网

#Open3DWorld

突破感知极限！自动驾驶中的开放3D World

开放词汇感知的能力代表了自动驾驶系统的重大进步，促进了实时整合和解释各种文本输入。尽管对2D计算机视觉中的开放词汇任务进行了广泛的研究，但将这种方法应用于3D环境，特别是在大规模室外环境中，仍然相对不发达。本文提出了一种将激光雷达传感器获取的3D点云数据与文本信息相结合的新方法。主要重点是利用文本数据在自动驾驶环境中直接定位和识别目标。我们引入了一种将鸟瞰图（BEV）区域特征与文本特征融合的有效框架，从而使系统能够无缝适应新的文本输入，并增强开放词汇检测任务的鲁棒性。通过在新引入的NuScenes-T数据集上进行广泛实验，对所提出方法的有效性进行了严格评估，并在Lyft Level 5数据集上对其zero-shot性能进行了额外验证。这项研究通过利用多模态数据来增强3D环境中的开放词汇感知，从而突破了自主导航和感知的界限，为自动驾驶技术的进步做出了重大贡献。

本文介绍了一种新方法，该方法将激光雷达传感器的3D点云与文本数据相结合，以增强自动驾驶的感知能力。通过直接使用文本来定位和识别目标，具体来说提出了一种简单而有效的方法，将鸟瞰图（BEV）区域特征与文本特征融合在一起。本文的方法支持无缝适应新的文本输入，促进了3D环境中强大的开放词汇检测任务。方法命为“Open3DWorld”。本文的贡献有三方面：

支持使用激光雷达文本的3D开放词汇检测任务，使自动驾驶系统能够无缝适应新的文本输入，而无需进行大量的再培训。这种能力对于在多样化和动态的环境中运行至关重要。

提出了一种将3D点云与文本数据集成的新方法，增强了自动驾驶系统的感知能力。通过有效地将鸟瞰图（BEV）区域特征与文本特征融合，我们的方法能够直接从文本输入中准确定位和识别目标。

通过对NuScenes数据集（（称为NuScenes-T数据集）的扩展词汇表进行综合实验，证明了我们的方法的有效性，并在Lyft 5级数据集上验证了其zero-shot性能。

#HeightLane

车道线还有的卷？超越BEV-LaneDet等一众SOTA！

单目图像的准确3D车道线检测面临重大挑战，主要由于深度信息的歧义性和地面建模的不完善。以往的研究通常采用具有有限自由度的平面地面假设进行地面建模，这在复杂道路环境中，尤其是存在不同坡度的情况下，显得力不从心。本研究提出了一种名为HeightLane的创新方法，它基于多斜率假设创建锚点，从单目图像中预测出高度图，从而提供对地面的详细和精确表示。HeightLane结合了预测出的高度图和基于可变形注意力机制的空间特征转换框架，高效地将2D图像特征转换为3D鸟瞰视图（BEV）特征，增强了空间理解力和车道结构识别能力。此外，高度图还被用于BEV特征的位置编码，进一步提升了空间精度。这种显式视图转换方法有效地弥合了前视感知与空间精确的BEV表示之间的差异，显著提高了检测性能。为了解决原始OpenLane数据集中缺少必要的地面真实高度图的问题，作者利用Waymo数据集的LiDAR数据，为每个场景的可行驶区域生成了高度图。使用这些真实高度图训练了从单目图像中提取高度图的模块。在OpenLane验证集上的广泛实验表明，HeightLane在F-score等指标上达到了最先进的性能，展示了其在现实世界应用中的潜力。

相关工作总结3D车道检测

3D车道检测对于现实驾驶场景中的准确定位至关重要。虽然2D车道检测已经得到了广泛的研究，但关于3D车道建模的却相对较少。传统的方法通常使用逆透视变换（IPM）将2D特征转换到3D空间，基于道路平坦的假设。然而，这种假设在遇到斜坡或下坡等不平坦地形时会失效，导致特征表示扭曲和可靠性降低。

SALAD通过结合前视图图像分割与深度估计来解决3D车道检测问题，但它依赖于密集的深度注释和精确的深度预测。此外，远处车道因显得较小，每个像素覆盖的深度范围更广。M2-3DLaneNet通过融合LiDAR数据增强单目3D检测，将图像特征提升至3D空间，并在鸟瞰视图（BEV）空间中融合多模态数据，但这增加了数据收集的复杂性和成本。DV-3DLane同样使用LiDAR和相机输入进行3D车道检测，但它从两种来源生成车道查询，而非提升图像特征。

与此同时，BEVLaneDet采用视图关系模块学习图像特征与BEV特征之间的映射，要求两者之间的关系固定。该论文引入了一种虚拟坐标，始终使用特定的外参矩阵和内参矩阵来调整图像。此外，它不是使用BEV特征的锚点，而是提出一种在BEV上直接预测车道的关键点表示法。LATR和Anchor3DLane通过将地面假设为具有2个自由度（2-DoF）的平面，在3D车道检测方面取得了最新进展。

LATR使用地面建模作为变换器中的位置编码，预测地面的俯仰角和高度；而Anchor3DLane则利用俯仰角和偏航角进行2D特征提取。与此不同，作者的方法HeightLane在BEV空间中仅使用LiDAR创建地面真实高度图。与M23DlaneNet不同，后者在推理过程中需要同时使用LiDAR和相机数据，而HeightLane仅依赖相机数据简化了推理过程。作者的方法不是用2-DoF对地面进行建模，而是预测预定义BEV网格中每个点的高度，创建了一个密集的高度图。通过采样专注于地面的空间特征，作者生成了BEV特征，允许使用关键点表示法进行准确的3D车道预测，有效地桥接了2D图像数据和3D车道几何学。这种方法优化了空间特征的处理，在保持高精度的同时提高了效率。

鸟瞰视图高度建模

BEVHeight引入了一种新颖的方法，将深度估计中使用的深度分箱技术应用到高度概念上。这种方法通过对图像中的物体高度箱进行分类，首次提出了一种回归方法，用于确定3D目标检测中物体与地面之间的高度。然而，该方法的实验仅限于路边相机数据集，限制了研究的应用范围。BEVHeight旨在通过利用物体的高度信息，提供更精确的3D位置信息。

另一方面，HeightFormer利用Nuscenes自动驾驶数据集，尝试回归物体与地面之间的高度。HeightFormer将预测的高度信息整合到变换器的解码器中，与基于深度的方法相比，实现了性能的提升。这一改进展示了利用高度信息进行更准确3D目标检测的潜力。

作者提出的方法HeightLane，利用了车道始终附着在地面上的特性。通过仅预测相对于地面的高度，HeightLane显式地将图像特征转换到对应于地面的预定义BEV网格中。这种方法简化了任务，旨在提高3D目标检测中空间转换的准确性。

HeightLane方法详解

作者提出的HeightLane整体架构展示于图2。输入一个RGB前视图图像，其中和分别代表图像的高度和宽度。利用ResNet-50作为CNN骨干网络提取前视图特征。定义一个与自我车辆相对应，代表地面的预设BEV网格，其中和

图 2. HeightLane方法的总体架构图。HeightLane接收一个2D图像作为输入，并通过卷积神经网络（CNN）主干提取多尺度的前视图特征。利用预定义的多斜率高度图锚点、车辆坐标到相机坐标的外参矩阵以及相机的内参矩阵，将2D前视图特征采样到鸟瞰视图（BEV）网格上，以形成BEV高度特征。随后，该BEV高度特征通过一个CNN层进一步处理，以预测高度图。预测出的高度图用于空间特征的转换，其中初始的BEV特征查询和高度图共同确定了查询在前视图特征中应参考的像素点。在这个过程中，前视图特征充当键和值，而BEV特征则作为查询。通过可变形注意力机制，这一流程最终生成了增强的BEV特征查询。

基于PersFormer研究的洞察，作者提出了一种高度图引导的空间特征转换框架。该框架基于观察到的2D前视图特征可以作为键和值，而BEV特征可以作为查询在可变形交叉注意力中使用。与PersFormer研究假设地面为平面并使用IPM将前视图特征转换为BEV特征查询不同，本方法使用在预定义BEV网格内预测的高度图，允许作者匹配每个BEV特征查询与相应的前视图特征，不依赖于地面平坦的假设。这使得可变形注意力的执行更加高效。这些转换后的BEV特征

高度提取模块高度预测

高度图的分辨率为每像素0.5米，表示从车辆位置向前米和向两侧各米范围内的高度信息，其中高度值为零。与直接从前视图特征预测路面的其他研究不同，作者首先定义了一个密集的BEV网格，然后预测这个网格内所有对应点的高度图。这需要创建BEV特征，这些特征来源于2D前视图特征，以准确捕获高度信息。例如，生成一个斜率为零的高度图锚，用作获取BEV网格的3D坐标。然后，使用内参矩阵和外参矩阵将这个高度图锚投影到图像上，采样对应于BEV点的前视图特征。投影高度图锚

其中，和分别表示相机内参矩阵和从自我车辆坐标到相机的变换矩阵，

与投影的一起，从高度图特征中采样前视图特征

其中表示多个斜率。如果实际道路在图像中存在斜率，使用单一斜率锚无法确保图像特征与BEV网格之间的对齐。为此，作者使用多斜率高度锚进行采样，然后将这些特征连接起来形成最终的BEV高度特征。利用，可以预测高度图：

其中并且

高度监督

由于OpenLane数据集缺乏地面点云或标签信息，现有研究主要集中在仅包含车道的区域进行数据创建和监督。LATR只在有车道的区域应用损失以估计地面的俯仰角和高度。类似地，LaneCPP通过在车道存在区域插值结果来模拟地面。为了提供密集的高度图真实标注，作者使用Waymo数据集中的LiDAR点云，这是OpenLane的基础数据集。通过累积Waymo数据中每个场景的可行驶区域的LiDAR点云，获得了每个场景的密集地面点云。然后，将这个密集地面点云采样到预定义的BEV网格上，并用作高度图

图 3. 在OpenLane验证集中展示的“上坡和下坡”场景下，LiDAR数据累积的结果。左侧的颜色条表示与道路高度相对应的颜色值。

高度引导的空间变换框架

作者提出的空间变换框架利用第3.1节预测的高度图，如图4所示。BEV初始查询经过自注意力模块处理，在自注意力过程中，BEV查询之间进行交互，并为每个BEV查询添加位置编码以提供位置信息。位置编码是可学习的参数。与在2D FV特征上执行注意力的研究不同，作者的方法使用BEV网格坐标和每个BEV查询的高度嵌入进行位置编码。

图 4. 使用可变形注意力的高度引导空间变换框架结构图。该框架展示了BEV查询如何在自注意力阶段接收高度位置编码，并在交叉注意力阶段通过高度图映射到图像像素。可变形注意力学习了从参考点到周围区域的偏移，以生成多个参考点。

自注意力模块输出的查询在第

其中是层索引，

经过自注意力处理的BEV查询与2D前视图特征执行可变形交叉注意力。可变形注意力为每个查询定义了参考点并学习从这个参考点到周围区域的偏移。这些可学习的偏移决定了最终的参考点，并且在前视图特征中与这些最终参考点对应的特征作为交叉注意力中的值与BEV查询相互作用。由于作者有对应于BEV网格的高度图，作者可以精确地确定每个BEV网格像素将被投影到前视图特征中的参考点，如下所示：

经过交叉注意力处理的查询在第

HeightLane中的空间变换由多个层组成，每层都包含自注意力和交叉注意力模块。实验中，作者将层数设置为。通过所有层的BEV查询成为车道检测头部的输入特征。为了捕获不同分辨率的前视图特征，作者采用了多尺度前视图表示。为每种分辨率生成一个BEV查询，最终的BEV特征

训练

通过空间变换框架生成的会经过几层卷积网络，预测BEV网格的置信度、偏移和嵌入，遵循BEVLaneDet的关键点表示法。预测的密集高度图被用作3D车道的表示，连同置信度、偏移和嵌入。置信度

其中，BCE表示二元交叉熵损失，IoU代表交并比损失。

车道在x方向上的预测偏移损失定义为：

在[22]中，每个网格单元的嵌入被预测以区分置信度分支中每个像素的车道身份。作者采用了相同的嵌入损失，如公式(10)所示，其中表示拉力损失，用于最小化类内方差，而

预测的高度图与真实高度图

为了确保2D特征有效地捕获车道特征，作者增加了一个2D车道检测头，并结合了一个辅助损失用于2D车道检测，如公式(12)所示：

最终，总损失由公式(13)定义，其中

这个损失函数综合了置信度损失、偏移损失、嵌入损失、高度图损失和2D车道检测损失，以优化整个网络的性能。

实验结果和分析数据集

作者的方法在OpenLane数据集上进行了评估，该数据集覆盖了多样的道路条件、天气状况和照明环境。OpenLane建立在Waymo数据集基础之上，使用了150,000张图像用于训练，40,000张图像用于测试。该数据集包含798个训练场景和202个验证场景，每个场景大约包含200张图像。尽管OpenLane数据集本身不包含生成高度图所需的信息，但由于其基于Waymo数据集构建，作者能够从中提取每个OpenLane场景所需的LiDAR数据。在提取LiDAR数据的过程中，作者注意到数据在每个场景的中部密集，而在末端帧则变得稀疏。例如，图3展示了一个场景，其中车辆启动、上坡、右转，并继续行驶在另一段坡道上。在起始点（绿色区域），LiDAR数据较为稀疏，因此作者采用了双线性插值来填补高度图中的空隙，以确保高度图的一致性。作者的评估包括了多种场景，如上坡/下坡、曲线、极端天气、夜间、交叉口以及合并/分流等条件。评估指标包括F分数、近端和远端的X误差以及Z误差。

实现细节

作者采用了ResNet-50作为2D特征提取的骨干网络，并将图像尺寸设定为576×1024像素。为了获得多尺度的图像特征，作者增加了额外的CNN层，以产生尺寸为输入图像1/16和1/32的特征图，每个特征图具有1024个通道。高度图和BEV特征的BEV网格尺寸被设置为200×48像素，分辨率为每像素0.5米。在高度提取模块中，作者为多斜率高度图锚点设置了-5°、0°和5°的斜率Θ。在5°的斜率下，高度图能够表示高达约8.75米的高度。在高度引导的空间特征转换中，作者使用了具有2个注意力头和4个采样点的可变形注意力机制。位置编码是通过嵌入BEV网格的X和Y位置以及相应的预测高度来生成的。

在OpenLane上的评估定性结果

图5展示了OpenLane验证集上的定性评估结果。作者的方法HeightLane、现有的最佳性能模型LATR以及地面真实值的预测结果被可视化展示。其中，地面真实值用红色表示，HeightLane用绿色表示，LATR用蓝色表示。图5的第一行展示了输入图像，第二行展示了在3D空间中HeightLane、LATR和地面真实值的可视化对比。第三和第四行分别从Y-Z平面视角展示了HeightLane与地面真实值、LATR与地面真实值的3D车道对比。

图 5. 在OpenLane验证集上，与现有最佳性能模型LATR相比，作者的方法HeightLane的定性评估结果。第一行：输入图像。第二行：3D车道检测结果 – 真实值（红色）、HeightLane（绿色）、LATR（蓝色）。第三行和第四行：从Y-Z平面视角展示的真实值与HeightLane、LATR的对比。放大可查看更多细节。

特别是，HeightLane即使在车道中断后再次出现的场景中，如交叉口或减速带上方，也能准确检测到车道。这一点在图5的第1、2、4、5和6列中尤为明显。例如，在第1列中，尽管存在车辆遮挡和部分车道标记不完整，HeightLane仍然能够提供精确的车道预测，证明了其在处理具有遮挡和信息不完整的复杂场景中的鲁棒性。此外，借助高度图的使用，HeightLane有效地模拟了道路坡度的变化，如图3所示，道路从平坦过渡到有坡度的情况。在展示曲线道路和部分可见车道的第2和5列中，HeightLane展示了其在曲线上维持连续车道检测的优越预测精度和性能。

图6可视化了高度提取模块预测的高度图，从左到右依次为输入图像、预测高度图和地面真实值高度图。场景从上到下依次为上坡、平地和下坡路段，更多可视化结果可在补充材料中找到。

图 6. 高度提取模块的可视化结果。从左至右依次为：输入图像、预测的高度图和真实值高度图。图像展示了上坡、平地和下坡的场景。

定量结果

表1展示了HeightLane在OpenLane验证集上的定量评估结果。作者的模型在总体F分数上达到了62.5%，超越了所有现有的最先进模型。特别是在极端天气、夜间和交叉口等具有挑战性的场景中，HeightLane实现了显著的性能提升，并在这些条件下取得了最佳成绩。此外，HeightLane在曲线和合并/分流场景中也展现了强劲的性能，获得了这些类别中的第二佳表现。尽管在持续上坡或下坡的场景中，HeightLane的表现不是最佳，因为在这些情况下，2-DoF平面假设已经足够。然而，HeightLane在斜率变化的场景中表现出色，如图5第3列所示，证明了其在处理变化坡度条件下的适应性和预测能力。

表 1. 在OpenLane验证集的不同场景下，使用F分数对不同方法进行的定量结果比较。每个场景中最佳和次佳结果分别用粗体和下划线标出。

表2展示了Openlane验证集上的F分数、X误差和Z误差的定量比较结果。HeightLane在F分数方面取得了最佳成绩，超越了其他所有模型，达到了62.5%。虽然在Z误差方面并未达到最佳或第二佳的表现，但仍然展示了具有竞争力的结果。在X误差方面，HeightLane实现了第二佳的性能，证明了其在横向方向上准确估计车道位置的能力。

表 2. 在OpenLane验证集上，与其他模型的定量结果比较。评估指标包括F分数（越高越好）、近端和远端的X误差与Z误差（越低越好）。最佳和次佳结果分别用粗体和下划线标出。

消融实验

表3展示了不同高度提取方法对应的F分数。视图关系模块，最初在[18]中提出，并在[22]中作为一个MLP模块用于转换BEV特征。单斜率高度图锚点方法将零高度平面投影到图像上，并使用从该平面采样的图像特征作为BEV特征。然而，这种方法假设地面是平坦的，并且仅在该高度处采样2D图像特征，导致特征表示不完整。相比之下，作者提出的多斜率高度图锚点方法在图像上投影了具有不同斜率的多个平面，从每个平面采样图像特征，并将它们融合以形成BEV特征。这种多锚点方法实现了最高的F分数。

表 3. 根据不同的高度提取方法得到的F分数比较。表格中标粗的配置表示作者最终采用的方案。

表4展示了不同高度图锚点设计对应的F分数。第一行对应于表3中的单斜率高度图锚点。当使用0°加上±3°时，性能比仅使用0°提高了4.5%。同样，使用0°加上±5°时，性能提升了6.3%。尽管0°、±3°和±5°的配置实现了最佳性能，但与仅使用0°和±5°相比，性能提升的边际效应较小。然而，增加高度图锚点的数量会增加最终BEV高度特征中的通道数，从而增加计算成本。为了在性能和计算效率之间取得平衡，作者最终选择了0°和±5°高度图锚点的配置作为论文中的最终方法。

表 4. 根据不同高度图锚点设计得到的F分数比较。表格中标粗的配置表示作者最终采用的方案。

表5将作者的方法与各种多模态3D车道检测器进行了比较。其中，Ours (GT)表示在推理步骤中使用真实高度图代替高度提取模块获得的结果。这种替代旨在观察在假设高度提取模块预测的高度图非常准确的情况下，空间特征变换框架的性能。通过使用从LiDAR数据获得的真实高度图，作者可以与使用LiDAR输入的检测器进行公平的比较。结果表明，当高度图预测准确时，作者的HeightLane方法能够实现与使用LiDAR和相机输入的模型相当或甚至更好的性能。这证明了作者方法的潜力，能够有效地利用精确的高度信息，突出了作者在2D图像数据和3D车道几何转换中的鲁棒性和能力。

表 5. 与多模态模型在OpenLane验证集上的比较结果。“Ours (GT)”表示在推理阶段使用真实高度图代替预测的高度图。其中，M代表仅使用相机数据，ML代表同时使用相机和LiDAR数据。

结论

作者的研究工作通过提出一种创新的高度图方法，成功克服了单目图像中3D车道检测面临的主要挑战，包括深度信息的不确定性和地面建模的不完善性。作者的主要贡献包括：

定义了一个用于直接从图像中预测高度信息的鸟瞰视图（BEV）网格和多斜率高度锚点。

提出了一个由高度图引导的空间特征转换框架。

在OpenLane数据集的复杂场景中，实证展示了作者的HeightLane模型的卓越性能。

本研究所提出的方法通过高度图增强了对空间结构的理解和车道的识别能力，显著提升了自动驾驶车辆系统的技术水平。通过精确的3D变换，这些技术进步为自动驾驶领域的发展提供了强有力的支持。作者通过广泛的实验验证了模型的有效性，这标志着在将3D车道检测技术应用于现实世界场景方面迈出了重要的一步。

#CrossFormer

加州大学最新！适用于操作、导航、运动的统一策略

原标题：Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

论文链接：https://arxiv.org/pdf/2408.11812

项目链接：https://crossformer-model.github.io/

代码链接：https://github.com/rail-berkeley/crossformer

作者单位：加州大学伯克利分校卡内基梅隆大学

论文思路：

现代机器学习系统依赖于大规模数据集来实现广泛的泛化，而这在机器人学习中往往是一个挑战，因为每种机器人平台和任务可能只有一个小数据集。通过在多种不同类型的机器人上训练单一策略(single policy)，机器人学习方法可以利用更广泛和多样化的数据集，从而实现更好的泛化和鲁棒性。然而，在多机器人数据(multi-robot data)上训练单一策略具有挑战性，因为机器人可能具有截然不同的传感器、执行器和控制频率。本文提出了CrossFormer，一种可扩展且灵活的基于Transformer的策略，能够处理来自任何实体(embodiment)的数据。本文在迄今为止最大和最具多样性的数据集上训练了CrossFormer，该数据集包含了来自20种不同机器人实体的90万条轨迹。本文展示了相同的网络权重可以控制截然不同的机器人，包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人。与以往的工作不同，本文的模型不需要手动对齐观测空间或动作空间。大量现实世界中的实验表明，本文的方法不仅能匹配为每个实体量身定制的专用策略的性能，还显著超越了现有的跨实体学习(cross-embodiment learning)的最先进方法。

论文设计：

近年来，机器学习的许多成功都得益于在日益多样化和多任务数据上训练通用模型。例如，视觉和语言任务，曾经由特定任务的方法处理，如今通过通用的视觉-语言模型能够更有效地完成，这些模型可以在任务之间迁移知识 [1, 2, 3, 4]。类似地，在机器人领域，最近的数据聚合工作 [5] 使得可以在跨多个实体、任务和环境的机器人数据上训练通用策略(general-purpose policies)。这些通用策略通过迁移视觉表示和技能，能够超越那些仅使用目标机器人和任务数据训练的狭窄策略(narrow policies) [6, 5]。除了正迁移(positive transfer)带来的好处之外，训练通用的跨实体策略还减少了为每个机器人设计和调整策略架构所需的工程工作量。

然而，训练通用的机器人策略具有独特的挑战性，因为机器人系统在相机视角、本体感知输入(proprioceptive inputs)、关节配置、动作输出和控制频率等方面可能存在极大的差异。最初在大规模跨实体策略训练上的努力通常局限于单一的机械臂或地面导航机器人，这些机器人可以通过单一的相机视角和基座或末端执行器的相对航点动作进行控制 [5, 6, 7, 8]。要进一步增加这些策略所能控制的实体的多样性，就需要一种支持任意数量的相机视角或本体感知观测，以及预测任意维度动作的模型架构。遵循以往的工作，本文采用了顺序建模的方法来进行跨实体模仿学习 [9, 10]。本文提出了一种基于Transformer的策略，通过将输入和输出转换为序列来支持可变的观测和动作。本文将这一方法扩展到目前为止能够用单一策略控制的最为多样化的实体集，包括单臂和双臂机器人、地面导航机器人、四旋翼飞行器和四足机器人。

通过本文的Transformer策略，本文可以通过简单地将观测数据 tokenizing 并排列成序列，来训练具有任意数量相机视角或本体感知传感器的机器人数据。同时，本文可以预测任意维度的动作，关键是无需手动对齐不同实体的动作空间 [8]。对于每种动作类型，本文将一组动作读取tokens(action readout tokens)插入到输入 token 序列中。然后，本文将相应的输出嵌入传递到特定于动作空间的头部，以生成正确维度的向量。本文的策略可以接受以语言指令或目标图像形式呈现的任务，使用户能够选择最适合特定实体的任务模式。

本文的主要贡献是一种跨实体的机器人策略，该策略在迄今为止最大、最具多样性的机器人数据集上训练完成，包含90万条轨迹和20种不同的实体。本文的策略能够控制具有不同观测和动作类型的机器人，从具有本体感知传感器和12个关节的四足机器人，到配备3个相机和14个关节的双臂机器人。在大量的现实世界实验中，本文发现本文的策略能够匹敌仅在目标机器人数据上训练的相同架构的性能，以及在每种设置中表现最佳的现有方法，这表明本文的架构能够吸收异构的机器人数据而不会产生负迁移，同时在性能上可以媲美为每个机器人量身定制的最先进的专用方法。此外，本文还发现，本文的方法在跨实体学习中优于现有的最先进方法，同时减轻了手动对齐观测空间和动作空间的需求。

在多种实体的机器人学习中，主要挑战在于处理观察空间和动作空间的巨大差异，以及控制频率和机器人系统其他方面的差异。机器人系统可能具有不同数量的相机视角或本体感知传感器，并且可能通过多种不同的动作表示进行控制，包括关节角度、笛卡尔坐标位置和电机扭矩。为了将数据标准化为统一的格式，以往一些关于跨实体策略训练的工作忽略了某些观察类型（例如操作中的腕部视角或第三人称视角）[5, 7]，或在机器人之间对齐了动作空间[8]。而本文则遵循其他相关研究[9, 10, 6]，将跨实体模仿学习视为一个序列到序列的问题，并选择了基于Transformer的策略架构，以处理长度可变的序列输入和输出。

由于Transformer策略的序列化特性，本文可以将每种实体的所有可用观察类型编码为一个扁平的序列。同样地，这种方法允许本文解码可变长度的动作，使本文能够为每种实体使用最佳的动作类型。利用这种灵活的输出方式，本文还可以预测不同大小的动作块。动作块化（Action Chunking）[48, 47, 49]能够提高动作的时间一致性，并减少累积误差，这对于高频率的精细操作尤为重要。结合Transformer骨干网络和动作块化技术，本文的策略能够控制从使用20Hz关节位置控制的双臂ALOHA系统，到使用5Hz二维航点控制的地面和空中导航机器人等多种机器人。

从总体上看，本文的Transformer策略遵循了以往在多模态数据上训练Transformers的研究[9, 10, 6]。具体来说，观察数据和任务规范首先通过特定模态的分词器进行分词处理，然后组装成一个token序列，并输入到一个因果性的、仅解码器的Transformer骨干网络中，这个网络在所有实体之间共享。接下来，输出的嵌入向量会被输入到为每类实体设计的独立动作头中，以生成对应维度的动作。有关本文架构的概览，请参见图2。接下来，本文将更详细地描述本文的训练数据以及架构的各个组成部分。

图1：本文介绍了CrossFormer，这是一种基于Transformer的策略，经过在90万条多样化、多实体机器人数据轨迹上的训练，能够控制截然不同的机器人，包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人，同时在性能上匹敌针对每个实体的专用策略，并在跨实体学习中优于以往的工作。

图2：策略架构。本文的架构通过Transformer主干网络实现跨实体策略学习。本文的策略通过将图像和本体感知信息 tokenizing 来接收可变的观测输入，通过动作读取tokens(action readout tokens)预测可变的动作输出，并基于语言指令或目标图像进行条件判断。

实验结果：

图3：训练数据组合。本文将训练数据中的20种实体分为不同类别，并可视化它们在数据组合中的贡献。饼图显示了每个训练批次中基于采样权重的平均组成情况。

图4：评估设置。本文的任务包括单臂操作设置、灵巧和双臂任务设置、导航以及航空任务。详细分类请参见第4节。

图5：实际评估。本文将CrossFormer与仅在目标机器人数据上训练的相同架构进行比较，同时也与在目标机器人数据上表现最佳的现有方法进行对比。

图6：与Yang等人[8]的比较。本文将CrossFormer与Yang等人[8]的方法进行比较，该方法对导航和操作任务的动作进行对齐，并且一次只使用单一相机视角。CrossFormer在整体表现上优于Yang等人[8]三倍，无论是在使用第三人称相机视角进行的桌面操作任务上，还是在常见的导航任务中，均表现出色。

总结：

本文引入了CrossFormer，这是一种可扩展且灵活的Transformer策略，基于迄今为止最大且最为多样化的数据集进行训练，包括20种不同机器人实体的90万条轨迹。本文展示了一种系统化的方法来学习单一策略，该策略能够控制截然不同的实体，包括单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足机器人。本文的结果表明，CrossFormer的表现与专门针对单一实体的策略相媲美，同时在跨实体学习中显著优于当前的最先进方法。

然而，本文的工作也存在一些局限性。本文的结果尚未显示出在不同实体之间的显著正迁移效应。本文预计，随着本文在更大、更具多样性的机器人数据集上进行训练，本文将看到更大的正迁移效应。另一项局限性是，本文的数据组合使用了人工挑选的采样权重，以避免在包含大量重复情节的数据集上过度训练，或在与本文的评估设置最相关的数据上训练不足。原则上，随着模型规模的扩大，策略应具备同等良好地拟合所有数据的能力，而无需进行数据加权。

最后，由于本文需要大型模型来适应大规模的多机器人数据集，模型的推理速度可能成为一个限制因素。在本研究中，本文成功地将本文的策略应用于高频率、细粒度的双臂操作任务中，但随着模型规模的扩大，本文可能无法控制这些高频率的实体。未来的硬件改进将有助于缓解这一问题，但在如何利用大型模型来控制高频率机器人方面仍需进一步研究。

未来的工作还可以包括探索技术以实现更大的跨实体正迁移，同时保持本文架构的灵活性、改进数据管理技术，并引入更多样化的数据源，如次优的机器人数据或无动作的人类视频。本文希望这项工作能够为开发更通用且灵活的机器人策略打开大门，使其能够有效地从在不同机器人实体上收集的经验中学习并迁移知识。

#Drive-OccWorld

且看世界模型如何拿下端到端！

世界模型基于各种自车行为预测潜在的未来状态。它们嵌入了关于驾驶环境的广泛知识，促进了安全和可扩展的自动驾驶。大多数现有方法主要关注数据生成或世界模型的预训练范式。与上述先前的工作不同，我们提出了Drive-OccWorld，它将以视觉为中心的4D预测世界模型应用于自动驾驶的端到端规划。具体来说，我们首先在内存模块中引入语义和运动条件规范化，该模块从历史BEV嵌入中积累语义和动态信息。然后将这些BEV特征传输到世界解码器，以进行未来时刻的OCC和flow预测，同时考虑几何和时空建模。此外我们在世界模型中注入灵活的动作条件，如速度、转向角、轨迹和命令，以实现可控发电，并促进更广泛的下游应用。此外，我们探索将4D世界模型的生成能力与端到端规划相结合，从而能够使用基于职业的成本函数对未来状态进行连续预测并选择最佳轨迹。对nuScenes数据集的广泛实验表明，Drive-OccWorld可以生成合理可控的4D占用，为推动世界生成和端到端规划开辟了新途径。

总结来说，本文的主要贡献如下：

提出了Drive OccWorld，这是一个以视觉为中心的世界模型，旨在预测4D Occ和flow，我们探索了世界模型的未来预测能力与端到端规划的整合。

设计了一个简单而高效的语义和运动条件归一化模块，用于语义增强和运动补偿，提高了预测和规划性能。

提供了一个统一的调节接口，将灵活的动作条件集成到后代中，增强了Drive OccWorld的可控性，并促进了更广泛的下游应用。

相关工作回顾World Models for Autonomous Driving

基于未来状态的生成模式，现有的自动驾驶世界模型主要可分为基于2D图像的模型和基于3D体积的模型。2D Image-based Models：旨在使用参考图像和其他条件（例如动作、HDMaps、3D框和文本提示）预测未来的驾驶视频。GAIA-1使用自回归Transformer作为世界模型，根据过去的图像、文本和动作标记预测未来的图像标记。其他方法，如DriveDreamer、ADriver-I、DrivengDiffusion，GenAD、Vista、Delphi和Drive-WM，使用潜在扩散模型（LDMs）生成图像到输出视频。这些方法侧重于设计模块，将动作、BEV布局和其他先验元素纳入去噪过程，从而产生更连贯、更合理的未来视频代。

3D Volume-based Models：以点云或占领的形式预测未来的状态。Copilot4D使用VQVAE对LiDAR观测进行标记，并通过离散扩散预测未来的点云。ViDAR实现了视觉点云预测任务，以预训练视觉编码器。UnO根据激光雷达数据预测了一个具有自我监督功能的持续占领区。OccWorld和OccSora使用场景标记器压缩职业输入，并使用生成变换器预测未来的职业。UniWorld和DriveWorld提出通过4D职业重建进行4D预训练。

在这项工作中通过输入动作条件来实现动作可控生成，并将这种生成能力与端到端的安全驾驶规划者相结合，从而研究了世界模型的潜在应用。

Drive-OccWorld方法详解准备工作

端到端的自动驾驶模型旨在直接基于传感器输入和自我行为来控制车辆（即规划轨迹）。从形式上讲，给定历史传感器观测值和h个时间戳上的自我轨迹，端到端模型A预测了未来f个时间戳的理想自车轨迹：

驾驶世界模型W可以被视为一种生成模型，它将先前的观察和自车行为作为输入，生成环境的合理未来状态：

鉴于世界模型预测未来状态的能力，我们建议将其与规划器集成，以充分利用世界模型在端到端规划中的能力。具体来说引入了一个名为Drive-OccWorld的自回归框架，该框架由一个用于预测未来职业和流动状态的生成世界模型W和一个基于职业的规划器P组成，该规划器P使用成本函数来基于评估未来预测来选择最佳轨迹。从形式上讲，我们将Drive OccWorld公式化如下，它自动回归预测下一个时间戳的未来状态和轨迹：

值得注意的是，对于动作可控的生成，可以以速度等形式将a注入W中作为条件，并丢弃P以防止潜在的自车状态泄漏。在端到端规划中，预测轨迹用作处的动作条件，用于预测下一个状态，从而不断推出预测和规划。

在接下来的部分中，我们将详细介绍世界模型的结构，为W配备动作可控生成，并将其与P集成以进行端到端规划。

4D Forecasting with World Model

如图2所示，Drive-OccWorld包括三个组件：（1）历史编码器WE，它将历史相机图像作为输入，提取多视图几何特征，并将其转换为BEV嵌入。根据之前的工作，我们使用视觉BEV编码器作为我们的历史编码器。（2）具有语义和运动条件归一化的记忆队列WM，它在潜在空间中采用简单而高效的归一化操作来聚合语义信息并补偿动态运动，从而积累更具代表性的BEV特征。（3）世界解码器WD，其通过具有历史特征的时间建模来提取世界知识，以预测未来的语义职业和流动。灵活的动作条件可以注入WD，以实现可控生成。集成了基于occ的规划器P，用于连续预测和规划。

Semantic- and Motion-Conditional Normalization旨在通过结合语义和动态信息来增强历史BEV嵌入。

如图3所示，我们实现了一个轻量级的预测头来生成体素语义概率：

在运动条件归一化中，我们补偿自车和其他代理在不同时间戳上的运动。具体来说，自车姿态变换矩阵（考虑了自我载体从时间戳-t到+t的移动）被展平并编码到MLP处理的嵌入中，以生成仿射变换参数。

Future Forecasting with World Decoder：WD是一种自回归变换器，它根据存储在WM中的历史BEV特征和预期动作条件预测未来帧+t的BEV嵌入。

具体来说，WD将可学习的BEV查询作为输入，并执行可变形的自注意、与历史嵌入的时间交叉注意、与动作条件的条件交叉注意力以及前馈网络来生成未来的BEV嵌入。条件层在BEV查询和动作嵌入之间执行交叉注意力，这将在下一节中说明，将动作可控信息注入预测过程。在获得下一个BEV嵌入后，预测头利用通道到高度操作来预测语义占用和3D backward centripetal flow。

Action-Controllable Generation

由于现实世界的固有复杂性，自我载体的运动状态对于世界模型理解主体如何与其环境交互至关重要。因此，为了全面涵盖环境，我们建议利用各种行动条件，使Drive OccWorld具有可控生成的能力。

Diverse Action Conditions：包括多种格式：（1）速度在给定的时间步长定义为（vx，vy），表示自车辆沿x和y轴分解的速度，单位为m/s。（2）转向角从转向反馈传感器收集。根据VAD，我们将其转换为中的曲线。（3）轨迹表示自车位置到下一个时间戳的移动，公式为（），单位为米。它被广泛用作端到端方法的输出，包括我们的规划器P。（4）命令由前进、左转和右转组成，代表了控制车辆的最高级别意图。

Unified Conditioning Interface旨在将异质动作条件整合到连贯的嵌入中。我们首先将所需的动作编码到傅里叶嵌入中（，通过额外的学习投影将其连接和融合，以与WD中条件交叉注意力层的维度对齐。该方法有效地将灵活的条件集成到可控的生成中。

End-to-End Planning with World Model

现有的世界模型主要关注数据生成或自动驾驶的相关范式。尽管最近的一项开创性工作Drive WM提出将生成的驾驶视频与基于图像的奖励函数相结合来规划轨迹，但环境的几何3D特征并没有完全用于运动规划。如图2所示，鉴于我们的世界模型提供的未来occ预测能力，我们引入了一个基于occ的规划器，对代理和可驾驶区域的占用网格进行采样，以确定安全约束。此外，未来的BEV嵌入用于学习考虑细粒度3D结构的成本量，为安全规划提供更全面的环境信息。

基于占用的成本函数旨在确保自驾车的安全驾驶。它由多个成本因素组成：（1）代理安全成本限制了自车与其他代理（如行人和车辆）的碰撞。它惩罚与其他道路使用者占用的网格重叠的轨迹候选者。此外，在横向或纵向距离方面与其他主体太近的轨迹也受到限制，以避免潜在的碰撞。（2）道路安全成本确保车辆在道路上行驶。它从占用预测中提取道路布局，惩罚超出可驾驶区域的轨迹。（3）学习量成本受ST-P3的启发。它使用基于F bev+t的可学习头部来生成成本量，从而对复杂的世界进行更全面的评估。

BEV Refinement：引入BEV嵌入来进一步细化潜在空间中的轨迹。我们将编码为嵌入，并将其与命令嵌入连接起来，形成自我查询。最终的轨迹是通过MLP基于精炼的自我查询进行预测的。

规划损失Lplan由三个部分组成：引入的max-margin损失，用于约束轨迹候选的安全性；用于模仿学习的l2损失；以及确保规划轨迹避开障碍物占用的网格的碰撞损失。

实验结果Main Results of 4D Occupancy Forecasting

Inflated Occupancy and Flow Forecasting。表1展示了nuScenes数据集上Inflated的占用率和流量预测的比较。尽管Drive OccWorld在当前时刻的结果mIoUc上表现稍差，但它在mIoUf上的表现比Cam4DOcc高出2.0%，表明其预测未来状态的能力更强。

Fine-grained Occupancy Forecasting：表2展示了nuScenes占用率的细粒度占用预测比较。结果表明，与所有其他方法相比，Drive OccWorld实现了最佳性能。值得注意的是，对于当前和未来时间戳的一般可移动对象，Drive OccWorldP在mIoU上分别比Cam4DOcc高出1.6%和1.1%，这表明它能够准确定位可移动对象以进行安全规划。图4提供了跨框架的职业预测和流量预测的定性结果。

可控性。在表3中，我们考察了各种作用条件下的可控性。与基线变量相比，注入任何动作条件都会产生收益。值得注意的是，低水平条件，即轨迹和速度，为未来的预测提供了更大的改进。相比之下，最高级别的命令条件改善了当前时间戳的mIoUc结果，但对未来的预测提供了有限的增强。可以这么理解，结合更多的低级条件，如轨迹，可以为自车提供更具体的行动，以了解其与世界的相互作用，从而有效地增强未来的预测。

有趣的是，如表4所示，与使用预测轨迹相比，使用地面真实轨迹作为行动条件可以获得更好的规划结果。相反，在入住率和流量预测质量方面观察到相反的趋势。表3中第2行和第7行的比较表明，使用预测轨迹而不是地面真实轨迹可以略微提高预测质量。表1和表2中的结果进一步支持了这一观察结果，其中Drive OccWorldP的表现优于Drive OccWorldA。我们认为，在使用预测轨迹时，对BEV特征施加的轨迹约束可能会导致占用率和流量质量的性能提高。这一发现表明，应用轨迹预测也可以提高感知性能，这与UniAD的结果一致。

此外，在图5中，我们展示了Drive OccWorld基于特定自我运动模拟各种未来职业的能力，展示了Drive OccWorld作为神经仿真为自动驾驶生成合理职业的潜力。

End-to-end Planning with Drive-OccWorld

表5展示了与现有端到端方法相比，L2错误和冲突率方面的规划性能。我们提供ST-P3和UniAD不同评估方案设置下的结果。具体来说，NoAvg表示相应时间戳的结果，而TemAvg则通过0.5秒到相应时间戳之间的平均性能来计算指标。

如表5所示，与现有方法相比，Drive OccWorldP实现了更优的规划性能。例如，Drive OccWorldP†在以下方面分别获得了33%、22%和9.7%的相对改善L2@1s、L2@2s和L2@3s与UniAD相比†。我们将这一改进归因于世界模型积累世界知识和展望未来状态的能力。它有效地增强了未来时间戳的规划结果，并提高了端到端规划的安全性和鲁棒性。

最近的研究考察了将自车状态纳入规划模块的影响。根据这项研究，我们还对我们的自我状态模型和之前的工作进行了公平的比较。我们的研究结果表明，Drive OccWorld在遥远的未来时间戳仍然达到了最高的性能，证明了持续预测和规划的有效性。

消融实验结果如下：

其他可视化结果：

结论

本文提出了Drive OccWorld，这是一个用于自动驾驶的4D Occ预测和规划世界模型。灵活的动作条件可以注入到动作可控发电的世界模型中，促进更广泛的下游应用。基于职业的规划器与运动规划的世界模型相结合，考虑了安全性和环境的3D结构。实验表明，我们的方法在职业和流量预测方面表现出了显著的性能。通过利用世界模型积累世界知识和展望未来状态的能力来提高规划结果，从而增强端到端规划的安全性和稳健性。

#自动驾驶数据闭环2024最前沿论文

近几年，自动驾驶技术的发展日新月异。从ECCV 2020的NeRF问世再到SIGGRAPH 2023的3DGS，三维重建走上了快速发展的道路！再到自动驾驶端到端技术的问世，与之相关的仿真闭环开始频繁出现在大众视野中，新兴的三维重建技术由此在自动驾驶领域也逐渐焕发新机。2023年8月特斯拉发布FSD V12；2024年4月商汤绝影发布面向量产的端到端自动驾驶解决方法UniAD；2024年7月理想夏季发布会宣称端到端正式上车，快系统4D One Model、慢系统VLM，并首次提出『重建+生成』的世界模型测试方案。

可以说，端到端+仿真闭环是当下自动驾驶发展的主流路线。但是仿真闭环提了很多年，到底什么是仿真闭环？仿真闭环的核心又是什么？三维重建又在闭环中起到什么样的作用？业内也一直在讨论，百花齐放。无论如何，闭环的目的是明确的，降低实车测试的成本和风险、有效提高模型的开发效率进而优化系统性能、测试各种corner case并优化整个端到端算法。

今天就和大家盘一盘自动驾驶中新兴的三维重建技术相关算法。

MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous Driving（CICAI 2023）

论文链接：https://arxiv.org/abs/2307.15058v1

代码链接：https://github.com/OPEN-AIR-SUN/mars

清华AIR提出的首个开源自动驾驶NeRF仿真工具！如今自动驾驶汽车在普通情况下可以平稳行驶，人们普遍认为，逼真的传感器仿真将在通过仿真解决剩余的corner case方面发挥关键作用。为此，我们提出了一种基于神经辐射场（NeRFs）的自动驾驶仿真器。与现有的工作相比，我们有三个显著的特点：

Instance-aware：前景目标和背景，单独建模，因此可以保证可控性
Modular：模块化设计，便于集成各种SOTA的算法进来
Realistic：由于模块化的设计，不同模块可以灵活选择比较好的算法实现，因此效果SOTA。

UniSim: A Neural Closed-Loop Sensor Simulator（CVPR 2023）

论文链接：https://arxiv.org/abs/2308.01898v1
项目主页：https://waabi.ai/unisim/

Waabi和多伦多大学在CVPR 2023上的工作：严格测试自动驾驶系统对于实现安全的自动驾驶汽车（SDV）至关重要。它要求人们生成超出世界上安全收集范围的安全关键场景，因为许多场景很少发生在公共道路上。为了准确评估性能，我们需要在闭环中测试这些场景中的SDV，其中SDV和其他参与者在每个时间步相互作用。以前记录的驾驶日志为构建这些新场景提供了丰富的资源，但对于闭环评估，我们需要根据新的场景配置和SDV的决定修改传感器数据，因为可能会添加或删除参与者，现有参与者和SDV之间的轨迹将与原始轨迹不同。本文介绍了UniSim，这是一种神经传感器模拟器，它将配备传感器的车辆捕获的单个记录日志转换为现实的闭环多传感器模拟。UniSim构建神经特征网格来重建场景中的静态背景和动态参与者，并将它们组合在一起，以在新视角仿真LiDAR和相机数据，添加或删除参与者以及新的位置。为了更好地处理外推视图，我们为动态目标引入了可学习的先验，并利用卷积网络来完成看不见的区域。我们的实验表明，UniSim可以在下游任务中模拟具有较小域间隙的真实传感器数据。通过UniSim，我们演示了在安全关键场景下对自主系统的闭环评估，就像在现实世界中一样。UniSim的主要贡献如下：

高度逼真(high realism): 可以准确地模拟真实世界(图片和LiDAR), 减小鸿沟(domain gap )
闭环测试(closed-loop simulation): 可以生成罕见的危险场景测试无人车, 并允许无人车和环境自由交互
可扩展 (scalable): 可以很容易的扩展到更多的场景, 只需要采集一次数据, 就能重建并仿真测
知乎解读：https://zhuanlan.zhihu.com/p/636695025
一作直播：https://www.bilibili.com/video/BV1nj41197TZ

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

论文链接：https://arxiv.org/abs/2311.02077v1
代码链接：https://github.com/NVlabs/EmerNeRF

加利福尼亚大学的工作：本文提出了EmerNeRF，这是一种简单而强大的学习动态驾驶场景时空表示的方法。EmerNeRF以神经场为基础，通过自举同时捕获场景几何、外观、运动和语义。EmerNeRF依赖于两个核心组件：首先，它将场景划分为静态和动态场。这种分解纯粹源于自监督，使我们的模型能够从一般的、野外的数据源中学习。其次，EmerNeRF将动态场中的感应流场参数化，并使用该流场进一步聚合多帧特征，从而提高了动态目标的渲染精度。耦合这三个场（静态、动态和流）使EmerNeRF能够自给自足地表示高度动态的场景，而无需依赖GT标注或预先训练的模型进行动态目标分割或光流估计。我们的方法在传感器仿真中实现了最先进的性能，在重建静态（+2.93 PSNR）和动态（+3.70 PSNR）场景时明显优于以前的方法。此外，为了支持EmerNeRF的语义泛化，我们将2D视觉基础模型特征提升到4D时空中，并解决了现代变形金刚中的普遍位置偏差问题，显著提高了3D感知性能（例如，职业预测精度平均相对提高了37.50%）。最后，我们构建了一个多样化且具有挑战性的120序列数据集，用于在极端和高度动态的环境下对神经场进行基准测试。总结来说，本文的主要贡献如下：

EmerNeRF是一种新颖的4D神经场景表示框架，在具有挑战性的自动驾驶场景中表现出色。EmerNeRF通过自监督执行静态动态分解和场景流估计；
一种简化的方法，可以解决ViT中位置嵌入图案的不良影响，该方法可立即应用于其他任务;
我们引入NOTR数据集来评估各种条件下的神经场，并促进该领域的未来发展;
EmerNeRF在场景重建、新视角合成和场景流估计方面实现了最先进的性能。

NeuRAD: Neural Rendering for Autonomous Driving

论文链接：https://arxiv.org/abs/2311.15260v3
代码链接：https://github.com/georghess/neurad-studio

Zenseact的工作：神经辐射场（NeRF）在自动驾驶（AD）领域越来越受欢迎。最近的方法表明，NeRF具有闭环仿真的潜力，能够测试AD系统，并作为一种先进的训练数据增强技术。然而，现有的方法通常需要较长的训练时间、密集的语义监督或缺乏可推广性。这反过来又阻止了NeRFs大规模应用于AD。本文提出了NeuRAD，这是一种针对动态AD数据量身定制的鲁棒新型视图合成方法。我们的方法具有简单的网络设计，对相机和激光雷达进行了广泛的传感器建模，包括滚动快门、光束发散和光线下降，适用于开箱即用的多个数据集。我们在五个流行的AD数据集上验证了它的性能，全面实现了最先进的性能。

DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes

论文链接：https://arxiv.org/abs/2312.07920v3
项目主页：https://pkuvdig.github.io/DrivingGaussian/

北大&谷歌的工作：本文提出了DrivingGaussian模型，这是一个用于环视动态自动驾驶场景的高效和有效的框架。对于具有运动目标的复杂场景，DrivingGaussian首先使用增量静态3D高斯对整个场景的静态背景进行顺序和渐进的建模。然后利用复合动态高斯图来处理多个运动目标，分别重建每个目标并恢复它们在场景中的准确位置和遮挡关系。我们进一步使用激光雷达先验进行 Gaussian Splatting，以重建具有更多细节的场景并保持全景一致性。DrivingGaussian在动态驱动场景重建方面优于现有方法，能够实现高保真度和多相机一致性的逼真环绕视图合成。总结来说，本文的主要贡献如下：

据我们所知，DrivingGaussian是基于复合Gaussian Splatting的大规模动态驾驶场景的第一个表示和建模框架；
引入了两个新模块，包括增量静态3D高斯图和复合动态高斯图。前者逐步重建静态背景，而后者用高斯图对多个动态目标进行建模。在激光雷达先验的辅助下，所提出的方法有助于在大规模驾驶场景中恢复完整的几何形状；
综合实验表明，Driving Gaussian在挑战自动驾驶基准测试方面优于以前的方法，并能够为各种下游任务进行角情况仿真；

Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting（ECCV 2024）

论文链接：https://arxiv.org/abs/2401.01339v2
代码链接：https://github.com/zju3dv/street_gaussians

浙大&理想在ECCV 2024上的工作：本文旨在解决自动驾驶场景中动态城市街道的建模问题。最近的方法通过将跟踪的车辆姿态结合到车辆动画中来扩展NeRF，实现了动态城市街道场景的照片级逼真视图合成。然而，它们的训练速度和渲染速度都很慢。为此本文引入了Street Gaussians，这是一种新的显式场景表示，可以解决这些限制。具体来说，动态城市场景被表示为一组配备语义逻辑和3D高斯的点云，每个点云都与前景车辆或背景相关联。为了仿真前景目标车辆的动力学，每个目标点云都使用可优化的跟踪姿态进行优化，并使用4D球谐模型进行动态外观优化。显式表示允许轻松组合目标车辆和背景，这反过来又允许在半小时的训练内以135 FPS（1066×1600分辨率）进行场景编辑操作和渲染。该方法在多个具有挑战性的基准上进行了评估，包括KITTI和Waymo Open数据集。实验表明在所有数据集上，所提出的方法始终优于最先进的方法。

GaussianPro: 3D Gaussian Splatting with Progressive Propagation

论文链接：https://arxiv.org/abs/2402.14650v1
代码链接：https://github.com/kcheng1021/GaussianPro

中科大&港大的工作：3DGS的出现最近在神经渲染领域带来了一场革命，促进了实时速度的高质量渲染。然而，3DGS在很大程度上依赖于运动结构（SfM）技术产生的初始化点云。当处理不可避免地包含无纹理曲面的大规模场景时，SfM技术总是无法在这些曲面上产生足够的点，也无法为3DGS提供良好的初始化。因此，3DGS存在优化困难和渲染质量低的问题。在这篇论文中，受经典多视图立体（MVS）技术的启发，我们提出了GaussianPro，这是一种应用渐进传播策略来指导3D Gaussian致密化的新方法。与3DGS中使用的简单分割和克隆策略相比，我们的方法利用场景现有重建几何的先验和补丁匹配技术来生成具有精确位置和方向的新高斯分布。在大规模和小规模场景上的实验验证了我们方法的有效性，我们的方法在Waymo数据集上显著超过了3DGS，在PSNR方面提高了1.15dB。

LidaRF: Delving into Lidar for Neural Radiance Field on Street Scenes

论文链接：https://arxiv.org/abs/2405.00900v2

加州大学欧文分校的工作：真实仿真在自动驾驶等应用中起着至关重要的作用，神经辐射场（NeRF）的进步可以通过自动创建数字3D资产来实现更好的可扩展性。然而，由于共线相机的大运动和高速下的稀疏样本，街道场景的重建质量会受到影响。另一方面，实际使用通常要求从偏离输入的相机视图进行渲染，以准确模拟车道变换等行为。在这篇论文中，我们提出了几个见解，可以更好地利用激光雷达数据来提高街道场景的NeRF质量。首先，我们的框架从激光雷达中学习几何场景表示，将其与隐式基于网格的表示融合用于辐射解码，然后提供显式点云提供的更强几何信息。其次提出了一种鲁棒的遮挡感知深度监督方案，该方案允许通过累积来利用密集的激光雷达点。第三本文从激光雷达点生成增强训练视图，以进一步改进。我们的见解转化为在真实驾驶场景下大大改进的新视图合成。

Gaussian: Self-Supervised Street Gaussians for Autonomous Driving

论文链接：https://arxiv.org/abs/2405.20323v1

UC Berkeley&北大&清华的工作：街道场景的真实感3D重建是开发自动驾驶仿真的关键技术。尽管神经辐射场（NeRF）在驾驶场景中的效率很高，但3DGS因其更快的速度和更明确的表示而成为一个有前景的方向。然而，大多数现有的街道3DGS方法需要跟踪的3D车辆边界框来分解静态和动态元素以进行有效的重建，这限制了它们在自由场景中的应用。为了在没有标注的情况下实现高效的3D场景重建，我们提出了一种自监督街道高斯（S3Gaussian）方法，用于从4D一致性中分解动态和静态元素。我们用3D高斯分布来表示每个场景，以保持其明确性，并进一步用时空场网络来压缩4D动力学模型。我们在具有挑战性的Waymo Open数据集上进行了广泛的实验，以评估我们方法的有效性。我们的S3Gaussian展示了分解静态和动态场景的能力，并在不使用3D标注的情况下实现了最佳性能。

Dynamic 3D Gaussian Fields for Urban Areas

论文链接：https://arxiv.org/abs/2406.03175v1
代码链接：https://github.com/tobiasfshr/map4d（待开源）

ETH和Meta的工作：本文提出了一种高效的神经3D场景表示方法，用于大规模动态城市地区的新视图合成（NVS）。由于其有限的视觉质量和非交互式渲染速度，现有工作品不太适合混合现实或闭环仿真等应用。最近，基于光栅化的方法以令人印象深刻的速度实现了高质量的NVS。然而，这些方法仅限于小规模、均匀的数据，即它们无法处理由于天气、季节和光照引起的严重外观和几何变化，也无法扩展到具有数千张图像的更大、动态的区域。我们提出了4DGF，这是一种神经场景表示，可扩展到大规模动态城市区域，处理异构输入数据，并大大提高了渲染速度。我们使用3D高斯作为高效的几何支架，同时依赖神经场作为紧凑灵活的外观模型。我们通过全局尺度的场景图集成场景动力学，同时通过变形在局部层面建模关节运动。这种分解方法实现了适用于现实世界应用的灵活场景合成。在实验中，我们绕过了最先进的技术，PSNR超过3dB，渲染速度超过200倍。

StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views

论文链接：https://arxiv.org/abs/2306.04988v1
代码链接：https://github.com/pjlab-ADG/neuralsim

上海AI Lab和商汤的工作：本文提出了一种新的多视图隐式表面重建技术，称为StreetSurf，该技术很容易应用于广泛使用的自动驾驶数据集中的街景图像，如Waymo感知序列，而不一定需要LiDAR数据。随着神经渲染研究的迅速发展，将其整合到街景中开始引起人们的兴趣。现有的街景方法要么主要关注新视图合成，很少探索场景几何，要么在研究重建时严重依赖密集的LiDAR数据。他们都没有研究多视图隐式表面重建，特别是在没有激光雷达数据的情况下。我们的方法扩展了现有的以目标为中心的神经表面重建技术，以解决由非以目标为核心、长而窄的相机轨迹捕获的无约束街景所带来的独特挑战。我们将无约束空间划分为近距离、远景和天空三个部分，具有对齐的长方体边界，并采用长方体/超长方体哈希网格以及路面初始化方案，以实现更精细和更复杂的表示。为了进一步解决无纹理区域和视角不足引起的几何误差，我们采用了使用通用单目模型估计的几何先验。再加上我们实施了高效细粒度的多级光线行进策略，我们使用单个RTX3090 GPU对每个街道视图序列进行训练，仅需一到两个小时的时间，即可在几何和外观方面实现最先进的重建质量。此外，我们证明了重建的隐式曲面在各种下游任务中具有丰富的潜力，包括光线追踪和激光雷达模拟。

AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction

论文链接：https://arxiv.org/abs/2407.02598v2

多伦多大学和华为诺亚的工作：逼真的场景重建和视图合成对于通过仿真安全关键场景来推进自动驾驶系统至关重要。3DGS在实时渲染和静态场景重建方面表现出色，但由于复杂的背景、动态对象和稀疏视图，在建模驾驶场景方面遇到了困难。我们提出了AutoPlat，这是一个采用Gaussian Splatting实现自动驾驶场景高度逼真重建的框架。通过对表示道路和天空区域的高斯分布图施加几何约束，我们的方法能够对包括车道变换在内的具有挑战性的场景进行多视图一致的模拟。利用3D模板，我们引入了反射高斯一致性约束来监督前景对象的可见面和不可见面。此外，为了模拟前景对象的动态外观，我们估计了每个前景高斯的残差球面谐波。在Pandaset和KITTI上进行的大量实验表明，AutoPlat在各种驾驶场景中的场景重建和新颖视图合成方面优于最先进的方法。

DHGS: Decoupled Hybrid Gaussian Splatting for Driving Scene

论文链接：https://arxiv.org/abs/2407.16600v3

长安汽车的工作：现有的GS方法在实现驾驶场景中令人满意的新视图合成方面往往不足，主要是由于缺乏巧妙的设计和所涉及元素的几何约束。本文介绍了一种新的神经渲染方法，称为解耦混合GS（DHGS），旨在提高静态驾驶场景新型视图合成的渲染质量。这项工作的新颖之处在于，针对道路和非道路层的解耦和混合像素级混合器，没有针对整个场景的传统统一差分渲染逻辑，同时通过提出的深度有序混合渲染策略仍然保持一致和连续的叠加。此外，对由符号距离场（SDF）组成的隐式道路表示进行训练，以监控具有微妙几何属性的路面。伴随着辅助传输损耗和一致性损耗的使用，最终保留了具有不可察觉边界和高保真度的新图像。在Waymo数据集上进行的大量实验证明，DHGS的性能优于最先进的方法。

#TPVFormer

2.Abstract

bev效率快，但是缺乏高度信息。occ信息丰富，但是太大了，消耗高。

动机：因此提出了一种三视角视图(TPV)表示，它伴随着BEV和两个额外的垂直平面。通过将 3D 空间中的投影特征相加来对 3D 空间中的每个点进行建模。为了将图像特征提升到 3D TPV 空间，作者进一步提出了一种基于变压器的 TPV 编码器 (TPVFormer)，以有效地获取 TPV 特征。

3.Method3.1Point Querying formulation

第三个是作者提出的三视图方法（俯视图、侧视图和前视图）

给定现实世界中的 (x, y, z) 处的查询点，TPV 表示试图在顶部、侧面和正面视图上聚合其投影，以便对点进行全面描述。首先将点投影到 TPV 平面上以获得坐标 [(h, w)、(d, h)、(w, d)]，在这些位置对 TPV 平面进行采样以检索相应的特征 [th,w, td,h, tw,d]，并聚合三个特征。

其中采样函数S和聚合函数A分别用双线性插值和求和实现，每个投影函数P在两个相关坐标上执行简单的缩放，因为TPV平面与现实世界的轴对齐。

TPV的计算复杂度：O(HW + DH + W D) 正常OCC的计算复杂度：O（H×W×D）

3.2TPVFormer

采用图像骨干网为多相机图像提取多尺度特征。然后执行交叉注意，自适应地将 2D 特征提升到 TPV 空间，并使用跨视图混合注意力来实现 TPV 平面之间的交互。为了预测三维空间中一个点的语义占用率，我们在三个TPV平面上对投影特征之和应用一个轻量级的预测头

3.2.1 TPV Queries（Query initial）

文中作者说初始化Query为可学习参数的时候参考了原文公式3的size，

每个 TPV 查询映射到相应视图中大小为 s × s m2 的 2D 网格单元区域，并进一步映射到从垂直方向视图延伸的 3D 柱区域。

然后在HCAB中进行AUG、在HAB中进行上下文线索细化。

Attention 这里的话前面三块是Cross-Atn，负责和图片两者的交互，后面的两块是Hybird-Atn，负责三个视角间的交互。

3.2.2 Image Cross-Attention

首先要拿采样点

这个图论文没找到，就从作者讲这篇论文的视频那扒拉下来哈哈