用QA问答详解BEV [基础知识]

2024-06-28

Q：BEV分类有几种？

根据输入数据不同，分为3种：BEV camera，BEV LiDAR，BEV Fusion

纯视觉感知可分为单目，双目，以及多相机这3种。

单目BEV方案可分为4个步骤：

单目BEV的2D-3D转换分为3种流派：2D-3D；3D-2D；Pure-network-based

2D-3D：在2D特征上预测深度信息，基于预测的深度将2D特征lift到3D特征【LSS】
3D-2D：利用逆透视映射算法，根据Camera内外参以及转换矩阵的数学公式推导，可以将2D和3D相应坐标位置对应起来（投影），接着通过2D投影区域特征的变换得到3D空间的Voxel特征
Pure-network-based：减少几何投影的偏差，利用network学习隐式表达Camera投影关系

有2种范式：

LSS-Based的方法，如：BEVDet, BEVDet4D, BEVFusion, FastBEV。

Lift：提取2D feature，与此同时，提取Depth信息，这里将Depth信息比作一个在视锥射线上离散深度区间的分类概率问题，将2D feature和Depth信息外积得到point cloud
Splat：根据Depth信息以及相机内外参，将2D坐标映射到车身坐标系下的3D坐标，将3D坐标每个点分配给最近的pillar【dx,dy,无限高的长柱子】，每个pillar的特征就是匹配到的点的特征sum-pooling，得到BEV features
BEV Encoder：对于BEV features进一步特征提取和多尺度融合
Task Head：segmentation/3D object detection etc.

Transformer-Based的方法，如：DETR3D, BEVFormer, PETR, PETRv2, StreamPETR.

显式BEV Queries：大小 [H,W,C]，栅格化可学习参数，共H*W个grid，每个grid的特征维度是C，表示语义信息
Spatial cross-attention：将每个栅格特征Qp按z轴方向Lift，并按间隔设置N个参考点得到N个3D空间参考点；再根据相机内外参将这些3D空间参考点转换为各个视角相机下的2D图像坐标点(由于相机感知范围限制，每个3D空间参考点只有1-2个相机上能找到有限的转换投影)；利用deformable attention在这些2D参考点的基础上，在2D特征图上对周围局部的特征进行采样；将不同相机采样到的特征做加权求和，作为该栅格的BEV特征；

Temporal self-attention：对 grid query Qp，基于reference point p *即当前位置坐标(x,y)，对 cat(Q, B_(t-1)) 进行 DCN，即在当前时刻的 BEV feature 以及上一时刻的 BEV_(t-1) 两者的 *p *周围进行 DCN； Tips：基于reference point的offset和这个采样点的attention weight都由Qp(z_q)*经过线性变换得到；

相机内参：是指相机的内部参数，这些参数定义了相机的光学特性和传感器尺寸。内参主要包括焦距（f）、主点（principal point，即光心在图像平面上的投影位置）、以及畸变系数（distortion coefficients，描述镜头引起的图像畸变的参数）。
内参的作用：是将相机坐标系下的点坐标转换到像素坐标系中，也就是说，它描述了从三维空间中的点到二维图像平面的映射关系。
相机外参：是指相机的外部参数，这些参数描述了相机相对于某个参考坐标系（通常是世界坐标系）的位置和方向。外参包括旋转矩阵（rotation matrix）和平移向量（translation vector），它们定义了从世界坐标系到相机坐标系的变换。
外参的作用：是将世界坐标系下的点坐标转换到相机坐标系中，也就是说，它描述了从三维空间中的点到相机坐标系的映射关系。

注：相机坐标系→像素坐标系的转换是3D→2D的转换，两者之间是透视投影的关系。