正常人知觉物体的距离与深度,键槽深度是哪个距离

刚开始看到单眼的深度推断，很多概念不清楚，以下是我的理解，有错误的地方请大人物指出来。

首先是相对深度和绝对深度的概念。绝对深度是指利用激光雷达等装置获取的相机与物体之间的距离。例如，KITTI数据集利用360度雷达设备获取稀疏的深度贴图。图1是雷达获取的原始深度图，太暗了，什么也看不见。图2是KITTI数据集提供的标记深度贴图，虽然稍好一些，但仍然很稀疏。因此，很多论文在使用时对其进行了插值。 (插值方法参考： https://blog.csdn.net/weixin _ 41423872/article/details/114578403 ) )。

图1

图2

以绝对深度为训练数据得到的模型可以预测绝对深度，David E等人的一系列算法就是这种类型。

但是，由于很难知道室外场景的真正深度，有人会考虑能否人工标记深度估计的数据集，答案是肯定的。但是，人工无法准确显示物体距离摄像机多少米，只能显示哪个点离摄像机近，哪个点离摄像机远。这样显示的深度图就是相对深度图。使用在相对深度图上训练为训练数据的模型也只能预测相对深度(例如，这篇论文： learningordinalrelationshipsformid-level vision )

和真正的深度之间有一个基准值不同。这个值我们不知道。因此，这种类型的算法在自动驾驶领域的应用非常受到限制。

那么，我明确了相对深度图和绝对深度图。让我们考虑另一个问题。雷达得到的结果应该是一个个以米为单位的距离。为什么数据集提供黑漆漆的深度图？那和真正的距离的关系是什么？

以KITTI数据集为例，官方网站提供了这样的文件：

下载它，自述中有这样一句话：

也就是说，深度贴图以uint16格式存储。要从深度贴图中读取真正的距离，请将其除以256，以米为单位。当然，深度图中为0的点并不意味着距离为零，而是这些点之间没有距离。下载的文件包含一个python脚本，可帮助您完成此转换任务。

也就是说，在KITTI绝对深度图作为训练数据获得的模型中，如果向他输入单眼图像，则可以输出真正的深度图，然后将其除以256，获得真正的距离值。为了完成图3所示效果的目标测距功能，只要对目标框内所有像素点的真实距离进行平均即可。

图3