首页 > 编程知识 正文

强人工智能(前沿科技为什么发展起来)

时间:2023-05-03 22:09:54 阅读:78000 作者:2996

视觉定位技术

文/gldhb

人工智能的“眼睛”——视觉定位技术

我想很多人都遇到过这种情况,你乘坐的列车停在车站,旁边停着另一辆列车,当那辆列车向后移动的时候,你会误以为自己的列车往前走了。 人的双眼在观察外界信息的同时起着一定的自我定位作用。 例如,愤怒的舞蹈在车上,汽车向前行驶。 即使感觉不到车在动,只要眼睛观察周围景色的后退,大脑就能判断出你在前进。 观察周围景色的后退速度加快了,大脑就能判断出你的前进速度加快了。 通过收集和分析这种图像信息来判断自己所在方位的技术称为视觉定位技术。

视觉定位技术广泛应用于人工智能。 例如,在汽车和机器人上设置摄像机,用计算机运算分析摄像机拍摄的图像,推算出汽车和机器人的当前位置并描绘行驶轨迹,谷歌的自动驾驶汽车作为其定位方法之一使用视觉定位。

图1 :谷歌无人驾驶汽车

视觉定位技术的前世今生

20世纪美苏太空争霸之争时,美国和苏联向月球发射了探测器,但由于远程操作存在延迟,着陆后的探测工作必须结合远程操作和自动控制,这样探测器自身的定位工作就显得尤为重要。 月球上不能使用GPS信号。 探测器行驶时只能通过安装在车轮上的里程表来确定自己的位置。 但是,由于月球表面的砂砾环境,探测器难以顺利前进,行驶中探测器普遍存在晃动和打滑的现象,里程表的位置产生了误差。 随着火星探测项目的开展,机器人自身对定位精度的要求提高到了新的高度。 火星离地球最近的时候也有5,500万公里。 从地球发送的信号传达出去单程要3分钟,而从火星返回的信号还要3分钟。 机器人大部分时间都需要自动执行任务,但当时缺乏能够在火星环境中准确定位的方法。

为了解决这个问题,人们着手研究机器的视觉定位方法。 2004年登陆火星的“勇气舰”和“机遇号”火星探测车都采用了视觉定位方法。 位于探测车上部的两个照相机分别对同时拍摄的两个图像提取特征点(例如石头的角等)进行配对,进而得到各特征点相对于照相机的三维位置信息,在探测车移动时,这些特征点对应于照相机的三维位置信息,为2011 另外,为了增加视觉定位所需的特征信息,“好奇号”对车轮进行了改进,使其能够在行驶的路面上留下明显的纹理痕迹。

图2 :“勇敢地”火星探测车

我国于2013年12月发射了“嫦娥三号”月球车。 “嫦娥三号”上安装了三对立体相机,其中一对全景相机和导航相机安装在月球车前方的横杆上。 这两对摄像机的主要任务是获取较远的图像完成导航。 一对屏障摄像机安装在车头,用于判断车辆前方障碍物的位置并完成屏障,地形、地形的检测也主要通过这一对摄像机进行。

图3 :“嫦娥三号”探月车

现有的定位技术哪个更强?

目前常用的定位方法有GPS定位、陀螺定位、里程表定位、视觉定位,但对于上述定位方法,谁更好,只能说各自有特点和应用场景。

GPS在目前汽车定位中应用广泛,其定位无累计误差,适合长期、远程定位,但精度不够,不能在室内使用; 陀螺主要获取物体的当前姿态,其定位功能通过加速度的二次积分实现,容易产生累计误差,同时受到周围磁场的干扰; 里程表的定位很简单,大多数家用轿车的行驶里程统计功能都是通过里程表实现的,但发生打滑或晃动会严重影响定位精度; 视觉定位精度高,不仅可以得到自身的位置,还可以得到姿势信息,同时可以利用特征点的不变性来校正累计误差。

当然,视觉定位有其自身的缺点,首先制约视觉定位发展的是计算量。 由于相机拍摄的图像是二维网格信息,例如一张HD分辨率的图像中包含约100万个像素点信息,但视觉定位算法在过程中需要多次重复,使用i7cpu运算,在保证精度的基础上, 一般视觉定位算法的处理速度可以达到每秒3~4帧,一些算法如果每秒7~8帧的摄像机动作太快,前后两帧图像中的内容匹配度少,定位就有可能失败。 同样,视觉定位受到一定的外界环境的影响。 例如,外界光线急剧变化时,图像特征点匹配失败,影响定位结果。 当现实中遇到对定位要求较高的场景时,往往使用多种定位方式相结合的方法。

人工智能的“火眼金睛”

视觉定位主要分为单眼定位(单摄像机)和双眼定位(双目摄像机)。 无论是单眼对准还是双眼对准,在使用前都需要校准摄像机。 也就是说,通过拍摄标准棋盘的图像,计算校正矩阵,消除镜头引起的成像误差。 在双目定位中,除了校准摄像机本身外,还需要校准两个摄像机的相对位置关系。 虽然单眼定位运算量较少,但只能得到二维信息,因此通常需要在环境中添加特定的人工图标,或者辅助其他测量设备完成定位。 单眼视觉定位主要通过比较前后两帧图像的变化来判断自身的移动情况,目前部分扫地机器人和无人机都采用了单眼定位技术。 扫

地机器人通过安装在顶部的摄像机拍到的天花板画面判断自身的位置,而无人机则是通过安装在底部的摄像机拍摄地面画面实现悬停及自动回归。

双目视觉定位精度比单目定位要高,其定位方式是首先对同一时刻两个摄像机拍到的图像进行分析,找出相同的特征点,所谓特征点是指颜色发生突变的点,之所以要找到发生突变的点是为了后续方便匹配。由于两个摄像机位置不一样,所以同一时间同一物体(特征点)出现的图像中的位置会有所不同,依靠颜色信息将其匹配,进而利用三角几何原理可以得出每一个特征点相对于摄像机的三维坐标。当摄像机位置或姿态发生变化时,前后两个时刻特征点相对于摄像机的三维坐标发生变化,正式利用这些变化,通过解方程得到摄像机当前的位置与姿态。双目定位方法在工业、探测机器人上使用的较为广泛。

图4:双目相机获取特征点三维坐标原理图

视觉定位在定位的同时,还可以用来感知外界环境。双目视觉可以计算出外界各点相对摄像机的三维坐标,依靠这一信息即可构建观测到环境的三维模型。利用这一技术,面对陌生环境,只需使用搭载双目摄像机的车或机器人在环境中行驶一圈,即可得到整个环境的三维模型。如某化学工厂发生爆炸后,部分建筑坍塌,有毒原料泄露,此时救灾工作将变的困难异常,此时可使用搭载双目摄像机的探测车在工厂内行驶一圈,即可得到坍塌后的工厂三维模型,结合车上的其他探测气,可以获得整个工厂有毒气体浓度分布等的信息,将相关信息叠加在三维模型上之后,便可对整个工厂的情况了如执掌,这将使得后续的救援,重建工作可以高效安全的进行。

在机器人技术方面,视觉定位不仅可以使机器人实时定位自己的位置,也是帮助机器人完成日常工作的重要手段之一。当一个人想要伸手去拿面前的苹果时,我们的大脑在看到这个苹果的同时会判断出苹果与我们的距离,我们也就知道了手伸到多远可以拿到苹果。对于机器人也是如此,当我们命令机器人取一样东西,机器人需要利用图像识别技术去找到这样东西,之后利用两个摄像机定位该物体的坐标,然后通过电机控制机械手臂抓取该物体,最终利用自身定位信息返回我们身边。

在自动驾驶方面,双目摄像机在完成定位的同时,还可以感知其他路面及车辆信息,结合三维重建与图像识别技术,无人驾驶车可以自动识别出周围的行人、车辆甚至是交通指示线,计算机利用这些信息再结合汽车自身状态便可以确定行驶路线及速度并不断调整,保证与其他车辆、行人的安全距离,规避道路上的障碍物,以及按照交通规定行驶。

图5:自动驾驶的行人及车辆识别

随着计算机软硬件以及拍摄元件的不断升级,视觉定位的效果必然会得到进一步的改善。想象一下在未来,你拥有一辆能够自动驾驶的房车,你只需说出目的地,房车就会自动带你到想去的地方,而你只需要躺在床上,享受机器人从冰箱里帮你拿来的果汁就可以了。

来源:今日科协微信公众号

中国科协各级组织要坚持为科技工作者服务、为创新驱动发展服务、为提高全民科学素质服务、为党和政府科学决策服务的职责定位,推动开放型、枢纽型、平台型科协组织建设。接长手臂,扎根基层,团结引领广大科技工作者积极进军科技创新,组织开展创新争先行动,促进科技繁荣发展,促进科学普及和推广,真正成为党领导下团结联系广大科技工作者的人民团体,成为科技创新的重要力量。——rzdxf

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。