计算机视觉cv(计算机视觉如何入门)

雷锋。com AI技术评论：对于计算机视觉研究者来说，在现有技术水平的基础上寻找突破点进行改进是科研的主旋律。近年来，在研究人员的努力下，计算机视觉领域存在的问题普遍得到了越来越好的解决，越来越多的新问题不断涌现。然而，在全球计算机视觉研究者讨论的盛会CVPR，一个可能无法直接指导短期研究、不易形成共识的问题自然涌上了大家的心头：五到十年后，计算机视觉研究会是什么样子，深度学习是否会几乎完全取代目前仍在使用的其他方法，还是应该期待一场新的革命？2019首届“5年后的计算机视觉——CVPR研讨会”正式将大家聚集在一起讨论这个问题，不仅让有经验的研究人员交流观点，也为该领域的年轻学者拓展了思路和视野。

五年后计算机视觉研讨会的三位组织者分别来自加州大学伯克利分校、FAIR和UIUC。被邀请的搞笑小面包包括罗斯吉尔西克、吉滕德拉马利克、阿列克谢埃弗罗斯等计算机视觉领域的知名人物。研讨会在午休后开始；在最初的五分钟里，会议厅里挤满了人。到了计划的开始时间，可容纳400人左右的报告厅两侧的走廊，以及门口的走廊，都像脸书的沉默的蜜蜂和罗斯集团组织的视觉识别和fndxn教学讲座一样拥挤，这也说明研究者关注的是整个领域的大方向。(虽然与今年CVPR超过9000人的参与者相比，这不是一个很大的数字)

雷锋。com AI技术评论将学者们发言的主要内容摘录如下。

演讲一

第一个搞笑的馒头是INRIA法国国家信息与自动化研究所研究主任科迪莉亚施密德。

Cordelia Schmid是乔春明人，研究领域为图像和视频描述、对象和类别识别、机器学习。他长期担任IEEE PAMI和IJCV的编辑。现在他是《IJCV》的主编，也是CVPR2015的总裁。

科迪莉亚施密德的演讲题目是《5 年后对视觉世界的自动化理解》。

得益于机器学习研究的新进展和各种大规模数据集，今天的机器感知已经取得了许多可喜的成果，在如何设计模型上也有了新的思路。然而，当前的数据集存在一些问题，这将限制新任务的性能。

在数据方面，目前的人工标注数据存在很多问题，如可覆盖的类别和实例数量有限，需要添加新的类别或概念时重新标注或升级标注困难，类别中存在长尾现象，以及一些难以标注的信息(如流和3D形状)。

对于人体运动识别的任务，Cordelia Schmid介绍了她对数据问题的解决方案：超现实数据集，这是一个合成的三维人体运动数据集，具有良好的可移植性和许多不同级别的注释。

总的来说，她认为计算机视觉未来有三个发展方向：数据集有三种类型：人工标记数据、生成数据和弱监督数据；更好的视频理解；以及多模态表示，与世界有更多的互动。

对于视频学习这个话题，目前的一个主要问题是视频数据集的规模不理想。例如，UCF-101和J-HMDB数据集的多样性、持续时间和分辨率非常有限。新的数据集比主角需要更多的动作，也更丰富多变。视频学习的目标包括判断时序依赖(时序关系)和运动预测。因此也需要一个新的模型设计，她组的一个视频运动检测论文被CVPR 2019收到。

除了感知图像，还可以补充计算机视觉研究。例如，视觉系统可以与世界互动，并与机器人和强化学习相结合。而音频和文本数据的加入也能带来更好的视觉理解。

src="https://p6.toutiaoimg.com/origin/pgc-image/RUQOL2eFzbLAws?from=pc">

具体做法是多模态监督，最新的 Video-Bert 能学习视频和对话之间的对应关系；模仿学习结合强化学习、虚拟环境训练到真实环境训练迁移也是值得引入到计算机视觉领域的做法。

总结：Cordelia Schmid 对未来计算机视觉发展趋势的预测是，需要设计新的模型，它们需要能考虑到空间和时间信息；弱监督训练如果能做出好的结果，那么下一步就是自监督学习；需要高质量的人类检测和视频对象检测数据集，这非常重要；结合文本和声音的跨模态集成；在与世界的交互中学习。

演讲二

下一位讲者是 UC 伯克利电子工程与计算机系教授 Alexei Efros，他也是计算机视觉领域的先驱，尤其以最近邻方法而闻名。他的演讲风趣幽默，令人愉悦，也引发了现场许多听众的共鸣。

他首先展示了这样一张 PPT——计算机视觉的下一个五年计划。然后他很快解释这是开玩笑的，学术研究的事情怎么可能做得像苏联的五年计划一样呢。他紧接着讲了个关于学术课题的笑话，一个学生问他的导师「什么课题才是真正重要的」，导师回答他「当然是现在正在做的！」（也许是暗示没有一心投入哪个课题的人才能真正看得远）

所以他真正的演讲题目是：「没有遗憾的未来五年」。预测五年很难，但是可以做尽量不让自己后悔的事情。也是借机谈一谈自己学术经历中的一些感想。

遗憾是从哪里来的？Vladlen Koltun 有句话说「每篇论文都是障碍」，因为糟糕的论文可能会影响自己一生的学术名誉，可能会浪费了时间以至于做不了更有影响力的事情，甚至更糟糕地，可能会把整个领域引向错误的方向。而且也会长期带有这种负罪感。但是也不能只顾着安全，做学术研究就是需要冒一些险的。

Alexei Efros 说自己的学术生涯里有两大遗憾：图模型，就不应该尝试这个方向的，而且把很多别的研究人员也带到沟里了；而卷积网络，应该更早地研究、更早地使用。他讲了一则趣事，Yann LeCun 以前到伯克利做过演讲，介绍 CNN，LeCun 讲的时候仿佛完全没觉得有必要解释是怎么来的，就只是说了你需要这个、那个，把它们连起来，然后就好了。他还带了电脑，现场演示训练和预测（当时别的方法都没法这么快地完成）。这和当时做图模型的人的做法完全不一样，但也直到后来大家才接受了 CNN。

而所有遗憾的「元遗憾」，就是领域内的研究人员们花了太多时间精力研究算法。对特征的研究要少一些，对数据的研究更少，但实际上它们的效果是反过来的——数据带来的提升是最显著的。

他举了例子说明，如今面部识别早已不是问题，但当时，1998 年、1999 年都有人已经用简单的方法做出了优秀的结果，但让领域内公认「解决」了面部识别问题的算法，是看起来足够难的那个算法—— 2011 年的 Haar 特征加级联提升多厉害，更早的用像素特征、用朴素害怕的西装听起来就没难度，朴素害怕的西装（Naive Bayesian）这么天真、简单，怎么能说是突破性结果的代表呢。

另一个例子是他自己在 2008 年用最近邻算法做了图像的地理位置识别，巧的是谷歌也在 2016 年用深度学习研究了同一个问题。作为后来者的谷歌拿出了更多的数据，所以结果更好。

但有趣的是，在实验数据里，一样的数据量下，他们的老方法比谷歌的新方法效果还好。所以关键点还是在于数据，但大家都在急着提出并且标榜自己的算法。

所以说，做科研的人都有这么种自恋：相比之下，我们更愿意把成果归功于自己的聪明才智。

对于未来 5 年计算机视觉领域的发展趋势，Alexei Efros 接下来给出了自己的看法，更具体地说是对未来研究可能证明是障碍、可能会成为遗憾的东西的看法。不过他也说自己的观点是有争议性的，如果有人能证明他是错的也挺好的：

1，对抗性攻击和鲁棒性问题，他认为这不应该是个问题，没必要花那么多精力去想办法避免，实际上可能也永远都避免不了。因为对抗性样本本来就不是来自自然数据流形的数据，落在由自然数据流形所划分的决策边界上就是有可能的，所以这并不是一个数学问题，而是一个人类的感知问题。他的建议是只要我们让人类的视觉行为和计算机的类似就行了。换句话说，对抗性样本只是人类与计算机的感知特点不同的表现，而不是问题本身；如果想要治病，不要只吃止痛药（要研究感知特点，就不要紧盯着想要消灭对抗性样本）；

2，他认为短期内视觉无法和语言结合，抽象程度相差太多。Alexei Efros 挖苦说，最近几十年的 CVPR 论文可能都会反复上演这样的戏码：每一年都会有论文带来新的视觉+语言数据集，然后第二年发现在这个数据集上只需要用最近邻算法或者随便一个什么基准线方法就能打败所有别的方法。他说这是因为我们现在有的方法真的太弱了，还不足以把这两种模态的信息有效地提取、融合起来。「我们还没达到一只老鼠的视觉能力，怎么就开始想着做直立人做的事情了」

3，我们对可解释性的要求太严苛，有些问题没有简单的低维描述，就是复杂的，就是需要足够多的数据才能解决。相比于理工科往往用简单明了的公式描述现象，心理学、基因、经济学等学科已经没办法简单地用公式表示了。所以在这种时候我们就是应当依靠大量数据，没必要一定要追求一个简单的解。

他还举了个例子，一团烟雾的行为可以用公式描述，但是一颗树的生长行为是由温度、光照、水、气候等等许多复杂的因素在很长时间内连续变化所影响的，那么它就是没办法简单地解释的。

4，重新思考数据集。虽然做实验、发论文的时候一定需要用数据集，但是我们心里要记得，数据集并不等于整个世界，它只是一个相当固定的、二维的侧写。所以模型出现的过拟合/作弊行为也就不应该被看作是问题，同样的样本甚至同样的数据集（多轮训练）反复看了很多次，当然会出现这样的结果。说到底，就不应该使用有限的标注和数据集。

结束语：如果说人生目标可以是增加未来可以怀念的东西的话，他自己的五年计划就是减少遗憾、增加可以让在未来怀念的东西，比如可以从别发表自己不满意的论文开始。

（限于文章篇幅，后续 Ross Girshick、Jitendra Malik 等几位讲者的演讲内容将在下篇中呈现，敬请期待）

雷锋网 AI 科技评论现场报道