优酷4k清晰度(电脑分辨率大了)

机器心脏报告

作者：李泽南

在这场算法挑战赛中，不仅有刚刚在CVPR 2019上亮相的最新算法，还有年仅18岁的获奖者。

在刚刚结束的2019云起大会上，我们看到了阿里平投首款AI芯片“光800”、绿橙奖、阿里数字经济的新布局。在会场的另一端，9月27日，一场极具挑战性的AI算法大赛落下帷幕。

能否仅通过算法将270p视频“重构”为1080p画质？今天，随着人工智能技术的发展，被称为“超分辨率”的技术逐渐变得实用。阿里巴巴优酷视频增强与超分辨率挑战赛是一场寻找最强视频超分辨率算法的比赛。

本次比赛从今年5月开始，历时6个月，吸引了1514支队伍参赛。最终，六支队伍进入决赛，并在杭州云起会议上举行了最后的比赛。昨天比赛决出冠军：中国科技大学的kadfn和cjdsy成为本次比赛的冠军。

视频内容的图像增强在超分辨率数据竞争中开创了一个全新的领域。这场比赛之后，优酷也打开了业内最大的视频超分辨率数据集。

最接近现实的超分辨率挑战

超分辨率是计算机视觉的经典研究方向，关于图像增强的论文经常出现在AI峰会上。人们总是希望能够“还原”低质量视频的细节，提高视频的清晰度，或者在保证视频质量的同时减少对网络带宽的占用。这项技术在工业上具有重要的现实意义，甚至可以帮助我们提高早期电影视频的质量和清晰度。

虽然有很多方法，但这场比赛仍然给参赛者带来了很大的挑战。决赛前，所有选手都接受了采访，大家都认同了自己对比赛的感受：“这场比赛非常真实，需要处理的数据量巨大。——比之前其他数据比赛的数据多了几个数量级。完成这样的任务是一种很大的成就感。」

在数据集上，这里的玩家面对1000个视频，每个视频持续4-6秒。每个样本由一个视频对组成，该视频对由低分辨率视频和高分辨率视频组成。低分辨率视频是算法的输入，高分辨率视频是经过增强和超分割后的真值。其中初赛视频250个，半决赛视频750个。

阿里娱乐资深算法专家、Moku实验室负责人Sprite主持最终答辩。

本次挑战还原的现实场景也是很多选手从未见过的视频中——的logo和字幕，超分辨率算法还原难度很大。但能带来成就感的是贴近真实情况的内容：玩家提出的算法都是真正能落地的技术。

在这场比赛中，玩家需要训练样本来建模视频增强和超分割模型，并从测试集中的低分辨率视频样本中预测高分辨率视频。其中，高分辨率视频来自优酷高清媒体资源库。低分辨率视频的生成模型是模拟实际业务中的噪声模式。

对于算法恢复的视频和帧提取的结果，本次比赛使用了PSNR和VMAF。对于上传的完整视频，评测程序会计算PSNR和VMAF，逐帧计算：PSNR评分80%，VMAF评分20%。此外，需要在有限的时间内输出结果，这需要模型处理的效率。

在最后阶段，组委会还为每个团队分别提供了一个阿里巴巴云ECS的例子，配置了8个CPU、60G GB内存和双GPU NVidia P100。团队需要在标准硬件条件下重现从训练到预测的代码和模型，以确保预测过程可以在ECS上独立运行。

本次大赛的评委包括阿里巴巴达摩院高级研究员、乔春明无聊向日葵、阿里娱乐高级算法专家、眯着眼的雪碧、Moku Lab负责人、阿里巴巴高级算法专家的雅服、哈尔滨工业大学教授fndwl、阿里视频云总经理的可靠红酒、阿里高级技术专家的强兔等人。

无聊的向日葵评论道：“本次大赛完成了开创性的探索，将实际应用场景带入了学术界的经典问题，给学术界带来了很好的启发，弥补了学术界相关研究的不足。」

中国科技大学获得冠军

本次比赛的优胜队伍是来自中国科技大学的“复仇者联盟”。该队在预赛和半决赛中保持领先，并成功获得决赛冠军。

这个团队的两名成员是中国科学技术大学智能媒体计算实验室的初三学生。Kadfn主要研究强化学习和计算机视觉，cjdsy主要研究图像处理和增强。他们的研究也得到了中国科技大学可靠蜜蜂教授、懦弱板凳博士、微软亚洲研究院高级研究员谭旭等人的指导。

在最后的防守中，kadfn对于球队的方法和目前的超级解析

技术的现状进行了介绍。目前在业内，超分辨率方向上的算法主要从残差结构、多分支结构等方法通过增加参数量提升效果。与此同时，也有研究者提出了循环结构的模型希望通过参数共享降低计算开销，而渐进式结构模型则通过分阶段的方式进一步提升了超分辨率的处理效果。最近，人们也在研究注意力机制和基于 GAN 的超分辨率方法。

与图片的超分辨率不同，视频的超分辨率中，由于图像本身带有运动信息，参考帧和目标帧存在一定偏差，所以在进行处理时我们必须要寻求对齐。另外，视频模糊和场景切换问题也需要得到妥善解决。

「目前超分辨率与去噪方向的研究现状主要是：三维卷积、循环结构、滤波器预测。」kadfn说道。

冠军团队使用的方法基于目前最为先进的超分辨率算法：在今年的计算机视觉顶会 CVPR 2019 上，商汤提出了 EDVR，相对于此前的业内最佳方法（RCAN），EDVR 算法视频超分辨率的结果能让我们看到更多细节，这一方法也实现了业内顶尖水平。作者提出了一种新的网络模块「PCD 对齐模块」，使用 Deformable 卷积进行视频的对齐，整个过程可以端到端训练。而在挖掘时域（视频前后帧）和空域（同一帧内部）的信息融合时，作者提出了一种时空注意力模型进行信息融合。

kadfn等人认为，在竞赛任务中，EDVR 还存在感知能力不够强、时序信息不充分、特征表达不高效等问题。中科大团队针对这三个方向进行了自己的改进：

在对齐模块中，EDVR 采用了多尺度的可变卷积，冠军团队借鉴了axdjj等人提出的 Non Local Neural Network，采用 Separate Non Local 把维度进行了分离，从而减少参数量，提升网络的感受野。在时序信息问题中，冠军团队的算法在融合模块中使用 Temporal and Spatial Attention + 3D Convolution，加入了 3D 卷积，从而捕获时序上的信息。在特征表达的问题上，体现在重建模块上，给 ResNet Block 增加了 Channel Attention，提升了 0.3db 的指标。

其他决赛队伍

获得第二名的团队由清华大学的会撒娇的季节、厦门大学的badppx、江西财经大学的搞怪的酸奶组成。他们采用了 RCAN 模型的改进算法，通过损失函数的调优和对于数据集的处理实现了很好的效果，在复现比赛中排名第二。他们提出在视频场景切换帧位置通过数据增强方式，训练类似帧的方法引起了评委们的关注。

会撒娇的季节在决赛答辩中介绍了自己团队的方法

这次比赛中使用到的模型存在台标和字幕，这对于所有团队来说都是很大的挑战：不断变化的文字和背景图像毫无关联，区别明显，这会导致深度学习算法难以对其进行学习。会撒娇的季节等人认为，在未来的研究中应当使用自然语言处理的方式对文字单独进行处理。这一思路得到了来自优酷的评委们的肯定。

此外，入围决赛的另一支团队「我的圣光啊」格外引人关注，参加决赛答辩的凶狠的棒球年仅 18 岁，是来自香港中文大学（深圳）的研一学生。他所在的团队五位成员来自五所不同大学，平均年龄仅为 23 岁。最终这一组选手获得了「极客奖」。

凶狠的棒球在决赛答辩中

除凶狠的棒球以外，该团队的其他四个成员是队长rxddy（来自多伦科技）、副队长mgdyl（华南理工大学在读硕士），以及华东师范大学的谨慎的电话和上海大学在读硕士dmdwn。

这支团队采用 RCAN 方案作为主体结构的视频超分辨率增强模型。其创新点在于引入自扩展残差学习，同时也引入了对于视频任务的 YUV 损失函数。值得一提的是，虽然需要对视频进行处理，该队伍并没有考虑时域的问题，只进行单帧的图像增强。选手认为多帧关联的考虑会降低网络性能，所以希望把单帧的网络做到极致。只用单帧处理就能打入决赛（前六）不得不说是非常亮眼的成绩。

推出视频超分和增强数据集

本次竞赛中，优酷不仅为大家展示最前沿超分辨率算法提供了平台，而且还提出了出了业界最大、最具广泛性的数据集，包括不同内容品类，不同噪声模型、不同难度等。

数据集地址：https://tianchi.aliyun.com/dataset/dataDetail?datald=39568

优酷表示，该数据集包含 10,000 个样本，数据总量达到 3T。其中采用的噪声参数完全是模拟实际业务中的噪声模式，研究人员可以真正的在实际场景中打磨算法。

「增强和超分辨率在多媒体内容里是较为经典的问题，」眯眯眼的雪碧表示。「我们希望通过打造这一数据集促进工业界和学术界研究的发展，让工业界和学术界更加紧密地结合。让视频更加清晰。」

这些视频均来自优酷高清媒资库，优酷拥有这些视频的知识产权。据悉，该数据集的样本计划分 3 次对外公开：第一批数据集在 1000 个视频左右，已在本次比赛中使用；比赛结束后，即将公开的约有 2000 条视频；剩余的 7000 个视频将在后续公开。

本数据集包括超分和增强视频数据、评测程序和数据说明三个部分。数据每个样本由低分辨率视频和高分辨率视频组成的视频对构成。低分辨率视频为算法的输入，高分辨率视频为增强和超分后的真值。每个视频的时间长度为 5 秒左右。绝大部分高清数据的分辨率是 1080P，大约 300M。由于是 4 倍超分辨率，低质视频分辨率为 270P，大约 19M。少量高清数据的分辨率是 2048×1152，低质视频分辨率为 512×288。视频数据为无压缩的 y4m 格式。

本次赛事上第一批公开的 1000 个视频，总共数据量就已超过 300GB。

示例样本截图，左边为高清视频截帧，右边为低质视频截帧。

评测程序代码示例也已包含在数据集中。

在本次比赛中，选手们也发现了在实际业务场景中，PSNR 和 VMAF 指标并不能真实反应人眼对于视频质量的感知。PSNR 的少量提升也许意味着人眼对其并无体感差别。这也是当下视频处理行业普遍遇到的问题。

目前，优酷正着眼于研发更符合人类视觉特性的质量评价指标。在未来，优酷超分大赛的评价准还会进行新的变革，人眼真实感知将会成为算法评价标准，这对于参赛队伍来讲会更具挑战，但也更有意义。