2020年流媒体技术新发展

1、新一代视频编码标准正式公布

MPEG本年度输出三项标准：

(1) Versatile Video Coding (VVC, H.266)；

(2) Essential Video Coding (EVC, MPEG-5 Part 1)；

(3) Low Complexity Enhancement Video Coding (LCEVC, MPEG-5 Part 2)

参考：

【1】https://ottverse.com/vvc-evc-lcevc-mpeg-video-codecs/

2、基于深度学习的图像/视频/数据压缩蓬勃发展

深度学习端到端压缩的研究和讨论在学术界和工业界得到充分重视，MPAI社区的建立，JPEGAI工作组的技术征集，CVPR CLIC大赛的火热，SMPTE-VC6的制定都充分说明。

参考：

【1】Moving Picture, Audio and Data Coding by Artificial Intelligence (MPAI)：https://mpai.community/

【2】CVPR CLIC workshop: https://www.compression.cc/

【3】VCIP2020: http://renyang-home.github.io/papers/VCIP_Tutorial.pdf

【4】JPEG AI: https://jpeg.org/jpegai/index.html

【5】SMPTE VC6:

https://www.rapidtvnews.com/2020100559155/smpte-vc-6-video-production-codec-standard-published.html

3、视频会议场景下人脸视频编码技术取得突破

英伟达率先发力，Facebook紧跟其后，核心技术在于GAN人脸生成技术的进展，将其应用在视频会议特定领域，也是顺利成章。

参考：

【1】NV方案：Ting-Chun Wang, etc., One-shot free-view neural talking-head synthesis for video conferencing, arXiv:2011.15126,2020

【2】FB 方案：Maxime Oquab et., Low bandwidth video-chat compression using deep generative models, arXiv:2012.00328, 2020.

4、视频流媒体传输协议/规范的发布及应用

流媒体直播进入低延迟时代，端到端延迟下降到小秒级(~3s)，互联网上广泛使用的还是HLS和DASH，这两大阵营今年都对技术规范做了更新和发布：DASH IF: Guidelines on Low Latency, 2020/3/27，Apple: Protocol Extension for Low-Latency HLS., 2020/05/04。

此外，DVB推出的DVB-I和Multicast ABR 给OTT服务发现和互联网IP多播定义了新的技术规范；SRT联盟继续扩大，SRT协议在上行侧广泛部署，与之竞争的是VSF联盟的RIST协议，也给了开源参考实现，大有赶超势头。IETF QUIC和HTTP/3继续演进，在Chrome和Facebook得到广泛部署, 目前全球4.1%的网站开始支持HTTP/3.

参考：

【1】

https://developer.apple.com/documentation/http_live_streaming/enabling_low-latency_hls

【2】https://dash-industry-forum.github.io/docs/CR-Low-Latency-Live-r8.pdf

【3】https://dvb.org/news/etsi-publishes-dvb-dash-with-low-latency-and-hdr-dm/

【4】https://dvb.org/news/dvb-i-and-dvb-mabr-published-as-etsi-standards/

【5】https://www.srtalliance.org/

【6】https://www.rist.tv/

【7】https://tools.ietf.org/html/draft-ietf-quic-http-33

【8】https://w3techs.com/technologies/details/ce-http3

【9】https://engineering.fb.com/2020/10/21/networking-traffic/how-facebook-is-bringing-quic-to-billions/

【10】https://blog.chromium.org/2020/10/chrome-is-deploying-http3-and-ietf-quic.html

5、视频流媒体核心技术ABR算法研究平台及新Benchmark

Puffer是斯坦福大学的一项开源研究项目。NSDI20会议发表基于机器学习的新ABR算法Fugu，获得community reward paper，提供开源平台供研究人员进行拥塞控制及ABR算法测试。Puffer考虑应用层ABR和传输层TCP拥塞控制的联合优化，将之前较为独立的两个研究领域结合起来，具有非常好研究前景。

参考：

【1】项目：https://github.com/StanfordSNR/puffer

【2】论文：https://www.usenix.org/conference/nsdi20/presentation/yan

6、低延迟视频互动直播架构演进到1s~500ms

1秒及以下的大规模视频互动直播架构，WebRTC方案是不二选择。中国两大互联网巨头腾讯云和阿里云均选择对标准WebRTC进行改造和升级，满足直播场景需求。腾讯推出快直播解决方案；阿里推出GTNR(global realtime transport network)方案，且集成基于强化学习新型拥塞控制算法OnRL (发表于MobiCom)。

参考：

【1】https://blog.csdn.net/vn9plgzvnps1522s82g/article/details/109348627

【2】https://blog.csdn.net/Taobaojishu/article/details/111189128

【3】OnRL：https://dl.acm.org/doi/abs/10.1145/3372224.3419186

7、视频流媒体QoE评价规范更新及应用

VMAF作为Netflix开发的新兴视频质量评估工具，已被广泛用于动态影像内容的质量评估以及编码优化当中。目前VMAF已推出HDTV、Phone、4K三种使用模式，满足不同播放场景下的画质评测需求，近期还将扩充针对HDR的VMAF模型。

此外，ITU-T今年也推出了新一代流媒体无参考视频质量评估模型P.1204，适用于H.264、H.265和VP9编码的UHD/4K、60fps、10bit视频序列，该模型可以部署在分发系统中的任何位置，性能可以与全参考模型媲美。

参考

【1】VMAF: https://github.com/Netflix/vmaf

【2】P.1204: Video quality assessment of streaming services over reliable transport for resolutions up to 4K , https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204

【3】P.1204.3: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full bitstream information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.3

【4】P.1204.4: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full and reduced reference pixel information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.4

【5】P.1204.5: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to transport and received pixel information https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.5

8.基于深度学习的图像视频的恢复、增强技术稳步前进

超分方面，代表性的是AIM-2020 efficient SR 的冠军 RFDN；超帧方面，代表性的是实时性很好的RIFE；增强方面，代表是香港理工的Adaptive 3DLUT；上色方面，代表性的是微软的DLST。

将Transformer扩展应用到low-level问题上，也有不错的进展。北大的预训练IPT占领多个图像恢复任务的榜首；东南的ConvTransformer率先用于视频帧合成。

低层任务方面，时间域的光流估计是基础性技术，ECCV的Best paper, RAFT值得关注。

参考：

【1】https://github.com/hzwer/arXiv2020-RIFE

【2】https://rife-vfi.github.io/

【3】https://github.com/HuiZeng/Image-Adaptive-3DLUT

【4】https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life

【5】Pre-Trained IPT,https://arxiv.org/abs/2012.00364

【6】ConvTransformer, https://arxiv.org/abs/2011.10185

【7】https://github.com/princeton-vl/RAFT

9.GAN大法继续演化，可生成更逼真的图像/视频

英伟达的新版StyleGAN，解决之前生成图像中经常存在伪影的问题，生成非常逼真的图像，此外图像部分属性（style）实现解耦的能力催生了大量利用其进行图像编辑的工作，例如非常火爆的图像创作工具 artbreeder (https://www.artbreeder.com)

香港科大的InterFaceGAN，提出潜在空间结构GAN生成空间的方法，可泛化迁移到所有GAN生成的各种人脸样本空间，包括属性编辑、风格转换等。

上海科大的Impersonator++，设计了人体合成框架，结合3D mesh重建和GAN，可以同时实现动作迁移、新视角合成以及外观转换。

与此相关的是生成图像的检测和安全问题。这方面，微软的Face X-ray技术，提出通用的检测不同模型生成的合成图的方法，核心是去学习换脸的边界，方法泛化性能优良；芝加哥大学的Fawkes技术，可为私人照片提供人眼不可见的像素级保护，避免用户被未知第三方人脸识别模型检测并追踪。

参考：

【1】https://github.com/NVlabs/stylegan2

【2】https://github.com/genforce/interfacegan

【3】https://github.com/iPERDance/iPERCore

【4】Face X-ray，https://arxiv.org/pdf/1912.13458.pdf

【5】Fawkes，https://www.shawnshan.com/files/publication/fawkes.pdf

10.神经渲染大法成为新的研究热点

代表性的工作是 ECCV'20 的NeRF ，获得Best Paper Mention, 发表9个月来已经被收藏2.8k次，基于NeRF也出现了NeRF++,NeRF-W等改进，已经成为新的baseline. NeRF网络特点轻量，主要方法是基于辐射场的体素渲染（Volume Rendering with Radiance Fields）。输入3D物体的一系列稀疏帧和对应的相机参数，NeRF能得到该物体其他角度的图像，相比于之前的方法，虚拟视角的细节有较大改善，PSNR等定量指标也有较大提高。

参考：

【1】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

【2】https://github.com/bmild/nerf