首页 > 编程知识 正文

2020年流媒体技术新发展

时间:2023-05-03 10:01:14 阅读:237674 作者:2114

1、一代视频编码标准正式公布

MPEG本年度输出三项标准:

(1) Versatile Video Coding (VVC, H.266);

(2) Essential Video Coding (EVC, MPEG-5 Part 1); 

(3) Low Complexity Enhancement Video Coding (LCEVC, MPEG-5 Part 2)

参考:

【1】https://ottverse.com/vvc-evc-lcevc-mpeg-video-codecs/

 

2、基于深度学习的图像/视频/数据压缩蓬勃发展

深度学习端到端压缩的研究和讨论在学术界和工业界得到充分重视,MPAI社区的建立,JPEGAI工作组的技术征集,CVPR CLIC大赛的火热,SMPTE-VC6的制定都充分说明。

参考:

【1】Moving Picture, Audio and Data Coding by Artificial Intelligence (MPAI):https://mpai.community/

【2】CVPR CLIC workshop: https://www.compression.cc/

【3】VCIP2020: http://renyang-home.github.io/papers/VCIP_Tutorial.pdf

【4】JPEG AI: https://jpeg.org/jpegai/index.html

【5】SMPTE VC6:

https://www.rapidtvnews.com/2020100559155/smpte-vc-6-video-production-codec-standard-published.html

3、视频会议场景下人脸视频编码技术取得突破

英伟达率先发力,Facebook紧跟其后,核心技术在于GAN人脸生成技术的进展,将其应用在视频会议特定领域,也是顺利成章。

参考:

【1】NV方案:Ting-Chun Wang, etc., One-shot free-view neural talking-head synthesis for video conferencing, arXiv:2011.15126,2020

【2】FB 方案:Maxime Oquab et., Low bandwidth video-chat compression using deep generative models, arXiv:2012.00328, 2020.

4、视频流媒体传输协议/规范的发布及应用

流媒体直播进入低延迟时代,端到端延迟下降到小秒级(~3s),互联网上广泛使用的还是HLS和DASH,这两大阵营今年都对技术规范做了更新和发布:DASH IF: Guidelines on Low Latency, 2020/3/27,Apple: Protocol Extension for Low-Latency HLS., 2020/05/04。

此外,DVB推出的DVB-I和Multicast ABR 给OTT服务发现和互联网IP多播定义了新的技术规范;SRT联盟继续扩大,SRT协议在上行侧广泛部署,与之竞争的是VSF联盟的RIST协议,也给了开源参考实现,大有赶超势头。IETF QUIC和HTTP/3继续演进,在Chrome和Facebook得到广泛部署, 目前全球4.1%的网站开始支持HTTP/3.

参考:

【1】

https://developer.apple.com/documentation/http_live_streaming/enabling_low-latency_hls

【2】https://dash-industry-forum.github.io/docs/CR-Low-Latency-Live-r8.pdf

【3】https://dvb.org/news/etsi-publishes-dvb-dash-with-low-latency-and-hdr-dm/

【4】https://dvb.org/news/dvb-i-and-dvb-mabr-published-as-etsi-standards/

【5】https://www.srtalliance.org/

【6】https://www.rist.tv/

【7】https://tools.ietf.org/html/draft-ietf-quic-http-33

【8】https://w3techs.com/technologies/details/ce-http3

【9】https://engineering.fb.com/2020/10/21/networking-traffic/how-facebook-is-bringing-quic-to-billions/

【10】https://blog.chromium.org/2020/10/chrome-is-deploying-http3-and-ietf-quic.html

5、视频流媒体核心技术ABR算法研究平台及新Benchmark

Puffer是斯坦福大学的一项开源研究项目。NSDI20会议发表基于机器学习的新ABR算法Fugu,获得community reward paper,提供开源平台供研究人员进行拥塞控制及ABR算法测试。Puffer考虑应用层ABR和传输层TCP拥塞控制的联合优化,将之前较为独立的两个研究领域结合起来,具有非常好研究前景。

参考:

【1】项目:https://github.com/StanfordSNR/puffer

【2】论文:https://www.usenix.org/conference/nsdi20/presentation/yan

6、低延迟视频互动直播架构演进到1s~500ms

1秒及以下的大规模视频互动直播架构,WebRTC方案是不二选择。中国两大互联网巨头腾讯云和阿里云均选择对标准WebRTC进行改造和升级,满足直播场景需求。腾讯推出快直播解决方案;阿里推出GTNR(global realtime transport network)方案,且集成基于强化学习新型拥塞控制算法OnRL (发表于MobiCom)。

参考:

【1】https://blog.csdn.net/vn9plgzvnps1522s82g/article/details/109348627

【2】https://blog.csdn.net/Taobaojishu/article/details/111189128

【3】OnRL:https://dl.acm.org/doi/abs/10.1145/3372224.3419186

7、视频流媒体QoE评价规范更新及应用

VMAF作为Netflix开发的新兴视频质量评估工具,已被广泛用于动态影像内容的质量评估以及编码优化当中。目前VMAF已推出HDTV、Phone、4K三种使用模式,满足不同播放场景下的画质评测需求,近期还将扩充针对HDR的VMAF模型。

此外,ITU-T今年也推出了新一代流媒体无参考视频质量评估模型P.1204,适用于H.264、H.265和VP9编码的UHD/4K、60fps、10bit视频序列,该模型可以部署在分发系统中的任何位置,性能可以与全参考模型媲美。

参考

【1】VMAF: https://github.com/Netflix/vmaf

【2】P.1204: Video quality assessment of streaming services over reliable transport for resolutions up to 4K , https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204

【3】P.1204.3: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full bitstream information   https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.3

【4】P.1204.4: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full and reduced reference pixel information  https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.4

【5】P.1204.5: Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to transport and received pixel information  https://www.itu.int/rec/T-REC-P/recommendation.asp?lang=en&parent=T-REC-P.1204.5

8.基于深度学习的图像视频的恢复、增强技术稳步前进

超分方面,代表性的是AIM-2020 efficient SR 的冠军 RFDN;超帧方面,代表性的是实时性很好的RIFE;增强方面,代表是香港理工的Adaptive 3DLUT;上色方面,代表性的是微软的DLST。

将Transformer扩展应用到low-level问题上,也有不错的进展。北大的预训练IPT占领多个图像恢复任务的榜首;东南的ConvTransformer率先用于视频帧合成。

低层任务方面,时间域的光流估计是基础性技术,ECCV的Best paper, RAFT值得关注。

参考:

【1】https://github.com/hzwer/arXiv2020-RIFE

【2】https://rife-vfi.github.io/

【3】https://github.com/HuiZeng/Image-Adaptive-3DLUT

【4】https://github.com/microsoft/Bringing-Old-Photos-Back-to-Life

【5】Pre-Trained IPT,https://arxiv.org/abs/2012.00364

【6】ConvTransformer, https://arxiv.org/abs/2011.10185

【7】https://github.com/princeton-vl/RAFT

 

9.GAN大法继续演化,可生成更逼真的图像/视频

英伟达的新版StyleGAN,解决之前生成图像中经常存在伪影的问题,生成非常逼真的图像,此外图像部分属性(style)实现解耦的能力催生了大量利用其进行图像编辑的工作,例如非常火爆的图像创作工具 artbreeder (https://www.artbreeder.com)

香港科大的InterFaceGAN,提出潜在空间结构GAN生成空间的方法,可泛化迁移到所有GAN生成的各种人脸样本空间,包括属性编辑、风格转换等。

上海科大的Impersonator++,设计了人体合成框架,结合3D mesh重建和GAN,可以同时实现动作迁移、新视角合成以及外观转换。

与此相关的是生成图像的检测和安全问题。这方面,微软的Face X-ray技术,提出通用的检测不同模型生成的合成图的方法,核心是去学习换脸的边界,方法泛化性能优良;芝加哥大学的Fawkes技术,可为私人照片提供人眼不可见的像素级保护,避免用户被未知第三方人脸识别模型检测并追踪。

参考:

【1】https://github.com/NVlabs/stylegan2

【2】https://github.com/genforce/interfacegan

【3】https://github.com/iPERDance/iPERCore

【4】Face X-ray,https://arxiv.org/pdf/1912.13458.pdf

【5】Fawkes,https://www.shawnshan.com/files/publication/fawkes.pdf

 

10.神经渲染大法成为新的研究热点

代表性的工作是 ECCV'20 的NeRF ,获得Best Paper Mention, 发表9个月来已经被收藏2.8k次,基于NeRF也出现了NeRF++,NeRF-W等改进,已经成为新的baseline. NeRF网络特点轻量,主要方法是基于辐射场的体素渲染(Volume Rendering with Radiance Fields)。输入3D物体的一系列稀疏帧和对应的相机参数,NeRF能得到该物体其他角度的图像,相比于之前的方法,虚拟视角的细节有较大改善,PSNR等定量指标也有较大提高。

参考:

【1】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

【2】https://github.com/bmild/nerf

 

 

 

 

 

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。