微视频制作与传播论文1200字(视频剪辑论文3000字)

持续更新

视频供应商- resolutionviadeepdraft-ensemble learning论文链接： http://open access.the CVF.com/content _ iccv _ 2015/papers Liao _ video _ super-resolution _ via _ iccv _ 2015 _ paper.pdf代码： http://www.CSE.cuhk.edu.hk/Leo Jia/prop

步骤2 (通过前一步骤重建(TV-L1(20个(alpha) )和MDP (motiondetailpreserving ) )两种光流方法生成HR候选水平z，并将这些候选通道进行加权最后一个通道是参考lr帧通过二进制获得的二进制，第二步骤是使用CNN将所有候选HR进行融合以获得重构的HR图像帧；上采样，上采样方法为二进制；如果视频帧是RGB多声道，则每个通道将单独进行训练和测试； loss:l=l1lostvl OSL=l _1losslambdatvlossl=L1 lossTV loss；贡献： CNN集成hrcandidatesdeepsr-ITM : jointlearningofsuper-resolutionandinversetone-mapping for4kuhdhdrapplications论文连接： 33333 1904.11176.pdf代码： https://github.com/sooye Kim/deep-Sr-ITM (MATLAB ) CVPR 2019 oral网络结构：

初始图像被分解为base layer I b I_b Ib和detail layer I d I_d Id，在原始图像和通道上被concat，成为上下2分支的输入

I b i n=[ I I b ]，a n d I d

i n = [ I I d ] I_{b}^{in}=[I I_b], and I_{d}^{in}=[I I_d] Ibin=[IIb],andIdin=[IId] Residual blocks. 文中设计了4中不同的残差模块: ResBlock，ResModBlock，ResSkipBlock and ResSkipModBlock。Resblock 采用Pre-activation，为标准的残差模块。 Deep SR-IRM 通过逐元素相乘，引入空间可变和图像自适应的调制。我的理解，网络的第二个分支相当于生成一个空间通道的注意力，然后对第一个分支的结果进行相乘。 LEARNING TEMPORAL COHERENCE VIA SELFSUPERVISION FOR GAN-BASED VIDEO GENERATION 论文连接：https://arxiv.org/abs/1811.09393v3代码：https://github.com/thunil/TecoGAN2018 （此部分参考https://zhuanlan.zhihu.com/p/62610640）网络结构：

整体VSR包含三个组件：循环生成器、流估计网络和时空判别器;循环生成器G：基于低分辨率输入循环地生成高分辨率视频帧;流估计网络 F ：学习帧与帧之间的动态补偿，帮助生成器和时空判别器 D s , t D_{s,t} Ds,t;训练时，G和F一起训练；时空判别器 D s , t D_{s,t} Ds,t是本文的重要贡献，既考虑空间因素又考虑时间因素，对时间不连贯的结果进行惩罚：

x x x为LR图像帧， g g g为生成图像帧， y y y为真实的HR帧；图像帧输入前进行通道concat;本文的另一创新点为提出Ping-热情的小熊猫(PP)损失函数，可以成功移除漂移伪影，同时保留适当的高频细节，改进了时间的连贯度。该研究使用具备ping-lqdej ordering 的扩展序列来训练网络，如图 5 所示。即最终附加了逆转版本，该版本将两个「leg」的生成输出保持一致。PP 损失的公式如下所示：

7.损失函数如下表，其中 g g g为生成图像帧， b b b为ground truth， ϕ phi ϕ为采用VGG19或 D s , t D_{s,t} Ds,t提取的特征，表示感知损失（用cosin相似度）。

8.本文另一贡献是提出两个新的metric，衡量时间连续性
Neural Supersampling for Real-time Rendering 论文：https://research.fb.com/wp-content/uploads/2020/06/Neural-Supersampling-for-Real-time-Rendering.pdf代码：未公开发表时间：2020 SIGGRAPH网络结构：
渲染的LR视频具有颜色、深度和运动向量；本网络结构包含四个模块：特征提取(Feature Extaction)、时间重映射(Temporal Reprojection)、特征重新加权(Feature Reweighting)、重建(重建)；特征提取模块（如上图中的绿色模块）：1）3层卷积；2）输入为：颜色和深度图；3）除了当前帧，其他帧参数共享；4）输出为8通道特征，与原始4通道堆叠变成12通道特征；时间重映射（如上图中的橙色模块）：对特征在warp前zero上采样，对运动向量采用双线性插值上采样，运动向量记录的是当前帧到前一帧的运动，因此，相隔较多的帧采用迭代warp，如frame-2先warp到frame-1再warp到当前帧；特征重映射：因为运动矢量不能记录帧间的动态遮挡（如前一帧遮挡了，但当前帧未遮挡）及阴影变化，因此warp的帧会产生伪影，因此采用该模块解决；1）输入：当前帧和前边所有帧concat；2）3层卷积；3）为每个帧的每个像素生成一个0到10之间的权重，其中10是超参数；4）将输入的每帧与对应的权重图相乘；重建：U-Net网络，如上图中的蓝色模块；loss： l o s s ( X ， X ^ ) = 1 − S S I M ( X , X ^ ) + w ⋅ ∑ i = 1 5 ∣ ∣ c o n v i ( X ) − c o n v i ( X ^ ) ∣ ∣ 2 2 loss(X，hat{X})=1-SSIM(X,hat{X})+wcdotsum_{i=1}^{5}||conv_i(X)-conv_i(hat{X})||_2^2 loss(X，X^)=1−SSIM(X,X^)+w⋅∑i=15∣∣convi(X)−convi(X^)∣∣22，其中 w = 0.1 w=0.1 w=0.1运行时间：在Titan V上可以实时；贡献点：提出神经超采样网络用于渲染的低分视频，能够实时地重建高分视频（主要用于3D动画）；