首页 > 编程知识 正文

微视频制作与传播论文1200字(视频剪辑论文3000字)

时间:2023-05-06 08:58:31 阅读:74906 作者:4877

持续更新

视频供应商- resolutionviadeepdraft-ensemble learning论文链接: http://open access.the CVF.com/content _ iccv _ 2015/papers Liao _ video _ super-resolution _ via _ iccv _ 2015 _ paper.pdf代码: http://www.CSE.cuhk.edu.hk/Leo Jia/prop

步骤2 (通过前一步骤重建(TV-L1(20个(alpha) )和MDP (motiondetailpreserving ) )两种光流方法生成HR候选水平z,并将这些候选通道进行加权最后一个通道是参考lr帧通过二进制获得的二进制,第二步骤是使用CNN将所有候选HR进行融合以获得重构的HR图像帧; 上采样,上采样方法为二进制; 如果视频帧是RGB多声道,则每个通道将单独进行训练和测试; loss:l=l1lostvl OSL=l _1losslambdatvlossl=L1 lossTV loss; 贡献: CNN集成hrcandidatesdeepsr-ITM : jointlearningofsuper-resolutionandinversetone-mapping for4kuhdhdrapplications论文连接: 33333 1904.11176.pdf代码: https://github.com/sooye Kim/deep-Sr-ITM (MATLAB ) CVPR 2019 oral网络结构:

初始图像被分解为base layer I b I_b Ib和detail layer I d I_d Id,在原始图像和通道上被concat,成为上下2分支的输入

I b i n=[ I I b ],a n d I d

i n = [ I I d ] I_{b}^{in}=[I I_b], and I_{d}^{in}=[I I_d] Ibin​=[IIb​],andIdin​=[IId​] Residual blocks. 文中设计了4中不同的残差模块: ResBlock,ResModBlock,ResSkipBlock and ResSkipModBlock。Resblock 采用Pre-activation,为标准的残差模块。 Deep SR-IRM 通过逐元素相乘,引入空间可变和图像自适应的调制。我的理解,网络的第二个分支相当于生成一个空间通道的注意力,然后对第一个分支的结果进行相乘。 LEARNING TEMPORAL COHERENCE VIA SELFSUPERVISION FOR GAN-BASED VIDEO GENERATION 论文连接:https://arxiv.org/abs/1811.09393v3代码:https://github.com/thunil/TecoGAN2018 (此部分参考https://zhuanlan.zhihu.com/p/62610640)网络结构:

整体VSR包含三个组件:循环生成器、流估计网络和时空判别器;循环生成器G:基于低分辨率输入循环地生成高分辨率视频帧;流估计网络 F :学习帧与帧之间的动态补偿,帮助生成器和时空判别器 D s , t D_{s,t} Ds,t​;训练时,G和F一起训练;时空判别器 D s , t D_{s,t} Ds,t​是本文的重要贡献,既考虑空间因素又考虑时间因素,对时间不连贯的结果进行惩罚:

x x x为LR图像帧, g g g为生成图像帧, y y y为真实的HR帧;图像帧输入前进行通道concat;本文的另一创新点为提出Ping-热情的小熊猫(PP)损失函数,可以成功移除漂移伪影,同时保留适当的高频细节,改进了时间的连贯度。该研究使用具备ping-lqdej ordering 的扩展序列来训练网络,如图 5 所示。即最终附加了逆转版本,该版本将两个「leg」的生成输出保持一致。PP 损失的公式如下所示:


7.损失函数如下表,其中 g g g为生成图像帧, b b b为ground truth, ϕ phi ϕ为采用VGG19或 D s , t D_{s,t} Ds,t​提取的特征,表示感知损失(用cosin相似度)。

8.本文另一贡献是提出两个新的metric,衡量时间连续性
Neural Supersampling for Real-time Rendering 论文:https://research.fb.com/wp-content/uploads/2020/06/Neural-Supersampling-for-Real-time-Rendering.pdf代码:未公开发表时间:2020 SIGGRAPH网络结构:
渲染的LR视频具有颜色、深度和运动向量;本网络结构包含四个模块:特征提取(Feature Extaction)、时间重映射(Temporal Reprojection)、特征重新加权(Feature Reweighting)、重建(重建);特征提取模块(如上图中的绿色模块):1)3层卷积;2)输入为:颜色和深度图;3)除了当前帧,其他帧参数共享;4)输出为8通道特征,与原始4通道堆叠变成12通道特征;时间重映射(如上图中的橙色模块):对特征在warp前zero上采样,对运动向量采用双线性插值上采样,运动向量记录的是当前帧到前一帧的运动,因此,相隔较多的帧采用迭代warp,如frame-2先warp到frame-1再warp到当前帧;特征重映射:因为运动矢量不能记录帧间的动态遮挡(如前一帧遮挡了,但当前帧未遮挡)及阴影变化,因此warp的帧会产生伪影,因此采用该模块解决;1)输入:当前帧和前边所有帧concat;2)3层卷积;3)为每个帧的每个像素生成一个0到10之间的权重,其中10是超参数;4)将输入的每帧与对应的权重图相乘;重建:U-Net网络,如上图中的蓝色模块;loss: l o s s ( X , X ^ ) = 1 − S S I M ( X , X ^ ) + w ⋅ ∑ i = 1 5 ∣ ∣ c o n v i ( X ) − c o n v i ( X ^ ) ∣ ∣ 2 2 loss(X,hat{X})=1-SSIM(X,hat{X})+wcdotsum_{i=1}^{5}||conv_i(X)-conv_i(hat{X})||_2^2 loss(X,X^)=1−SSIM(X,X^)+w⋅∑i=15​∣∣convi​(X)−convi​(X^)∣∣22​,其中 w = 0.1 w=0.1 w=0.1运行时间:在Titan V上可以实时;贡献点:提出神经超采样网络用于渲染的低分视频,能够实时地重建高分视频(主要用于3D动画);

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。