静默活体检测摄像头在哪里授权?,静默活体检测原理

文章目录 1 静默活体检测技术2 静默活体检测特点：3 相关应用原理3.1 基于PCA和SURF的活体检测3.2 傅里叶频谱图辅助的RGB图像活体检测

1 静默活体检测技术

活体检测技术主要判别机器前出现的人脸是真实的还是伪造的，其中借助其他媒介呈现的人脸都可以定义为虚假的人脸，包括打印的照片、显示屏幕视频、硅胶面具、立体的3D人像等。目前主流的活体检测方案为配合式活体检测和非配合式活体检测（静默活体检测）等。配合式活体检测需要用户根据提示完成指定的动作，然后进行活体校验，静默活体检测与动态活体检测相反，主要在没有眨眼、张嘴等一系列的动作配合下判断到底是不是一个真活体，不仅在技术上实现难度更高，在实际应用中对准确性要求也更高，简言之，静默活体检测则在用户无感的情况下直接进行活体校验，具有更好的用户体验。

非配合式活体根据成像源的不同一般分为红外图像、3D 结构光和 RGB 图像三种技术路线：红外图像滤除了特定波段的光线，天生抵御基于屏幕的假脸攻击；3D 结构光引入了深度信息，能够很容易地辨别纸质照片、屏幕等 2D 媒介的假脸攻击；RGB 图片主要通过屏幕拍摄出现的摩尔纹、纸质照片反光等一些细节信息进行判别。基于以上分析不难发现，基于 RGB 图片的活体检测与其他两种方法相比，仅能通过图像本身的信息进行判别，在实际的开放场景中面临着更大的挑战性。

2 静默活体检测特点： 1 速度快：无需动作指令配和，能够在更短的时间内出结果。2、自然性好：无论是在有意还是无意的情况喜喜啊，均不影响检测结果，不同于其他识别可以有意识的后天模仿和改变。3、简单方便：识别速度快，操作简单便捷。4、非接触性。 3 相关应用原理 3.1 基于PCA和SURF的活体检测

基于传统特征的世纪晟静默活体检测。

（1）检测系统实现原理：

传统特征有LBP、SIFT、SURF、HOG等，这里我们使用了SURF，计算生成特征描述子，并利用PCA将这些特征描述子投影到主成分，然后利用GMM进行主成分编码，得到一个长度为76800的特征码，最后送入SVM二分类。

（2）基于PCA和SURF的活体检测

基于传统图像处理特征算子的方法在实际应用和测试过程中，或多或少的都会受到光线、角度和距离等不可抗因素的影响，所以我们在算法实际设计过程中做了相关改进，如引入PCA主成分分析，以及加入LBP特征，实现双重特征的重检，以增加算法的鲁棒性能。

3.2 傅里叶频谱图辅助的RGB图像活体检测

傅里叶频谱图在一定程度上能反应真假脸在频域的差异，因此小视科技采用了一种基于傅里叶频谱图辅助监督的静默活体检测方法，模型架构由分类主分支和傅里叶频谱图辅助监督分支构成。
https://www.ctolib.com/minivision-ai-Silent-Face-Anti-Spoofing.html

小视科技团队开源的基于 RGB 图像的活体检测模型，是专门面向工业落地场景，兼容各种复杂场景下的模型。该自研的剪枝轻量级模型，运算量为 0.081G，在麒麟 990 5G 芯片上仅需 9ms。同时基于 PyTorch 训练的模型能够灵活地转化成 ONNX 格式，实现全平台部署。

活体任务的定义

基于 RGB 图像的活体检测是一个分类任务，目标是有效地区分真脸和假脸，但又有别于其他类似于物品分类的任务。其中的关键点在于攻击源分布过于广泛，如图 1 所示：不同的攻击媒介，不同设备的成像质量，不同的输入分辨率都对分类结果有着直接的影响。为了降低这些不确定因素带来的影响，小视科技团队对活体的输入进行了一系列限制：活体的输入限制在特定的分辨率区间；输入图片均为实时流中截取的视频帧。这些操作大大降低了活体模型在实际生产部署上失控的风险，提升了模型的场景鲁棒性。

基于成像介质种类的不同，小视科技团队将样本分为真脸、2D 成像（打印照片，电子屏幕）以及 3D 人脸模具三类，根据上述的准则整理和收集训练数据。活体检测的主要流程如图 2 所示。

开源模型技术路线

小视科技团队采用自研的剪枝轻量级网络作为 backbone 训练模型，使用 Softmax + CrossEntropy Loss 作为训练分类的监督。使用不同尺度的图片作为网络的输入训练数据，增加模型间的互补性，从而进行模型融合。考虑到用于真假脸判别的有效信息不一定完全分布在脸部区域，可能在取景画面的任何地方（如边框，摩尔纹等），小视科技团队在 backbone 中加入了 SE（Squeeze-and-Excitation）的注意力模块，动态适应分散的判别线索。同时小视科技团队也通过实验发现真假脸在频域中存在明显的差异，为此引入傅里叶频谱图作为模型训练的辅助监督，有效提升了模型精度。

自研的轻量级剪枝网络

小视科技团队使用自研的模型剪枝方法，将 MoboileFaceNet 的 flops 从 0.224G 降低到了 0.081G，剪枝的网络结构如图 3 所示。模型观测误检率在十万一对应的真脸通过率，在精度没有明显损失的情况下，模型前向运行的速度提升了 40%。

注意力机制

考虑到用于真假脸判别的有效信息不一定完全分布在脸部区域，也有可能在取景画面的任何地方（如边框，摩尔纹等）。小视科技团队在 backbone 中加入了 SE（Squeeze-and-Excitation）的注意力模块，动态适应分散的判别线索，热力图如图 4 所示。对于假脸，模型更关注于边框信息和屏幕的摩尔纹信息，对于真脸更加关注脸部以及周围的信息。

数据预处理

使用人脸检测器获取图像中的人脸框坐标，按照一定比例 (scale) 对人脸框进行扩边，图 5 展示了部分 patch 的区域，为了保证模型的输入尺寸的一致性，将 patch 区域 resize 到固定尺寸。

傅里叶频谱图

将假脸照片与真脸照片转化生成频域图，对比发现假脸的高频信息分布比较单一，仅沿着水平和垂直方向延伸，而真脸的高频信息从图像的中心向外呈发散状，如图 6 所示。根据以上的实验，小视科技团队发现真脸和假脸的傅里叶频谱存在差异，从而引入了傅里叶频谱对模型训练进行辅助监督。

基于傅里叶频谱图的辅助网络监督

基于对于真脸和假脸在频域的观察分析，小视科技团队提出了基于傅里叶频谱图进行辅助网络监督的训练方法，整理架构图如图 7 所示。网络的主分支采用 Softmax+ CrossEntropy 作为网络的监督，如公式（1）所示。其中， f_j表示输出类别的第 j 个置信度， y_i 表示样本的真实标签，N 为训练样本的个数。

小视科技团队采用在线的方式生成傅里叶频谱图，使用 L2 Loss 作为损失函数。输入图片的尺寸为 3x80x80，从主干网络中提取尺寸为 128x10x10 特征图，经过 FTGenerator 分支生成 1x10x10 的预测频谱图 F_P 。通过傅里叶变换，将输入图片转化成频谱图，再进行归一化，最后 resize 成 1x10x10 尺寸得到 F_G ，使用 L2 Loss 计算两特征图之间差异，如公式（2）所示。

为了控制 L_FT在训练过程中对梯度的贡献作用，分别引入了α和β平衡两个损失函数L_Softmax和L_FT，如公式（3）所示，其中α+β=1。在实验中设置α=β=0.5。

其他模型策略

1 使用大体量网络 ResNet34 蒸馏剪枝网络 MiniFASNetV1 和 MiniFASNetV2，精度得到提升。

2 使用模型融合的机制，针对于不同输入尺度、不同网络结构以及不同迭代次数的模型进行融合，充分挖掘模型间对分类任务的互补性，提升模型精度。

实验结果

测试集建立

小视科技团队基于实际的生产场景建立了 100W 量级的测试集，从移动设备的视频流中实时获取图像。真脸数据包含了强光、暗光、背光、弱光以及阴阳脸等各种复杂场景。基于 2D 的假脸数据使用打印纸、铜版纸、照片纸以及电脑屏幕、平板 Pad 屏幕、手机屏幕，在不同的距离、角度和光线下进行采集。基于 3D 的假脸数据则采用头模、硅胶面具和纸质照片抠洞的人脸面具进行采集。

模型评价指标

小视科技团队采用 ROC 曲线作为模型的观测指标，控制十万一的误检率，保证模型在 97%+ 的通过率。与一般的分类任务不同，团队采用了 ROC 曲线而非分类精度作为度量指标，其原因是：生产落地场景对活体模型的误检控制具有很高的要求。

为了降低活体在应用场景发生误检的概率，小视科技团队控制模型误检率在十万一量级的同时，保证了较高的真脸通过率。团队将活体定义为三分类任务，为了适应 ROC 曲线的评价指标，将真脸以外的类别都定义成假脸，从而解决了使用 ROC 曲线适应多分类的问题。

最终的开源融合模型，包含了两个剪枝网络的单模型，在测试集上的观测指标如表 2 所示。开源模型误检控制在 1e-5 的情况下，真脸通过率能够达到 97.8%。未开源的高精度模型在相同的误检率下，真脸通过率达到 99.5%。

速度指标

开源融合模型在不同芯片上速度指标如表 3 所示，在麒麟 990 5G 上仅需要 19ms。

此方法知识内容参考：https://mp.weixin.qq.com/s/01X6UyoPGwASTDWgC6X6qQ

一分快三技巧 (scale) 对人脸框进行扩边，图 5 展示了部分 patch 的区域，为了保证模型的输入尺寸的一致性，将 patch 区域 resize 到固定尺寸。