python人脸比对余弦,python 人脸对比

本文目录一览：

1、python 怎么调用余弦相似度函数
2、谁用过python中的第三方库face recognition
3、余弦相似度python实现
4、余弦相似度
5、python 使用余弦相似度计算之后如何设置一个阈值呢

python 怎么调用余弦相似度函数

比如你在a.py的文件中定义了一个test(x,y)函数，在shell中调用的时候from a import testtest(x,y)

谁用过python中的第三方库face recognition

简介

该库可以通过python或者命令行即可实现人脸识别的功能。使用dlib深度学习人脸识别技术构建，在户外脸部检测数据库基准（Labeled Faces in the Wild）上的准确率为99.38%。

在github上有相关的链接和API文档。

在下方为提供的一些相关源码或是文档。当前库的版本是v0.2.0，点击docs可以查看API文档，我们可以查看一些函数相关的说明等。

安装配置

安装配置很简单，按照github上的说明一步一步来就可以了。

根据你的python版本输入指令：

pip install face_recognition11

或者

pip3 install face_recognition11

正常来说，安装过程中会出错，会在安装dlib时出错，可能报错也可能会卡在那不动。因为pip在编译dlib时会出错，所以我们需要手动编译dlib再进行安装。

按照它给出的解决办法：

1、先下载下来dlib的源码。

git clone

2、编译dlib。

cd dlib

mkdir build

cd build

cmake .. -DDLIB_USE_CUDA=0 -DUSE_AVX_INSTRUCTIONS=1

cmake --build1234512345

3、编译并安装python的拓展包。

cd ..

python3 setup.py install --yes USE_AVX_INSTRUCTIONS --no DLIB_USE_CUDA1212

注意：这个安装步骤是默认认为没有GPU的，所以不支持cuda。

在自己手动编译了dlib后，我们可以在python中import dlib了。

之后再重新安装，就可以配置成功了。

根据你的python版本输入指令：

pip install face_recognition11

或者

pip3 install face_recognition11

安装成功之后，我们可以在python中正常import face_recognition了。

编写人脸识别程序

编写py文件：

# -*- coding: utf-8 -*-

# 检测人脸

import face_recognition

import cv2

# 读取图片并识别人脸

img = face_recognition.load_image_file("silicon_valley.jpg")

face_locations = face_recognition.face_locations(img)

print face_locations

# 调用opencv函数显示图片

img = cv2.imread("silicon_valley.jpg")

cv2.namedWindow("原图")

cv2.imshow("原图", img)

# 遍历每个人脸，并标注

faceNum = len(face_locations)

for i in range(0, faceNum):

top = face_locations[i][0]

right = face_locations[i][1]

bottom = face_locations[i][2]

left = face_locations[i][3]

start = (left, top)

end = (right, bottom)

color = (55,255,155)

thickness = 3

cv2.rectangle(img, start, end, color, thickness)

# 显示识别结果

cv2.namedWindow("识别")

cv2.imshow("识别", img)

cv2.waitKey(0)

cv2.destroyAllWindows()12345678910111213141516171819202122232425262728293031323334353637381234567891011121314151617181920212223242526272829303132333435363738

注意：这里使用了python-OpenCV，一定要配置好了opencv才能运行成功。

运行结果：

程序会读取当前目录下指定的图片，然后识别其中的人脸，并标注每个人脸。

（使用图片来自美剧硅谷）

编写人脸比对程序

首先，我在目录下放了几张图片：

这里用到的是一张乔布斯的照片和一张奥巴马的照片，和一张未知的照片。

编写程序：

# 识别图片中的人脸

import face_recognition

jobs_image = face_recognition.load_image_file("jobs.jpg");

obama_image = face_recognition.load_image_file("obama.jpg");

unknown_image = face_recognition.load_image_file("unknown.jpg");

jobs_encoding = face_recognition.face_encodings(jobs_image)[0]

obama_encoding = face_recognition.face_encodings(obama_image)[0]

unknown_encoding = face_recognition.face_encodings(unknown_image)[0]

results = face_recognition.compare_faces([jobs_encoding, obama_encoding], unknown_encoding )

labels = ['jobs', 'obama']

print('results:'+str(results))

for i in range(0, len(results)):

if results[i] == True:

print('The person is:'+labels[i])123456789101112131415161718123456789101112131415161718

运行结果：

识别出未知的那张照片是乔布斯的。

摄像头实时识别

代码：

# -*- coding: utf-8 -*-

import face_recognition

import cv2

video_capture = cv2.VideoCapture(1)

obama_img = face_recognition.load_image_file("obama.jpg")

obama_face_encoding = face_recognition.face_encodings(obama_img)[0]

face_locations = []

face_encodings = []

face_names = []

process_this_frame = True

while True:

ret, frame = video_capture.read()

small_frame = cv2.resize(frame, (0, 0), fx=0.25, fy=0.25)

if process_this_frame:

face_locations = face_recognition.face_locations(small_frame)

face_encodings = face_recognition.face_encodings(small_frame, face_locations)

face_names = []

for face_encoding in face_encodings:

match = face_recognition.compare_faces([obama_face_encoding], face_encoding)

if match[0]:

name = "Barack"

else:

name = "unknown"

face_names.append(name)

process_this_frame = not process_this_frame

for (top, right, bottom, left), name in zip(face_locations, face_names):

top *= 4

right *= 4

bottom *= 4

left *= 4

cv2.rectangle(frame, (left, top), (right, bottom), (0, 0, 255), 2)

cv2.rectangle(frame, (left, bottom - 35), (right, bottom), (0, 0, 255), 2)

font = cv2.FONT_HERSHEY_DUPLEX

cv2.putText(frame, name, (left+6, bottom-6), font, 1.0, (255, 255, 255), 1)

cv2.imshow('Video', frame)

if cv2.waitKey(1) 0xFF == ord('q'):

break

video_capture.release()

cv2.destroyAllWindows()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545512345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455

识别结果：

我直接在手机上百度了几张图试试，程序识别出了奥巴马。

这个库很cool啊！

余弦相似度python实现

通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

余弦相似度是文本相似度度量中使用较多的一种方法，对于两个向量X和Y，其对应的形式如下：

X=（x1,x2...,xn）

Y=（y1,y2...,yn）

其向量的余弦相似度公式为：

X,Y对应其中的A和B

python实现：

输出结果：0.5000000000000001

结果越接近1，夹角就越接近0，代表越相似。

越趋近于-1，他们的方向越相反；接近于0，表示两个向量近乎于正交

余弦相似度

简介：余弦相似度，即两物体之间的cos$值，值越大，表示两物体的相似度越大。

1、向量空间余弦相似度：即向量空间中两夹角的余弦值。其值在0-1之间，两向量越接近，其夹角越小，余弦值越接近于1。

2、n维空间的余弦公式：

3、python中的工具：

numpy中提供了范数的计算工具： linalg.norm()，假定X、Y均为列向量，

则： num = float(X.T * Y)#若为行向量则 X * Y.T

denom = linalg.norm(X) * linalg.norm(Y)

cos = num / denom#余弦值

sim =0.5+0.5* cos#归一化

dist = linalg.norm(X - Y)

sim =1.0/ (1.0+ dist)#归一化

4、例子：

＊＊＊文本相似度＊＊＊＊

sim =1.0/ (1.0+ dist)#归一化

句子A：这只皮靴号码大了。那只号码合适

句子B：这只皮靴号码不小，那只更合适

怎样计算上面两句话的相似程度？

基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

第一步，分词。

句子A：这只/皮靴/号码/大了。那只/号码/合适。

句子B：这只/皮靴/号码/不/小，那只/更/合适。

第二步，列出所有的词。

这只，皮靴，号码，大了。那只，合适，不，小，很

第三步，计算词频。

句子A：这只1，皮靴1，号码2，大了1。那只1，合适1，不0，小0，更0

句子B：这只1，皮靴1，号码1，大了0。那只1，合适1，不1，小1，更1

第四步，写出词频向量。

句子A：(1，1，2，1，1，1，0，0，0)

句子B：(1，1，1，0，1，1，1，1，1)

到这里，问题就变成了如何计算这两个向量的相似程度。我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, ...]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合,这是表示两个向量代表的文本完全相等；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

使用上面的公式(4)

计算两个句子向量

句子A：(1，1，2，1，1，1，0，0，0)

和句子B：(1，1，1，0，1，1，1，1，1)的向量余弦值来确定两个句子的相似度。

计算过程如下：

计算结果中夹角的余弦值为0.81非常接近于1，所以，上面的句子A和句子B是基本相似的

由此，我们就得到了文本相似度计算的处理流程是:

（1）找出两篇文章的关键词；

（2）每篇文章各取出若干个关键词，合并成一个集合，计算每篇文章对于这个集合中的词的词频

（3）生成两篇文章各自的词频向量；

（4）计算两个向量的余弦相似度，值越大就表示越相似。

python 使用余弦相似度计算之后如何设置一个阈值呢

找一个验证集合，遍历可能的阈值，计算评价指标，确定最佳阈值