首页 > 编程知识 正文

离散数学及其应用第二版,地理数学方法及其应用

时间:2023-05-03 10:24:50 阅读:212908 作者:3561

1 信息指纹

    任何一段信息(包括文字、语音、视频、图片等),都可以对应一个不太长的随机数,作为区别这段信息和其他信息的指纹。

    信息指纹在加密、信息压缩和处理中有着广泛的应用。

    网络爬虫在下载网页时,会讲访问过的网页地址都变成一个个信息指纹,存到散列表中,每当遇到一个新网址,计算机就计算其指纹,然后查找该指纹是否已经在散列表中。

    网址(字符串)的信息指纹计算一般分为两步。首先,将这个字符串看成时一个特殊的、很长的整数。接下来就需要用到一个产生信息指纹的关键算法:伪随机数产生器算法,通过它将任意很长的整数转化成特定长度的伪随机数。

2 信息指纹的用途    2.1 集合相同的判定

        在网页搜索中,有时需要判断两个查询用词是否完全相同(但是次序可能不同)

        最直接的本方法是对这个集合中的元素一一比较。时间复杂度是O(N**2)

        稍微好一点的方法是将两个集合的元素分别排序,然后顺序比较,时间复杂度为O(NlogN)

        最完美的办法是计算两个集合的指纹,然后直接进行比较。如果两个集合元素相同,那么它们的指纹一定相同。

    2.2 判定集合基本相同

        判断两个网页是否是重复的。只需对每个网页挑出几个词,这些词构成网页的特征词集合。然后计算和比较这些特征集合的信息指纹即可。

    2.3 YouTube的反盗版

        从上百万视频中找出一个视频是否为另一个视频的盗版,并非容易的事。

        视频的匹配由两个核心技术,关键帧的提取和特征的提取。每一秒或若干秒才有一帧是完整的图像,这些帧为关键帧。其余帧存储的只是和关键帧相比的差异值。关键帧对于视频的重要性,就如同主题词对于新闻的重要性一样。因此,处理视频图像首先是找到关键帧,接下来就是要用一组信息指纹来表示这些关键帧了。

3 信息指纹的重复性和相似孤独的台灯    3.1 信息指纹重复的可能性

        不同信息产生相同指纹的可能性几乎为零。

    3.2 相似孤独的台灯(Simhash)

        第一步为扩展,就是将8位二进制的指纹扩展成8个实数。

        第二步为收缩,把八个实数变回成一个8位的二进制数。

        相似孤独的台灯的特点是,如果两个网页的相似孤独的台灯相差越小,这两个网页的相似性就越高。如果两个网页相同,它们的相似孤独的台灯必定相同。

      




版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。