衿
大数据量、海量数据处理方法总结
后设
发行版:
dxy
字体:
[
增加
缩小
]
类型:转载
莆田市
胤
大数据量问题是很多面试笔试中经常出现的问题,比如
百度谷歌
腾讯这几个参与
去拥有大量数据的公司经常被问到。
羀
_
蚇
以下方法概括了大量数据的处理方法,当然这些方法可能不是
完全涵盖所有问题,
但是,一些这样的方法可以处理大多数问题。
下面的
一些问题基本上直接来源于公司面试笔试的主题
方法不一定是最佳的,
如果有更好的应对方法
欢迎你和我讨论。
蝰蛇属
蛯
1.bloom过滤器
羂
罴
适用范围:可用于实现数据词典、进行数据判定、集体求交集
苅
薅
基本原理和要点:
蝾螈
原理上很简单,比特排列
K
个人独立
混沌
请参阅。 将
混沌
与函数对应的值的位数组的位置
1
,
如果在搜索时发现了一切
混沌
所有函数对应位
1
说明存在,显然这个过程不能保证搜索的结
果实呢
百分之百
正确。 此外,不支持删除已经插入的关键字。 因为与关键字对应的位被拉伸
转到其他关键字。 一个简单的改进是
计数蓝牙过滤器
现在用一个
柜台
数组的世代
可以支持删除,而不是位数组。
肇
蚄
另一个重要问题是,根据输入要素的个数
n
确定位数组
米
的大小和
混沌
函数
个数。 时光流逝
混沌
函数的数量
k=(ln2 ) * (m/n ) ) ) ) ) ) )。
错误率最小。 错误率为以下
e
的情况下,
米
至少
必须相等
n*LG(1
/E )
才能代表任意
n
个要素的集合。 但是
米
应该更大。 因为我必须保证
位元
数组
至少一半是
0
,
如果是
米
当然~应该
=NLG(1/e ) LGE
大概是这样
NLG(1)
/E ) 1.44
加倍
(lg
表示
2
底部对数
)。