另一方面,爬虫策略1 .主服务器先按照spider.all set进行称重,然后lpush request_url进入spider.wait List,再sadd request_url进入set;
2 .从服务器brpop中提取2台最后的url进行分析,掌握数据
二、缓存策略1 .主服务器通过浏览各种排行榜和首页等Book集合、短字段页面
创建多个不同key的散列
expect=create { ' siteid _ bookid ' : hash }2.从服务器进入书的详细页面
更新单个key的部分Hash字段,创建保留章节id的章节顺序集合,并在spider.wait中生成request_url
expect=update { ' siteid _ bookid ' : hash },create { ' siteid _ bookid _ chapters ' : sortset }3.从服务器到章节详细信息
创建章节的散列对象
expect=create { ' siteid _ bookid _ chapter id ' : hash }4.从主服务器中合并两个hash对象和一个sort set对象,生成book信息并生成数据
转载于:https://www.cn blogs.com/jiajin/p/8476311.html