首页 > 编程知识 正文

爬虫可以爬取哪些网站(爬虫代码)

时间:2023-05-05 21:11:24 阅读:101931 作者:4459

在大数据风险管控如火如荼的时候,大数据公司利用非法爬虫技术获取海量个人信息数据,打着征信公司的幌子对数据进行处理和出售。

作者|葛东

生产|消费金融渠道

近日,上海市浦东新区检察院以侵犯公民个人信息罪对一家经营非法爬虫业务的大数据公司提起公诉。最终,法院以侵犯公民个人信息罪判处8名相关被告人有期徒刑3年至1年不等,并处罚金3万元至1万元。该犯罪团伙在上海经营一家信息技术公司,以大数据征信名义进行数据交易,类似于之前涉案的莫邪科技、欣彦科技。

数据显示,该公司已与3000多家上下游公司达成合作。通过爬虫技术在互联网上抓取用户身份证、社保、学历背景、消费记录等信息,共计308万余条信息,提供查询服务违法所得1750余万元。

在消费金融市场疯狂扩张的前两年,无论是持牌机构还是非持牌机构,都疯狂搜索数据和流量进行营销和风险控制,催生了产业链上游的大数据风险控制行业。在此期间,一些超级借贷平台和大数据服务商非法收集用户隐私数据,出售给常规借贷平台,给消费者的财产安全带来隐患。随着监管渗透的不断深入,消费者的信息保护意识不断加强,已经越界的爬虫和大数据风险管控已经停止。

数据贩运

宣判上述8人的犯罪团伙开发了一个信用信息网站,为机构和个人提供有偿查询服务,查询的信息为个人敏感信息。至于数据源,主要有两种方式,一种是交换资源或者直接从其他数据机构购买,另一种是使用爬虫在各种网站上非法抓取。

在收集到大量数据后,大数据公司会对其进行分类整合,然后永久存储在公司租用的服务器中。如果是机构来查询,单次查询费用从0.5元到1.5元不等。

从客户分布来看,多集中在现金贷款领域和部分人力资源企业。就查询流程而言,由于大数据公司对合作机构的资质审核缺乏严格的标准,存在较大的数据泄露风险和违规使用隐患。

比如在大数据公司设立的信用网站上,机构只需简单注册认证即可。在这个环节,他们一般需要缴纳一定的保证金,然后只需要输入身份证号、姓名、手机号和手机验证码就可以查询到所需的信息。

对于被询问人,根本没有相关的隐私保护设置,事实上也没有取得被询问人的同意。当一个机构使用非法信用信息网站进行查询时,会有授权协议,但这只是一种形式,根本无法得到被查询人的授权。

前不久,业内知名大数据风险管控企业魔蝎科技一审判决出炉,法院也判决魔蝎科技侵犯个人信息。魔蝎科技被罚款3000万元;法人Wydwd被判处三年监禁,缓刑四年;技术总监qkddg被判三年监禁。

在数据源方面,莫邪科技还将开发的前端插件嵌入到网贷平台APP中,通过爬虫程序抓取通信运营商、社保、公积金、淘宝、JD.COM、Xuexin.com、征信中心等用户的个人信息。在这个过程中,莫邪科技欺骗用户,用户信息永久存储在租用的服务器中。

莫邪科技在抓取相关信息后,提供给网贷平台判断用户信用状况,从网贷平台获取每笔0.1元到0.3元的费用。其中,有很多高利贷和常规借贷机构

智能贷款网以超贷助贷模式,收集了大量有贷款需求的用户信息,仅快贷家园注册用户就超过1500万。数据量达到量级后,智慧贷款网为各种现金贷款平台提供营销渠道、数据批发、信用管理等定制服务,换句话说就是数据销售。

数据安全是基础。

随着大数据、云计算、人工智能等技术的发展,大数据风险控制仍是未来金融科技的趋势。大数据风险控制在赋能金融机构风险控制的同时,也带来了许多安全问题,如数据采集、应用和流通导致的隐私泄露等。经过残酷的发展,大数据风险控制逐渐回归理性。在监管的高压下,数据安全成为焦点。

“所有渠道的数据必须非常干净,必须经过用户授权,合规采集。一旦涉及非法盗窃,无论需要多高质量的数据。”助贷平台仍在为2019年大数据行业的整改担忧,坦言在用户隐私保护意识增强的趋势下,

不敢再打任何擦边球。

这些涉案机构是与爬虫业务及侵犯公民个人信息有关。在大数据风控和爬虫整治期间,央行对银行及征信机构下发紧急通知,要求银行排查是否与第三方数据公司开展合作,排查的合作内容涉及数据采集、信用欺诈、信用评分、风控建模等方面。

同时银行需要上报第三方公司的名字、股东背景、是否涉及爬虫,确认没有合作的,也需要按照要求进行报送。对于商业银行和数据公司合作在总行,执行在分支行的,也属于此次排查范围。

银保监会去年下发并实施的《商业银行互联网贷款管理暂行办法》,从商业银行、助贷平台、借款人等多个层面规范商业银行互联网贷款业务经营行为,以促进互联网贷款业务获客、产品设计、风控、催收等环节合规发展。

其中,风控是商业银行互联网贷款必须迈过的一道门槛。监管要求,商业银行应当针对互联网贷款业务建立全面风险管理体系,在贷前、贷中、贷后全流程进行风险控制,加强风险数据和风险模型管理,同时防范和管控信息科技风险。

同时,商业银行用于风控的大数据必须来源合规。当商业银行从合作机构获取借款人风险数据时,应通过适当方式确认合作机构的数据来源合法合规、真实有效,商业银行不得与违规收集和使用个人信息的第三方开展数据合作。

对征信机构而言,数据使用和保护边界也被严格限定。1月11日,中国人民银行央行就《征信业务管理办法(征求意见稿)》公开征求意见。《办法》指出,征信机构采集信用信息,应当遵循“最少、必要”的原则,不得过度采集。

此前,在中国人民银行举行“金融支持保市场主体”系列新闻发布会,征信管理局副局长田地表示:个人征信业务需要持牌经营,并纳入征信监管。打着大数据公司、金融科技公司等旗号,未经人民银行批准擅自从事个人征信业务的行为,均属于违法行为。

大数据风控被整顿,征信业务必须持牌,非法爬虫的生存空间必然会被压缩。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。