首页 > 编程知识 正文

什么叫爬虫工程师,爬虫工程师发展方向

时间:2023-05-05 17:38:22 阅读:227854 作者:4187

岗位描述1:
1、参与大规模框架系统的相关架构和开发;
2、负责框架系统模块设计和开发,包括服务端和客户端,以及日常升级和维护
3、协助完成需求收集、分析,系统设计,测试和部署,编写开发过程中涉及的相关文档

任职资格
1. 3年以上Java开发经验,熟悉Java core和开源项目,有互联网开发经验者优先
2. 具备面向对象的设计思路和经验,熟悉软件开发流程、体系结构,具备较好的文档能力及良好的编码风格;
3. 具备良好的表达和沟通能力,能充分理解用户需求和功能描述,设计并开发软件系统;
4、熟悉SOA、Messaging,socket、线程、并发等开发知识,有后台框架开发经验者优先
5、熟悉应用服务器, 熟悉Tomcat、Netty、Apache的配置及其优化
6. 熟悉数据库知识,具有数据库设计能力,熟悉SQL Server/Oracle/MySql相关技术及工具
7熟悉HTTP传输协议,精通网页抓取原理及技术,能模拟浏览器操作爬虫;
8、责任心强,热爱爬虫工作,有爬虫项目经验优先。
9. 具备极强的团队精神和合作精神,对工作有热情,能够在一定压力下工作
10.全日制本科、硕士及以上学历,计算机、数学、物理及其他理工科专业毕业。

岗位描述2:
1、参与爬虫系统的架构设计与开发;
2、具有实际爬虫开发、内容提取工作经验2年以上;
3、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析;
4、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
5、能独立解决实际开发过程碰到的各类问题;
岗位要求:
1、熟悉linux平台开发,3年以上Java、python或C/C++开发经验;
2、精通信息抓取和整合技术,从结构化的和非结构化的数据中获取信息;
3、熟悉Mysql,redis,mongdb三者至少之一,有过数据库调优和海量数据存储经验优先;
4、具有搜索相关技术研发经验者优先;
5、具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先;
6、有nutch,heritrix抓取经验或者分布式抓取经验者优先;
7、熟悉搜索引擎和个性化推荐相关技术,精通主流分词算法、分类、提取摘要、大规模网页聚类、索引、检索等相关开发经验者优先。

职位描述3:
1、精通爬虫相关技术,如:httpClient/jSoup/xpath/正则表达式/验证码加密处理/代理池等
2、精通Core Java相关知识,如:常用集合类/泛型/反射/IO/注解/多线程等
3、掌握常用开源框架,如:Spring、MyBatis、Spring Boot等
4、掌握常用数据库(如:MySQL)及相应DDL/DML,熟悉索引及常规SQL调优
5、掌握常用开发管理工具及应用服务器,如:Eclipser、Maven、Git/SVN、Tomcat、Nginx等
6、熟悉行为验证码识别、模拟登陆、数据清洗、去重、入库等
7、熟悉HTTP协议,掌握HTML/CSS/JS/JQUERY/AJAX等相关知识
8、熟悉MQ、Zookeeper、Redis等分布式和NoSQL技术
9、了解Linux系统及Linux常用命令
10、了解Hadoop、HBase、HDFS、KAFKA等大数据相关知识
11、有运营商网站爬取或逆向经验尤佳

职位描述4:
1、参与数据层建设,专注于垂直领域数据爬取,进行多平台信息的抓取和分析;
2、参与爬虫系统的架构设计与开发;
3、实现数据提取、清洗、结构化、入库、统计分析等需求;
4、研究优化算法,提升爬虫系统的稳定性、可扩展性;
5、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
6、能独立解决实际开发过程碰到的各类问题。

岗位要求:
1、全日制本科以上学历,计算机等专业;
2、有扎实的计算机基础、熟悉常用数据结构,具有实际爬虫开发经验;
3、至少熟练掌握Java/Python其中一种语言,良好的编码风格及编码能力;
4、熟悉高并发、高性能的分布式系统的设计及应用,熟悉常用数据存储,各种数据处理技术优先;
5、有3年以上编程开发经验,有丰富的爬虫和反爬虫经验者优先。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。