职位描述
岗位职责:
1.负责对业务所需的所有指定网站、APP、公众号、小程序等按业务需求进行信息和数据的采集工作;
2.负责数据的解析处理、入库等日常工作;
3.建立并完善数据采集监控机制,具备独立完成新项目信息采集、解析、入库、监控全流程工作;
4.把握网络爬虫核心技术研究方向,提升爬虫系统的稳定性可扩展性;
5.负责爬虫技能难点攻克,能独立完成反爬策略和代理IP优化研究及落地实施,持续提升爬取效率及成功率:
6.积极主动思考爬虫再业务中的价值,参与设计数据有效性策略,从数据合理性和完整性方面提供建议和方案; 技能要求:
1.统招本科及以上学历,计算机、数学、信息科学、统计学等相关专业;
2.具有3年以上爬虫经验,熟练使用Scrapy、selenium、playwright、appium等常用爬虫框架;
3.精通Linux常用命令,具有独立部署打包能力,熟练使用Docker,k8s,Rancher等工具;
4.掌握分布式采集相关技术,如Scrapy-Cluster,RabbitMQ等;
5.对常见各类反爬方式(如账号/IP封禁、验证码、滑块验证、jsvmp还原、图像识别等)有逆向解决经验;
4.熟练掌握一种关系型数据库使用,如MYSQL、POSTGRESQL、sql server数据库;
6.具有良好自主学习、独立解决问题以及团队协作和沟通能力;
职能类别:爬虫工程师
关键字:计算机mysql数据库linux数学seleniumrabbitmq入库postgresql数据采集