香港正挂挂牌正版图解-免费完整资料

1、负责设计和开发分布式网络爬虫系统，进行数据抓取和分析；

2、设计爬虫策略和防屏蔽规则，提升网页抓取的效率和质量；

3、参与分布式爬虫和数据采集系统的架构设计和开发，快速响应业务变动；

4、负责网络数据抓取规划、定期爬取指定网站的数据；

5、参与数据层建设，专注于垂直领域数据爬取，进行多平台信息的抓取和分析；

6、实现数据提取、清洗、结构化、入库、统计分析等需求；

7、研究优化算法，提升爬虫系统的稳定性、可扩展性。

1、熟悉Python和常用的开源库，熟练使用Django/Flask等至少一种主流的web开发框架；

2、熟悉Mysql，mongoDB， Redis，Es，队列等数据库的使用和优化；

3、对进程、线程、协程、异步、非阻塞有一定了解和使用

4、对linux系统基础知识及原理了解较深入的,如linux软中断硬中断,服务器安全等

5、熟悉爬虫主流框架Scrapy、requests、Selenium、gocolly，webmagic等框架（深入了解其中一种）。

6、对相关算法有一定了解;

7、有大型项目管理经验优先。

8、熟悉应用IP代理池、Headers认证和Cookie等；

9、有分布式爬虫、反爬机制经验者优先

10、熟悉js逆向，js破解优先考虑

11、有参与实时监控爬虫的进度和警报反馈系统的优先考虑,如Prometheus+zabbix+granafa等服务器相关爬虫监控检测体系

12、有高可用分布式集群项目设计、开发经验,优先考虑,如K8S,docker,keepalived等

13、有多种语言,如GO、Python、Rust、php可作为加分项

14、有训练过自己的模型可作为加分项

15、github或者码云有相关开源项目可作为加分项

经验要求：	3年以上
语言：	中文

招贤纳士