IT人力外包人才简历库

返回列表

数据采集工程师

驻场外包人员
工作年限:1年 意向城市:杭州 浏览:3次 发布时间:近期

技能标签

Python 爬虫开发 反爬虫 Requests BeautifulSoup Scrapy MySQL Selenium IP池 请求头构造 数据清洗 分布式爬虫 动态渲染 OCR识别 日志分析

专业技能

精通Python网络请求库(Requests/Urllib)、HTML解析库(BeautifulSoup/Xpath)、分布式爬虫架构(Scrapy)。掌握反爬虫技术体系,包括请求头构造、IP池搭建、动态渲染处理(Selenium/Playwright)、验证码识别(OCR)、请求频率控制(Sleep策略)。熟悉MySQL数据库操作,具备数据清洗与存储能力。熟练使用Linux命令行进行日志分析与任务监控。

工作履历(脱敏处理)

作为数据采集工程师,主要负责企业数据采集系统的开发与维护工作。主导设计并实现基于Scrapy框架的分布式爬虫架构,通过IP池管理和请求头伪装技术突破目标网站的反爬机制。开发动态渲染处理模块,采用Selenium结合Playwright实现对JavaScript渲染页面的数据提取。优化数据库存储方案,通过数据清洗和索引优化提升数据查询效率。建立完善的日志监控体系,实现爬虫任务的自动化运维。

项目经验(脱敏处理)

1. 搭建企业级数据采集平台:基于Scrapy-Redis实现分布式爬虫架构,采用IP池技术突破目标网站的IP封锁策略,通过请求头构造和User-Agent轮换实现反反爬。项目日均采集数据量达50万条,系统稳定运行周期超过6个月。

2. 动态网页数据采集系统:针对目标网站的JavaScript渲染页面,开发Selenium+Playwright混合采集方案。通过OCR识别技术破解验证码,结合请求频率控制策略(Sleep策略)降低被封禁风险,最终实现100%的采集成功率。

3. 反爬虫解决方案优化:针对目标网站的动态请求签名机制,逆向分析接口加密算法,开发定制化请求构造模块。通过流量分析定位反爬策略,设计多级重试机制和请求参数随机化策略,使采集任务稳定性提升40%。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

1年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接