IT人力外包人才简历库

返回列表

高级数据采集工程师

驻场外包人员
工作年限:6年 意向城市:杭州 浏览:2次 发布时间:近期

技能标签

分布式爬虫 反爬虫策略 数据清洗 Scrapy框架 IP代理池 验证码识别 数据存储 网络协议 Linux部署 并发处理 日志监控 系统调优 数据采集 爬虫架构 API接口

专业技能

精通分布式爬虫框架开发,具备大规模数据采集系统架构设计能力。熟练掌握Scrapy、PySpider等爬虫工具,熟悉分布式爬虫调度系统(如Scrapy-Redis)。擅长处理反爬虫策略(IP代理池、验证码识别、请求头模拟等),具备多源数据清洗与存储能力(MySQL/Redis/ES)。熟悉网络协议(HTTP/HTTPS/FTP)及数据抓取技术,具备日志监控与异常处理经验。熟悉Linux服务器部署及性能调优,掌握Python高级编程及并发处理技术。

工作履历(脱敏处理)

主导设计并实现分布式爬虫系统,支持日均千万级数据采集,采用Scrapy-Redis实现任务分发与结果聚合。开发反爬虫模块,通过动态IP代理池和验证码识别技术突破平台风控限制。构建数据清洗流水线,整合MySQL/Redis/ES实现数据存储与检索优化。设计监控系统实现爬虫状态实时追踪,通过日志分析定位并解决95%以上异常请求。主导多个跨平台数据采集项目,包括音乐/视频/新闻/小说等多类型内容抓取系统,平均提升数据采集效率40%。

项目经验(脱敏处理)

开发多源数据采集平台,采用Scrapy框架构建分布式爬虫架构,通过IP代理池和请求头模拟技术突破平台风控限制。设计数据清洗模块,使用Pandas进行数据去重与格式标准化,集成Redis实现数据缓存与实时处理。搭建监控系统实现爬虫状态实时追踪,通过日志分析定位并解决95%以上异常请求。优化数据存储方案,采用MySQL分库分表和ES全文检索提升数据查询效率。实现多平台内容抓取系统,包括音乐/视频/新闻/小说等类型,日均采集数据量达200万条,系统稳定运行超过18个月。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

6年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接