10人
不限
2年以上
18-50
性别不限
微简历可投
职位描述
岗位职责:1、主要负责软件平台功能开发工作;2、负责相关数据抓取工作、研究各种网站、网页、链接的形态,发现它们的特点和规律;3、网络爬虫工具的设计、开发及优化;4、网页信息与文本数据抽取等核心算法的研究和优化;5、负责业务爬虫的开发,完成数据采集爬取、解析提取,对数据进行过滤、去重、清洗、结构化处理、数据入库等工作任职要求:1、计算机相关专业本科及以上学历,1年以上 Python 开发经验;2、熟练Python语言,有java语言开发经验者优先,有扎实的数据结构和算法功底;3、理解http,熟悉html. DOM. xpath. scrapy等,精通网页抓取原理及技术、正则表达式,能从结构化的和非结构化的数据中获取信息;4、熟悉爬虫、种子、去重、提取、过滤、分发、DNS cache、异步处理等概念和过程;5、熟悉linux开发环境,熟练使用Mysql,熟悉Nosql数据库如mongoDB.Redis等;6、了解Hadoop、Spark等大数据框架和流处理技术者优先。7、承担较大的工作压力.具有良好的沟通和团队协作能力;工作条理清楚,善于学习总结.