经过几天的全国建筑市场监管公共服务平台(http://jzsc.mohurd.gov.cn)平台的研究,终于完成数据的完全抓取。陆陆续续差不多花费一周的时间进行软件开发和设计,然后爬取时间才不多20天时间,对所以企业信息进行完整的抓取。
数据如下:
建筑资质信息
其中在开发过程中遇到两个问题?
1、新版的API接口数据进行AES加密,解决方案《建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门密码篇》 详细介绍了网站平台和加密方式。
2、网站进行Token认证,解决方案《建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口Token认证篇》详细分析了所以的API接口和Token认证情况,其中一个Token抓取45次就会失效。
现在已经完全解决38万建筑资质企业的爬虫工作,如果需要相关的代码和数据,可以联系作者(QQ:397713472 电话:13518355196[微信同号])。
建筑资质 抓取数据 四库一平台