全国建筑市场(四库一平台)http://jzsc.mohurd.gov.cn 在2019年7月左右发布了新版本,同时在2020年初关闭的老板。新版本在防止爬虫方面做了很多工作,比如在我以前博客中提到的:
1、新版的API接口数据进行AES加密,解决方案《建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门密码篇》 详细介绍了网站平台和加密方式。
2、网站进行Token认证,解决方案《建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口Token认证篇》详细分析了所以的API接口和Token认证情况,其中一个Token抓取45次就会失效。
今天我就要说说平台如何抓取最新新增数据,我们打开首页, 其中就有一个模板包括最新企业,最新人员和最新项目。
这里最开始是可以通过分页的方式查询最新添加的数据,现在已经不行,这里的日期是显示当天的时间和真实的数据有出入,一般平台提供的都在昨天的数据,会与真实的时间有一天的差距,同时返回数据只有15条。这里的人员信息返回里面包含了身份证号,,建议这里不要存储完整身份证号。
由于每天新添加的企业和项目会做500-1000左右,所以该接口不能完全获取最新的消息。
id=CBCBC9CBCBC8C9CBC9CACBC2C9CFCDCBC9C3
我么可以看到传入的id其实就是企业关联的id,我们发现每天id都在变,但是可定有一个原始值,然后在通过算法加密(这里的加密方式就不方便透露);这样我们发推id,就可以找到id变化规律作为算法,来实现变量,,同理企业,人员,项目三者都是一样的。
这里只说了一下方式和思路,如果需要相关的代码和数据,可以联系作者(QQ:397713472 电话:13518355196[微信同号])。
数据 四库一平台 建筑市场 加密 爬虫