1. 博客
  2. 爬虫技术
  3. 帖子详情

新版建筑市场(四库一平台)抓取最新信息(爬虫)


最开始是可以通过分页的方式查询最新添加的数据,现在已经不行,这里的日期是显示当天的时间和真实的数据有出入,一般平台提供的都在昨天的数据,会与真实的时间有一天的差距,同时返回数据只有15条


    全国建筑市场(四库一平台)http://jzsc.mohurd.gov.cn 在2019年7月左右发布了新版本,同时在2020年初关闭的老板。新版本在防止爬虫方面做了很多工作,比如在我以前博客中提到的:

1、新版的API接口数据进行AES加密,解决方案《建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门密码篇》 详细介绍了网站平台和加密方式。

2、网站进行Token认证,解决方案《建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口Token认证篇》详细分析了所以的API接口和Token认证情况,其中一个Token抓取45次就会失效。


    今天我就要说说平台如何抓取最新新增数据,我们打开首页, 其中就有一个模板包括最新企业,最新人员和最新项目。
图片.png

这里最开始是可以通过分页的方式查询最新添加的数据,现在已经不行,这里的日期是显示当天的时间和真实的数据有出入,一般平台提供的都在昨天的数据,会与真实的时间有一天的差距,同时返回数据只有15条。这里的人员信息返回里面包含了身份证号,,建议这里不要存储完整身份证号。

由于每天新添加的企业和项目会做500-1000左右,所以该接口不能完全获取最新的消息。

id=CBCBC9CBCBC8C9CBC9CACBC2C9CFCDCBC9C3

我么可以看到传入的id其实就是企业关联的id,我们发现每天id都在变,但是可定有一个原始值,然后在通过算法加密(这里的加密方式就不方便透露);这样我们发推id,就可以找到id变化规律作为算法,来实现变量,,同理企业,人员,项目三者都是一样的。

这里只说了一下方式和思路,如果需要相关的代码和数据,可以联系作者(QQ:397713472 电话:13880334484[微信同号])。




数据 四库一平台 建筑市场 加密 爬虫

关于我

甘三数据网创始人-陈磊(tngou); 7年的互联网老兵,精通WBE技术、爬虫技技术、应用数据处理、大数据开发、自然语言处理与分析; 专业从事数据收集整理多年,并且和大家一起分享应用数据;海量数据,无限未来。

查看名片 →
热门文章
最新动态

陈磊个人信息


TG微信号