1. 博客
  2. 爬虫技术
  3. 帖子详情

爬虫 全国建筑市场监管公共服务平台(四库一平台) 小程序数据抓取


《全国建筑市场监管服务平台》小程序数据爬虫与采集:使用爬虫抓包工作抓取小程序访问链接、接口认证token和IP限制、数据AES加密解密


原来发了几遍文章关于 全国建筑市场监管公共服务平台(四库一平台)平台的网站数据采集和抓取:

建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门篇

建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口篇

新版建筑市场(四库一平台)抓取最新信息(爬虫)


最近发现 建筑市场监监管平台推出了自己的小程序《全国建筑市场监管服务平台》。

1596269595525051780.png


    在使用过程中,发现没有前端的辅助验证码,和一些访问的现在,于是就研究如何通过小程序来抓取数据,经过的学习和研究基本完成的数据的采集和抓取,就把整个流程最一点记录,如果需要相关的技术支持和爬虫数据可以联系我(QQ:397713472 电话:13518355196[微信同号])。


一、使用爬虫抓包工作抓取小程序访问链接

    我喜欢用Fiddler抓包工具,我这里就不详细说怎么配置和安装,这个网上的教程很多;安装和配置好了,我们访问小程序,在Fiddler上面就看到相关的访问链接:

1596270210034094290.png

然后通过分析小程序的接口就两个

https://sky.mohurd.gov.cn/skyapi/api/statis/getExtResult
https://sky.mohurd.gov.cn/skyapi/api/statis/getResult

都是通过改变参数keys的方式来实现相关业务,这里就不多少,通过接口很轻松的分析相关的功能。


二、接口认证token和IP限制

    首先我们打开一个接口的请求头:

GET https://sky.mohurd.gov.cn/skyapi/api/statis/getResult?_t=0.33565467680946304&keys=corp%2Fdata_search%2Fpage&qyTypeCode=&regionNum=&pageNumber=1&pageSize=15&keyWord= HTTP/1.1
Host: sky.mohurd.gov.cn
Connection: keep-alive
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36 MicroMessenger/7.0.9.501 NetType/WIFI MiniProgramEnv/Windows WindowsWechat
cityCode: 
content-type: application/json
token: t_b161960b732146379d4b8fc53196c50f
Referer: https://servicewechat.com/wx8f070e7958a940d1/11/page-frame.html
Accept-Encoding: gzip, deflate, br

    虽然小程序接口现在不多但是还是做了一点认证也爬虫现在,首先是token,这里的token比较简单,就可以直接用抓取的作为token。当一定的访问,后端也会封Ip,最开始的是好是几分钟会解封,但是现在不会,使用尽量用IP代理。


三、数据AES加密解密

当我们参看返回的数据的时候数据是这样的:

{"data":"A3ReBKoR6IDZSR4Jdxq72fXPsnWTZMhOr5sXl/lJ8/3GWFmsy2fTHG/0+Uz8fZmopZ0Ru0cskOWNX8hWlUy19scqauL28x3daP9IQn2……",
"message":null,
"status":1}

这里data的数据就是做了加密的,使用我们通过数据解密后的:

[{"data":{"asc":true,"current":1,"limit":15,"offset":0,"offsetCurrent":0,"openSort":true,"optimizeCount":false,"pages":14,
"records":[{"legalMan":"张东","address":"重庆市渝北区龙溪街道金山路18号中渝.都会首站4幢9-10","regionFullname":"重庆市",
"corpName":"重庆惠风机电设备有限公司","id":"001903140034193455","corpCode":"91500112054824582M"}],
"searchCount":true,"size":15,"total":200}}]

    由于涉及到相关的解密key这些我就不在该文章中写了,如果需要可以联系我(QQ:397713472 电话:13518355196[微信同号])

下图就是直接通过java写的解密截图。


图片.png

四库一平台 建筑市场监管平台 爬虫 数据采集

关于我

甘三数据网创始人-陈磊(tngou); 7年的互联网老兵,精通WBE技术、爬虫技技术、应用数据处理、大数据开发、自然语言处理与分析; 专业从事数据收集整理多年,并且和大家一起分享应用数据;海量数据,无限未来。

查看名片 →
热门文章
最新动态

陈磊个人信息


TG微信号