1. 博客
  2. 爬虫技术
  3. 帖子详情

北京市企业(市场主体)数据爬取采集


北京市场注册,北京企业大全,北京企业数据采集,北京市企业名录


现在数据越来越重要,我一直研究这企业工商数据采集,今天分享一下北京市企业数据采集。

北京市市场主体(企业+个体)数据源


1、国家企业信用公示系统(北京)

http://bj.gsxt.gov.cn/index.html 这个就是国家的企业信用公示系统,只是一个二级域名,


2、北京市企业信用网

http://qyxy.scjgj.beijing.gov.cn/ 这个是北京市地方的企业信用网。


这两个都是官方平台,信息准确性和及时性都比较高,如果手上有企业名称,就可以通过这两个平台实现抓取。国家企业信用公示系统和北京市企业信用网都会出现验证码,其中北京市企业信用网比国家企业信用公示系简单得多,相对爬取容易的多,而且速度比较快。这里国家企业信用公示系统我就不多说,原来我也有文章提到过如果进行爬取,网上也有很多案例。

北京市企业信用网爬取:取得认证credit_ticket

    网站在访问详情和搜索的时候都需要credit_ticket,比如:http://qyxy.scjgj.beijing.gov.cn/xycx/queryCreditAction!qyxq_view.dhtml?reg_bus_ent_id=963C371FC70D4F9EB4902485C640E3B2&credit_ticket=DBFD51834814DCBF5F24A91337D7C562  其中reg_bus_ent_id就是企业id,credit_ticket就是认证;

    图片.png

看他们的验证码是一个预算,当然自己去研究图片算法很难的,我们企业可以选择一些打码平台来识别,这样可以减轻我们开发的量。网上有很多打码平台都可以,我这里就不做广告了,如果需要可以资讯我。

我们可以看企业编号:reg_bus_ent_id=ff808081609c0a8c0160a140a4055cb3,是一个32位的序列号,所以我们还是无法取得最新更新企业数据,只有企业名称才能抓取。

当然我们也可以通过一些列表获取部分企业

纳税A级企业纳税人名单: http://qyxy.scjgj.beijing.gov.cn/xycx/queryCreditAction!gsmd_list.dhtml?flag=G&chr_id=6886F83743DB00A4E053f400000501A4

北京市诚信创建企业复审公告名单:http://qyxy.scjgj.beijing.gov.cn/xycx/queryCreditAction!gsmd_list.dhtml?chr_id=6886F83743DB00A4E053f400000500A4&flag=G&clear=true

北京市诚信创建企业终审公示名单:http://qyxy.scjgj.beijing.gov.cn/xycx/queryCreditAction!gsmd_list.dhtml?chr_id=6886F83743DB00A4E053D400000500A4&flag=G&clear=true

图片.png

……这里我就不一一列举,我们可以得到一些我们需要的企业,但是要得到北京市 万企业还是有点困难。


  3、通过数据接口

    比如天眼查,企查查等都可以通过地区查询条件,不过都是按照接口调用次数收费。要想得的全市的数据成本还是有点高。也有专门的接口提供最新的,比如企查猫等,还有准们只提供最新企业注册的接口:https://www.tngou.net/doc/show/2 最新工商注册数据接口:

案例:https://www.tngou.net/openapi/v1/comp/complist?api_id=1&ProvinceCode=11&Type=1&sign=03a372539b83c0a0ee14e1639d7308c5&ssl=on   

就可以取到相关城市最新和更新的企业数据。


这里只说了一下方式和思路,如果需要相关的代码和数据,可以联系作者(QQ:397713472 电话:13880334484[微信同号])。


企业 北京市 企业信用

关于我

甘三数据网创始人-陈磊(tngou); 7年的互联网老兵,精通WBE技术、爬虫技技术、应用数据处理、大数据开发、自然语言处理与分析; 专业从事数据收集整理多年,并且和大家一起分享应用数据;海量数据,无限未来。

查看名片 →
热门文章
最新动态

陈磊个人信息


TG微信号