1. 博客
  2. 爬虫技术
  3. 帖子详情

爬虫浙江省市场主体杭州企业名录采集抓取


爬虫浙江省完整市场主体,杭州企业名录采集抓取。抓取到企业缴纳社保人数情况,这样我们就可以把杭州市企业的社保人数取到,就能分析企业规模和上规企业。

    浙江省的市场主体数和企业是全国排名前面几名,已经突破300万大关。市场主体可以分析出各个城市的发展情况和潜力,是做数据分析和报告的优质选择。同时也可见解决一下与企业工商数据有关应用的关联。如何采集和爬取完整的市场主体(企业)是一个难点,下面我会讲述如果取得企业的数据。

1、政府部门数据共享

通过省工商局导出拷贝,公司注册各省、市、区(县),都可以要到自己当地的工商数据,一般可以通过部门协调是可以得到省、市、区(县)的工商数据。但这个数据基本只有政府应用系统才能使用,必定市场主体注册企业也是各区/市的保密信息,尤其是重点企业。

优点:准确性高、完整性、权威性

缺点:需要人力协调

难度:数据操作容易

2、国家工商信息网

    全国工商网地址:http://www.gsxt.gov.cn/ 

浙江工商网地址:http://zj.gsxt.gov.cn/

信用浙江: https://credit.zj.gov.cn  

不管是全国还是浙江工商网,其实都是一个平台,只是二级域名不一样,这个是对外公开信息最权威,数据最及时的平台,没有之一,信用浙江是浙江省单独的的信用查询平台,这里国家公示平台我就不多说,主要说一下信用浙江平台。

我们可以打开https://credit.zj.gov.cn/#/home/searchDetail?uscc=913301055526524968   连接,访问企业信息,这里的uscc是指的是企业信用代码,在我们知道企业信用代码的时候直接调用页面下的数据接口就可以访问企业的json数据,相当方便。如果没有企业名单,我们可以通过企业名称和信用代码搜索,这里信用代码可以用算法生成,进行搜索。

优点:准确性高、完整性、权威性

缺点:数据不易得到

难度:技术要求高

3、地方工商网

    成都本地也推出了工商信息网,成都的叫着信用网。

   信用中国(浙江杭州)http://credit.hangzhou.gov.cn   

信用中国(浙江宁波)http://credit.ningbo.gov.cn/index.html   

这里我就不一一列出,每个城市基本都有地方上的信用平台,这里我们就拿爬取杭州企业来举例,我们打开credit.hangzhou.gov.cn/app/data?dispatch=queryQyXyjl&fwly=1&flag=xyda&enterpriseId=00B5192FDE76755A11F0DC60A56BC836


图片.png 

其中就可以抓取到企业缴纳社保人数情况,这样我们就可以把杭州市企业的社保人数取到,就能分析企业规模和上规企业。

优点:准确性高、权威性

缺点:数据不完整

难度:技术要求一般、数据处理复杂

4、第三方数据公司

天眼查:https://www.tianyancha.com/

企查查:https://www.qichacha.com/

启信宝:https://www.qixin.com/

查企猫:https://www.qichamao.com/

    第三方企业数据公司很多,他们的数据做的都比较好。对应技术来说,这几个平台是可以研究的。而且网上相关案例也比较多。是开始抓取企业信息的选择。虽然低三方企业,在数据更新和准确性上有点误差。但对应大量数据来说,一点点数据的延迟和误差完全可以接受的。

优点:数据完整

缺点:及时性差点

难度:技术要求一般、数据处理简单。

 

如果对爬虫技术有探讨和想更多了解数据,可以加我QQ:2041635829 微信:yi18_net (手机:13518355196)专注于企业爬虫技术;

微信:图片.png

可以探讨工商数据的商业应用如服务。

上面初步结束了一点数据抓取目标网站的解读,其实一个城市抓取数据也需要时间和人力成本。

整理的浙江省市场主体下载地址:https://www.tngou.net/tmall/show/15 


 

 

 

 

 


浙江省市场主体 杭州企业名录 爬虫

关于我

甘三数据网创始人-陈磊(tngou); 7年的互联网老兵,精通WBE技术、爬虫技技术、应用数据处理、大数据开发、自然语言处理与分析; 专业从事数据收集整理多年,并且和大家一起分享应用数据;海量数据,无限未来。

查看名片 →
热门文章
最新动态

陈磊个人信息


TG微信号