1. 博客
  2. 爬虫技术
  3. 帖子详情

纳税信用A级纳税人名单爬虫抓取


全国企业纳税信用A级纳税人名单爬虫策略,纳税信用A级纳税人名单公布栏(http://hd.chinatax.gov.cn/nszx/InitCredit.html)爬虫爬取。


    2018年总共有75375家企业纳税信用A级纳税人名单,其中江苏(167614家),广东(151675家),浙江(135774家)最多;主要城市北京(60272家),上海(103490家);

    纳税信用A级纳税人名单公布栏(http://hd.chinatax.gov.cn/nszx/InitCredit.html)公布了各个省份的A级纳税人名单。

图片.png

    通过分析,可以通过查询接口进行数据抓取

   API接口: http://hd.chinatax.gov.cn/service/findCredit.do

    主要参数:

Map<String, String> map = new HashMap<String, String>();
map.put("page", "1");
map.put("location", "510000");
map.put("cPage", "15");
map.put("code", "");
map.put("name", "");
map.put("evalyear", "2018");

 

其中请求参数location 是各个省份的编码,全国省份编码如下:

JSONObject map_p= new JSONObject(true);      
        map_p.put("110000", 4019);//北京
        map_p.put("120000", 2168);//天津
        map_p.put("130000", 2076);//河北
        map_p.put("140000", 877);//山西
        map_p.put("150000", 270);//内蒙古
        map_p.put("210000", 1454);//辽宁
        map_p.put("220000", 471);//吉林
        map_p.put("230000", 334);//黑龙江
        map_p.put("310000", 6900);//上海
        map_p.put("320000", 11175);//江苏
        map_p.put("330000", 9052);//浙江
        map_p.put("340000", 2574);//安徽
        map_p.put("350000", 2016);//福建
        map_p.put("360000", 991);//江西
        map_p.put("370000", 5858);//山东
        map_p.put("410000", 2862);//河南
        map_p.put("420000", 2763);//湖北
        map_p.put("430000", 1325);//湖南
        map_p.put("440000", 10112);//广东
        map_p.put("450000", 935);//广西
        map_p.put("460000", 237);//海南
        map_p.put("500000", 343);//重庆
        map_p.put("510000", 2674);//四川
        map_p.put("520000", 357);//贵州
        map_p.put("530000", 230);//云南
        map_p.put("540000", 25);//西藏
        map_p.put("610000", 1435);//陕西
        map_p.put("620000", 1016);//甘肃
        map_p.put("630000", 103);//青海
        map_p.put("640000", 268);//宁夏
        map_p.put("650000", 455);//新疆

 

部分数据结果

图片.png



接口有IP和Cookie的限制,这里就不多说如果解决着两个反爬虫的限制;如果有兴趣可以联系作者(QQ:397713472 电话:13518355196[微信同号])。




企业A级纳税人名单 爬虫

关于我

甘三数据网创始人-陈磊(tngou); 7年的互联网老兵,精通WBE技术、爬虫技技术、应用数据处理、大数据开发、自然语言处理与分析; 专业从事数据收集整理多年,并且和大家一起分享应用数据;海量数据,无限未来。

查看名片 →
热门文章
最新动态

陈磊个人信息


TG微信号