自从来到前嗅,小编从一个爬虫小白到现在能够熟练的采集各种网站各种数据真的是有很大的成长,当然,成长过程中肯定少不了踩坑(很多网站都有防爬措施),为了让各位用户能够更熟练的使用爬虫软件,小编决定定期在公众号写一些配置爬虫的经验和小技巧,以及遇到坑的时候的解决方法。
本次案例使用的是大众点评网,要抽取下面的翻页链接。
第一步先看每一页的链接地址有没有规律。
可以看到每一页的链接地址只有最后一个数字是不一样的,分别是对应的页码数,我们可以通过拼接的方式得到所有翻页的链接地址。下面写了拼接第二页链接地址的脚本:
图中的六行代码,是链接抽取中必不可少的部分,这简单的六行就是一个完整的链接抽取脚本。下面是每一行的解释:
第一行:定义一个url类的变量u。
第二行:u.urlname是网页的链接地址,为其赋值。
第三行:u.tmplid是这个链接抽取所要关联的模板id,这里是翻页,所以关联自身模板。
第四行:这个链接抽取所对应的频道id。
第五行:u.title是链接标题,为其赋值。
第六行:将所拼接的链接添加到最后的结果中。
上面的代码取到的只是第二页的链接,下面给大家放完整的内容:
通过FindClass的方式,从源码中得到总页数,然后使用for循环拼接每一页的链接。一共才用了12行(其中还包含了两行注释)就得到了自己想要的链接。
前嗅大数据——深度大数据专家