任务:抓取页面的链接并返回。
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://blog.csdn.net/mercury_lc") # 打开链接
bsObj = BeautifulSoup(html,features='lxml') # 把这个页面的html放到bs4中
# print(bsObj)
cnt = 0
for link in bsObj.findAll("a"):
if 'href' in link.attrs: # html标签的属性字典
#print(link.attrs)
print(link.attrs['href']) # 这是包括好几个的,只要href就可以
cnt += 1
print("网页链接数量:")
print(cnt)
这里当然是ctrl+v的课本啦,重在学习 BeautifulSoup 的这个的四个对象类型。