获取网页中超链接PY源码

December 09, 2023
测试
测试
测试
测试
2 分钟阅读

关于源码的使用

  • 使用了request,bs4的库
  • 可以用来抓取网页中的超链接(可以设置规则)。并写入到url.txt中。
  • 我是用来抓创意工坊的mod超链接的。只是做个笔记。方便寻找。 各路大佬也可以来指点指点。
from urllib.request import urlopen
from bs4 import BeautifulSoup
import ssl

ssl._create_default_https_context = ssl._create_unverified_context
url = urlopen('https://steamcommunity.com/app/563560/workshop/')  # 获取网页


bs = BeautifulSoup(url, 'html.parser')  # 解析网页
hyperlink = bs.find_all('a')  # 获取所有超链接
file = open('./url.txt', 'w')

for h in hyperlink:
    hh = h.get('href')
    if hh and '/sharedfiles/filedetails/' in hh and '#comments' not in hh:  # 筛选链接
        print(hh)
        file.write(hh)  # 写入到“urltxt”文件中
        file.write('\n')

file.close()

继续阅读

更多来自我们博客的帖子

如何安装 BuddyPress
由 测试 December 17, 2023
经过差不多一年的开发,BuddyPress 这个基于 WordPress Mu 的 SNS 插件正式版终于发布了。BuddyPress...
阅读更多
Filter如何工作
由 测试 December 17, 2023
在 web.xml...
阅读更多
如何理解CGAffineTransform
由 测试 December 17, 2023
CGAffineTransform A structure for holding an affine transformation matrix. ...
阅读更多