代码拉取完成,页面将自动刷新
同步操作将从 牛枫翔/NSDTN2206三阶段笔记仓库 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
# test01_requests.py
# 1. 下载新浪首页数据
# 2. 使用正则匹配所有图片的url,保存到列表中
# 3. 遍历列表,下载图片
import requests, re, os
def download(url, fname):
resp = requests.get(url)
with open(fname, mode="wb") as fw:
fw.write(resp.content)
def get_url(fname, re_str): # fname文件路径 re_str正则字符串
pic_list = [] # 保存图片url地址
re_obj = re.compile(re_str) # 正则字符串编译正则对象
with open(fname, mode="r") as fr:
for line in fr.readlines(): # line: 每一行
data = re_obj.search(line)
if data != None: # 匹配到了数据
pic_list.append(data.group())
return pic_list
if __name__ == '__main__':
fname, pic_dir = "/opt/sina.html", "/tmp/mypics"
re_str = "(http|https)://[\w\./-]+\.(jpg|png|jpeg|gif)"
if os.path.exists(fname) == False: # 文件不存在则下载
download("https://www.sina.com.cn/", fname)
if os.path.exists(pic_dir) == False: # 目录不存在则创建
os.mkdir(pic_dir)
tmp = get_url(fname, re_str)
for pic_url in tmp:
download(pic_url, f"{pic_dir}/{pic_url.split('/')[-1]}")
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。