代码拉取完成,页面将自动刷新
同步操作将从 唐僧骑白马/my_visualization 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
import requests
import re
import pymysql
# 连接数据库
db = pymysql.connect(host='127.0.0.1', port=3306, db='img', user='root',
passwd='dry2495128088', charset='utf8')
# 创建游标
cursor = db.cursor()
# cursor.execute('select * from imgs')
# print(cursor.fetchall())
# 获取图片列表
def get_imglist(page):
# 获取斗图网源代码
html = requests.get('http://www.doutula.com/photo/list/?page={}'.format(page)).text
"""
data-original="http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1gckv1o674xj20b9079glx.jpg"
alt="不要聊了。不要聊了。"
"""
reg = r'ata-original="(.*?)".*?alt="(.*?)"'
# 正则表达式,通配符 .*? 匹配所有,分组匹配
reg = re.compile(reg, re.S)
img_list = re.findall(reg, html)
# 循环输出本页的内容
for i in img_list:
img_url = i[0]
img_title = i[1]
print(img_url, img_title)
# format() 字符串格式化 %s
cursor.execute("insert into imgs(`img_list`,`img_title`) values('{}','{}')".format(img_url, img_title))
print("正在保存 %s" % img_title)
db.commit()
# 调用函数,获取100页的图片
for i in range(1, 100):
print("第{}页".format(i))
get_imglist(i)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。