master

分支 (1)

管理

管理

master

my_visualization
/
img.py

import requests
import re
import pymysql

# 连接数据库
db = pymysql.connect(host='127.0.0.1', port=3306, db='img', user='root',
                     passwd='dry2495128088', charset='utf8')
# 创建游标
cursor = db.cursor()


# cursor.execute('select * from imgs')
# print(cursor.fetchall())

# 获取图片列表
def get_imglist(page):
    # 获取斗图网源代码
    html = requests.get('http://www.doutula.com/photo/list/?page={}'.format(page)).text
    """
    data-original="http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1gckv1o674xj20b9079glx.jpg"
    alt="不要聊了。不要聊了。"
    """
    reg = r'ata-original="(.*?)".*?alt="(.*?)"'
    # 正则表达式，通配符 .*? 匹配所有，分组匹配
    reg = re.compile(reg, re.S)
    img_list = re.findall(reg, html)
    # 循环输出本页的内容
    for i in img_list:
        img_url = i[0]
        img_title = i[1]
        print(img_url, img_title)
        # format() 字符串格式化 %s
        cursor.execute("insert into imgs(`img_list`,`img_title`) values('{}','{}')".format(img_url, img_title))
        print("正在保存 %s" % img_title)
        db.commit()


# 调用函数，获取100页的图片
for i in range(1, 100):
    print("第{}页".format(i))
    get_imglist(i)