master

分支 (2)

管理

管理

master

dev_tangling

ctim_newspaper_spider
/
WanXiRBao.py

# -*-coding:utf-8 -*-
# @Time: 2023/2/20 0020 下午 14:33
# @Author: Cwoner
# @Organization: CTIM
# @Software: PyCharm


import requests
from lxml import etree
import hashlib
from setting import SAVEPATH
import os
import re

from tools.serverAPI import upload_file

class WanXiRBao():
    def __init__(self,ccdate,id=''):#20230101
        self.url = f'http://wxrb.luaninfo.com/wx/{ccdate}/Page01CJ.htm'
        self.ccdate = ccdate
        self.id = id
        self.name = '皖西日报'
        print('初始化：',self.name, self.url)
        self.mid = hashlib.md5((self.name+'_baozi').encode()).hexdigest()
        if not os.path.isdir(SAVEPATH+self.mid):
            os.mkdir(SAVEPATH+self.mid)

    def index(self):
        headers = {
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
            "Accept-Language": "zh-CN,zh;q=0.9",
            "Cache-Control": "max-age=0",
            "Connection": "keep-alive",
            "Referer": "http://epaper.hljnews.cn/hljrb/pc/layout/202302/20/",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36"
        }
        response = requests.get(self.url, headers=headers, verify=False)
        if response.status_code == 200:
            text = response.content.decode('gbk')
            html = etree.HTML(text)
            bans = html.xpath('//a[@class="overlink"]')
            i = 0
            for banItem in bans:
                title = banItem.xpath('string(.)')
                if not title:
                    title = f'未知标题{i}'
                title = re.sub('\s','',title)
                print(self.name,title)
                page_url = f'http://wxrb.luaninfo.com/wx/{self.ccdate}/' + banItem.xpath('./@href')[0]
                pdf_url = self.get_pdf_url(page_url)
                tid = hashlib.md5((self.name+title+self.ccdate).encode()).hexdigest()
                file = tid + '.pdf'
                if pdf_url:
                    pdf_url = pdf_url.replace('../../../','')
                    print(pdf_url)
                    self.__download(file,pdf_url,title,tid)
                i += 1


    def get_pdf_url(self,url):
        headers = {
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
            "Accept-Language": "zh-CN,zh;q=0.9",
            "Cache-Control": "max-age=0",
            "Connection": "keep-alive",
            "Referer": "http://epaper.hljnews.cn/hljrb/pc/layout/202302/20/",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36"
        }
        response = requests.get(url, headers=headers, verify=False)
        if response.status_code == 200:
            text = response.text
            html = etree.HTML(text)
            pdf_url = html.xpath('//div[@class="shagnxiaban"]/span/a/@href')[0].replace('..','')
            pdf_url = 'http://wxrb.luaninfo.com/wx' + pdf_url
            return pdf_url
        else:
            return None


    def __download(self,file,url,title,tid):
        headers = {
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
            "Accept-Language": "zh-CN,zh;q=0.9",
            "Cache-Control": "max-age=0",
            "Connection": "keep-alive",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36"
        }
        response = requests.get(url, headers=headers, verify=False)
        if response.status_code == 200:
            path = SAVEPATH + self.mid + '/' + self.ccdate + '/'
            if not os.path.isdir(path):
                os.mkdir(path)
            with open(path + file,'wb',) as f:
                f.write(response.content)
            data = {
                'entity_id': self.mid,
                'title': title,
                'tid': tid,
                'file_name': file,
                'origin_url': url,
                'ndate': self.ccdate[:4] + '-' + self.ccdate[4:6] + '-' + self.ccdate[6:]
            }
            upload_file(data, response.content)


    def run(self):
        self.index()


if __name__ == '__main__':
    ccdate = '20230414'
    hr = WanXiRBao(ccdate)
    hr.run()