代码拉取完成,页面将自动刷新
同步操作将从 耿直的小爬虫/Python爬虫 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
import re
import urllib.request as r
def test(url,page):
html = r.urlopen(url).read().decode('utf-8')
# 上演时间
test = re.compile('<p class="releasetime">(.*?)</p>').findall(html)
# 片名
ttest = re.compile('<a href=".*?" title=(".*?")').findall(html)
ttest = set(ttest)
# 主演
tttest = re.compile('<p class="star">(.*?)</p>', re.S).findall(html)
tttest = set(tttest)
p=0
# 主演
for c in tttest:
print(c)
# 片名
for u in ttest:
print('片名:', u)
p += 1
print('一共%s个片名' % p)
# 上演时间
for i in test:
print(i)
print('当前是第%s页'%page)
for yy in range(0,100,10):
url='http://maoyan.com/board/4?offset=%s'%yy
test(url,yy)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。