代码拉取完成,页面将自动刷新
同步操作将从 耿直的小爬虫/Python爬虫 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
import requests
from pyquery import PyQuery as pq
import pymongo
import time
clien=pymongo.MongoClient(host='改成自己的')
db=clien.To_the_guest
coll=db.Housing_datas
headers={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
def Housing_informations(url):
sponse=requests.get(url,headers=headers).text
doc=pq(sponse)
information=doc('.houseInfo-detail-list').items()
for i in information:
data={
'所属小区':i.find('.houseInfo-content a').text(),
'具体位置':i.find('.loc-text').text()
}
return data
#爬取房屋具体信息的URL
def Crawl_home_URL(page):
URL='https://guilin.anjuke.com/sale/p{}-rd1/'.format(page)
Sponse=requests.get(URL,headers=headers).text
#print(Sponse)
doc=pq(Sponse)
link=doc('.list-item').items()
for i in link:
The_URL_of_the_building=i.find('a').attr('href')
#价钱
The_price=i.find('.price-det').text()
#房屋图片
House_pictures=pq(i.find('.item-img').html()).find('img').attr('src')
#多少钱一平米
How_much_is_a_square_meter=i.find('.unit-price').text()
#房屋信息
Housing_information=i.find('.details-item').text()
Housing_data={
'房屋信息':Housing_information,
'房屋价钱':The_price,
'多少钱一平米':How_much_is_a_square_meter,
'房屋图片':House_pictures,
'具体的房屋信息':The_URL_of_the_building
}
ddata=Housing_informations(The_URL_of_the_building)
z = Housing_data.copy()
z.update(ddata)
coll.insert_one(z)
print(z)
for i in range(1,51):
Crawl_home_URL(i)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。