免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
第一個(gè)爬蟲——斗魚分類下的人氣排行
from urllib import requestfrom io import BytesIOimport gzipimport reclass Spider():	def __init__(self):		self.url='https://www.douyu.com/g_LOL'		self.root_pattern='<div class="DyListCover-info"><span class="DyListCover-hot is-template"><svg><use xlink:href="#icon-hot_8a57f0b"></use></svg>([\s\S]*?)</h2></div>'		self.number_pattern='([\s\S]*?)</span>'		self.name_pattern='</use></svg>([\s\S]*?)'	def __fetch_content(self):		headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}		page1=request.Request(self.url,headers=headers)		r=request.urlopen(page1)#加入瀏覽器信息		htmls=r.read()#獲取字節(jié)碼		buff=BytesIO(htmls)		f=gzip.GzipFile(fileobj=buff)		htmls=f.read().decode('utf-8')#數(shù)據(jù)被壓縮過,我們要對(duì)數(shù)據(jù)進(jìn)行處理。		return htmls	def __analysis(self,htmls):		root_htmls=re.findall(self.root_pattern,htmls)		anchors=[]		for origin_html in root_htmls:			new_html=origin_html.replace('</span><h2 class="DyListCover-user is-template"><svg><use xlink:href="#icon-user_c95acf8"></use></svg>','')			anchors.append(new_html)		print(anchors)	def go(self):		htmls=self.__fetch_content()		self.__analysis(htmls)		spider=Spider()spider.go()

以前覺得爬蟲很難,完成了一個(gè)小目標(biāo)之后,覺得有點(diǎn)小放松。

但內(nèi)心卻似乎感覺很朦朧。

只是冰山一角而已。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
爬蟲案例1(后續(xù))
利用scrapy爬取豆瓣250
Python大佬批量爬取中國院士信息,告訴你哪個(gè)地方人杰地靈
Python爬蟲:Scrapy中間件Middleware和Pipeline
網(wǎng)絡(luò)爬蟲之Scrapy實(shí)戰(zhàn)二:爬取多個(gè)網(wǎng)頁
Scrapy爬蟲實(shí)踐之搜索并獲取前程無憂職位信息(基礎(chǔ)篇)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服