日韩精品视频免费在线观看,日韩欧美在线观看成人,在线观看免费视频一区

第一個(gè)爬蟲——斗魚分類下的人氣排行

2020.02.29

from urllib import requestfrom io import BytesIOimport gzipimport reclass Spider():	def __init__(self):		self.url='https://www.douyu.com/g_LOL'		self.root_pattern='<div class="DyListCover-info"><span class="DyListCover-hot is-template"><svg><use xlink:href="#icon-hot_8a57f0b"></use></svg>([\s\S]*?)</h2></div>'		self.number_pattern='([\s\S]*?)</span>'		self.name_pattern='</use></svg>([\s\S]*?)'	def __fetch_content(self):		headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}		page1=request.Request(self.url,headers=headers)		r=request.urlopen(page1)#加入瀏覽器信息		htmls=r.read()#獲取字節(jié)碼		buff=BytesIO(htmls)		f=gzip.GzipFile(fileobj=buff)		htmls=f.read().decode('utf-8')#數(shù)據(jù)被壓縮過，我們要對(duì)數(shù)據(jù)進(jìn)行處理。		return htmls	def __analysis(self,htmls):		root_htmls=re.findall(self.root_pattern,htmls)		anchors=[]		for origin_html in root_htmls:			new_html=origin_html.replace('</span><h2 class="DyListCover-user is-template"><svg><use xlink:href="#icon-user_c95acf8"></use></svg>','')			anchors.append(new_html)		print(anchors)	def go(self):		htmls=self.__fetch_content()		self.__analysis(htmls)		spider=Spider()spider.go()

以前覺得爬蟲很難，完成了一個(gè)小目標(biāo)之后，覺得有點(diǎn)小放松。

但內(nèi)心卻似乎感覺很朦朧。

只是冰山一角而已。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

爬蟲案例1（后續(xù)）

利用scrapy爬取豆瓣250

Python大佬批量爬取中國院士信息，告訴你哪個(gè)地方人杰地靈

Python爬蟲：Scrapy中間件Middleware和Pipeline

網(wǎng)絡(luò)爬蟲之Scrapy實(shí)戰(zhàn)二：爬取多個(gè)網(wǎng)頁

Scrapy爬蟲實(shí)踐之搜索并獲取前程無憂職位信息（基礎(chǔ)篇）

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版