国产精品色,www.日韩av.com

Python編程開發(fā)爬蟲抓取www.tmd86.com所有妹子圖片

2019.07.17

懂點(diǎn)編程的館友都知道Python完善的網(wǎng)絡(luò)接口非常適合開發(fā)爬蟲和AI編程。

今天分享自動(dòng)爬取妹子圖片的代碼，不到100行真的超級(jí)簡(jiǎn)單、快捷。

代碼開始：

import requests
from lxml import etree
import os
def a ():
url = 'http://www.tmd86.com/xinggan/'
response = requests.get(url)
# with open('tmd86.com.txt' , 'wb' ) as f :
# f.write(response.content)
html_ele = etree.HTML(response.text)
# li_ele_list = html_ele.xpath('//ul[@id="pins"]/li/a/@href')
# print(li_ele_list)
max_list = html_ele.xpath('//nav[@class="navigation pagination"]/div/a/text()')[3]
# print(max_list)
for i in range(1,int(max_list)+1):
z_url = 'http://www.tmd86.com/xinggan/list_{}.html/'.format(i)
# print(z_url)
response = requests.get(z_url)
html_ele = etree.HTML(response.text)/
li_ele_list = html_ele.xpath('//ul[@id="pins"]/li')
for href_ele in li_ele_list:
href_url = href_ele.xpath('./a/@href')[0]
print(href_url)
name = href_ele.xpath('./span/a/text()')[0]
print(name)
b(href_url, name)
# break
def b(href_url,name):
if not os.path.exists('tmd86.com/'+name):
os.makedirs('tmd86.com/'+name)
headers = {
'Referer': str(href_url),
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36',
}
# print(headers)
response = requests.get(href_url,headers=headers)
html_ele = etree.HTML(response.text)
# print(html_ele)
xq_max_list = html_ele.xpath('//div[@class="pagenavi"]/a')[-2]
# print(xq_max_list)
max_list = xq_max_list.xpath('./span/text()')[0]
# print(max_list)
for i in range(1,int(max_list)):
xq_url = str(href_url)+'/'+str(i)
print(xq_url)
response = requests.get(xq_url,headers = headers)
html_ele = etree.HTML(response.text)
src_page = html_ele.xpath('//div[@class="main-image"]/p/a/img/@src')
src_page = src_page[0]
print(src_page)
tname = src_page.split('/')[-1]
print(tname)
response = requests.get(src_page, headers=headers)
with open( 'tmd86.com/'+name+'/'+tname,'wb' ) as f:
f.write(response.content)
if __name__ == '__main__':
a()

代碼結(jié)束，效率很高 so easy

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

一起學(xué)爬蟲（Python） — 06

小白學(xué) Python 爬蟲（16）：urllib 實(shí)戰(zhàn)之爬取妹子圖

一篇文章教會(huì)你利用Python網(wǎng)絡(luò)爬蟲成為斗圖達(dá)人

使用Xpath定位元素（一）

R語(yǔ)言網(wǎng)絡(luò)爬蟲經(jīng)驗(yàn)

在一個(gè)JS文件中引用另一個(gè)JS文件

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版