日韩毛片基地,91国内精品线免费播放

這是一篇詳細(xì)介紹 Python 爬蟲(chóng)入門的教程，從實(shí)戰(zhàn)出發(fā)，適合初學(xué)者。讀者只需在閱讀過(guò)程緊跟文章思路，理清相應(yīng)的實(shí)現(xiàn)代碼，30 分鐘即可學(xué)會(huì)編寫(xiě)簡(jiǎn)單的 Python 爬蟲(chóng)。

這篇 Python 爬蟲(chóng)教程主要講解以下 5 部分內(nèi)容：

了解網(wǎng)頁(yè)；
使用 requests 庫(kù)抓取網(wǎng)站數(shù)據(jù)；
使用 Beautiful Soup 解析網(wǎng)頁(yè)；
清洗和組織數(shù)據(jù)；
爬蟲(chóng)攻防戰(zhàn)；

了解網(wǎng)頁(yè)

以中國(guó)旅游網(wǎng)首頁(yè)（http://www.cntour.cn/）為例，抓取中國(guó)旅游網(wǎng)首頁(yè)首條信息（標(biāo)題和鏈接），數(shù)據(jù)以明文的形式出面在源碼中。在中國(guó)旅游網(wǎng)首頁(yè)，按快捷鍵【Ctrl+U】打開(kāi)源碼頁(yè)面，如圖 1 所示。

圖 1 中國(guó)旅游網(wǎng)首頁(yè)源碼

認(rèn)識(shí)網(wǎng)頁(yè)結(jié)構(gòu)

網(wǎng)頁(yè)一般由三部分組成，分別是 HTML（超文本標(biāo)記語(yǔ)言）、CSS（層疊樣式表）和 JScript（活動(dòng)腳本語(yǔ)言）。

HTML

HTML 是整個(gè)網(wǎng)頁(yè)的結(jié)構(gòu)，相當(dāng)于整個(gè)網(wǎng)站的框架。帶“＜”、“＞”符號(hào)的都是屬于 HTML 的標(biāo)簽，并且標(biāo)簽都是成對(duì)出現(xiàn)的。

常見(jiàn)的標(biāo)簽如下：

<html>..</html> 表示標(biāo)記中間的元素是網(wǎng)頁(yè)
<body>..</body> 表示用戶可見(jiàn)的內(nèi)容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示圖片
<h1>..</h1>表示標(biāo)題
<a href="">..</a>表示超鏈接

CSS

CSS 表示樣式，圖 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一個(gè) CSS，在 CSS 中定義了外觀。

JScript

JScript 表示功能。交互的內(nèi)容和各種特效都在 JScript 中，JScript 描述了網(wǎng)站中的各種功能。

如果用人體來(lái)比喻，HTML 是人的骨架，并且定義了人的嘴巴、眼睛、耳朵等要長(zhǎng)在哪里。CSS 是人的外觀細(xì)節(jié)，如嘴巴長(zhǎng)什么樣子，眼睛是雙眼皮還是單眼皮，是大眼睛還是小眼睛，皮膚是黑色的還是白色的等。JScript 表示人的技能，例如跳舞、唱歌或者演奏樂(lè)器等。

寫(xiě)一個(gè)簡(jiǎn)單的 HTML

通過(guò)編寫(xiě)和修改 HTML，可以更好地理解 HTML。首先打開(kāi)一個(gè)記事本，然后輸入下面的內(nèi)容：

<html>
<head>
    <title> Python 3 爬蟲(chóng)與數(shù)據(jù)清洗入門與實(shí)戰(zhàn)</title>
</head>
<body>
    <div>
        <p>Python 3爬蟲(chóng)與數(shù)據(jù)清洗入門與實(shí)戰(zhàn)</p>
    </div>
    <div>
        <ul>
            <li><a href="http://c.biancheng.net">爬蟲(chóng)</a></li>
            <li>數(shù)據(jù)清洗</li>
        </ul>
    </div>
</body>

輸入代碼后，保存記事本，然后修改文件名和后綴名為"HTML.html"；

運(yùn)行該文件后的效果，如圖 2 所示。

圖 2

這段代碼只是用到了 HTML，讀者可以自行修改代碼中的中文，然后觀察其變化。

關(guān)于爬蟲(chóng)的合法性

幾乎每一個(gè)網(wǎng)站都有一個(gè)名為 robots.txt 的文檔，當(dāng)然也有部分網(wǎng)站沒(méi)有設(shè)定 robots.txt。對(duì)于沒(méi)有設(shè)定 robots.txt 的網(wǎng)站可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取沒(méi)有口令加密的數(shù)據(jù)，也就是該網(wǎng)站所有頁(yè)面數(shù)據(jù)都可以爬取。如果網(wǎng)站有 robots.txt 文檔，就要判斷是否有禁止訪客獲取的數(shù)據(jù)。

以淘寶網(wǎng)為例，在瀏覽器中訪問(wèn) https://www.taobao.com/robots.txt，如圖 3 所示。

圖 3 淘寶網(wǎng)的robots.txt文件內(nèi)容

淘寶網(wǎng)允許部分爬蟲(chóng)訪問(wèn)它的部分路徑，而對(duì)于沒(méi)有得到允許的用戶，則全部禁止爬取，代碼如下：

User-Agent:*
Disallow:/

這一句代碼的意思是除前面指定的爬蟲(chóng)外，不允許其他爬蟲(chóng)爬取任何數(shù)據(jù)。

使用 requests 庫(kù)請(qǐng)求網(wǎng)站

安裝 requests 庫(kù)

首先在 PyCharm 中安裝 requests 庫(kù)，為此打開(kāi) PyCharm，單擊“File”（文件）菜單，選擇“Setting for New Projects...”命令，如圖 4 所示。

圖 4

選擇“Project Interpreter”（項(xiàng)目編譯器）命令，確認(rèn)當(dāng)前選擇的編譯器，然后單擊右上角的加號(hào)，如圖 5 所示。

圖 5

在搜索框輸入：requests（注意，一定要輸入完整，不然容易出錯(cuò)），然后單擊左下角的“Install Package”（安裝庫(kù)）按鈕。如圖 6 所示：

圖 6

安裝完成后，會(huì)在 Install Package 上顯示“Package‘requests’ installed successfully”（庫(kù)的請(qǐng)求已成功安裝），如圖 7 所示；如果安裝不成功將會(huì)顯示提示信息。

圖 7 安裝成功

爬蟲(chóng)的基本原理

網(wǎng)頁(yè)請(qǐng)求的過(guò)程分為兩個(gè)環(huán)節(jié)：

Request （請(qǐng)求）：每一個(gè)展示在用戶面前的網(wǎng)頁(yè)都必須經(jīng)過(guò)這一步，也就是向服務(wù)器發(fā)送訪問(wèn)請(qǐng)求。
Response（響應(yīng)）：服務(wù)器在接收到用戶的請(qǐng)求后，會(huì)驗(yàn)證請(qǐng)求的有效性，然后向用戶（客戶端）發(fā)送響應(yīng)的內(nèi)容，客戶端接收服務(wù)器響應(yīng)的內(nèi)容，將內(nèi)容展示出來(lái)，就是我們所熟悉的網(wǎng)頁(yè)請(qǐng)求，如圖 8 所示。

圖 8 Response相應(yīng)

網(wǎng)頁(yè)請(qǐng)求的方式也分為兩種：

GET：最常見(jiàn)的方式，一般用于獲取或者查詢資源信息，也是大多數(shù)網(wǎng)站使用的方式，響應(yīng)速度快。
POST：相比 GET 方式，多了以表單形式上傳參數(shù)的功能，因此除查詢信息外，還可以修改信息。

所以，在寫(xiě)爬蟲(chóng)前要先確定向誰(shuí)發(fā)送請(qǐng)求，用什么方式發(fā)送。

使用 GET 方式抓取數(shù)據(jù)

復(fù)制任意一條首頁(yè)首條新聞的標(biāo)題，在源碼頁(yè)面按【Ctrl+F】組合鍵調(diào)出搜索框，將標(biāo)題粘貼在搜索框中，然后按【Enter】鍵。

如圖 8 所示，標(biāo)題可以在源碼中搜索到，請(qǐng)求對(duì)象是www.cntour.cn，請(qǐng)求方式是GET（所有在源碼中的數(shù)據(jù)請(qǐng)求方式都是GET），如圖 9 所示。

圖 9（點(diǎn)此查看高清大圖）

確定好請(qǐng)求對(duì)象和方式后，在 PyCharm 中輸入以下代碼：

import requests        #導(dǎo)入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)        #Get方式獲取網(wǎng)頁(yè)數(shù)據(jù)
print(strhtml.text)

運(yùn)行結(jié)果如圖 10 所示：

圖 10 運(yùn)行結(jié)果效果圖（點(diǎn)此查看高清大圖）

加載庫(kù)使用的語(yǔ)句是 import+庫(kù)的名字。在上述過(guò)程中，加載 requests 庫(kù)的語(yǔ)句是：import requests。

用 GET 方式獲取數(shù)據(jù)需要調(diào)用 requests 庫(kù)中的 get 方法，使用方法是在 requests 后輸入英文點(diǎn)號(hào)，如下所示：

requests.get

將獲取到的數(shù)據(jù)存到 strhtml 變量中，代碼如下：

strhtml = request.get(url)

這個(gè)時(shí)候 strhtml 是一個(gè) URL 對(duì)象，它代表整個(gè)網(wǎng)頁(yè)，但此時(shí)只需要網(wǎng)頁(yè)中的源碼，下面的語(yǔ)句表示網(wǎng)頁(yè)源碼：

strhtml.text

使用 POST 方式抓取數(shù)據(jù)

首先輸入有道翻譯的網(wǎng)址：http://fanyi.youdao.com/，進(jìn)入有道翻譯頁(yè)面。

按快捷鍵 F12，進(jìn)入開(kāi)發(fā)者模式，單擊 Network，此時(shí)內(nèi)容為空，如圖 11 所示：

圖 11

在有道翻譯中輸入“我愛(ài)中國(guó)”，單擊“翻譯”按鈕，如圖 12 所示：

圖 12

在開(kāi)發(fā)者模式中，依次單擊“Network”按鈕和“XHR”按鈕，找到翻譯數(shù)據(jù)，如圖 13 所示：

圖 13

單擊 Headers，發(fā)現(xiàn)請(qǐng)求數(shù)據(jù)的方式為 POST。如圖 14 所示：

圖 14

找到數(shù)據(jù)所在之處并且明確請(qǐng)求方式之后，接下來(lái)開(kāi)始撰寫(xiě)爬蟲(chóng)。

首先，將 Headers 中的 URL 復(fù)制出來(lái)，并賦值給 url，代碼如下：

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的請(qǐng)求獲取數(shù)據(jù)的方式不同于 GET，POST 請(qǐng)求數(shù)據(jù)必須構(gòu)建請(qǐng)求頭才可以。

Form Data 中的請(qǐng)求參數(shù)如圖 15 所示：

圖 15

將其復(fù)制并構(gòu)建一個(gè)新字典：

From_data={'i':'我愛(ài)中國(guó)','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}

接下來(lái)使用 requests.post 方法請(qǐng)求表單數(shù)據(jù)，代碼如下：

import requests #導(dǎo)入requests包
response = requests.post(url,data=payload)

將字符串格式的數(shù)據(jù)轉(zhuǎn)換成 JSON 格式數(shù)據(jù)，并根據(jù)數(shù)據(jù)結(jié)構(gòu)，提取數(shù)據(jù)，并將翻譯結(jié)果打印出來(lái)，代碼如下：

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

使用 requests.post 方法抓取有道翻譯結(jié)果的完整代碼如下：

import requests        #導(dǎo)入requests包
import json
def get_translate_date(word=None):
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
#請(qǐng)求表單數(shù)據(jù)
response = requests.post(url,data=From_data)
#將Json格式字符串轉(zhuǎn)字典
content = json.loads(response.text)
print(content)
#打印翻譯后的數(shù)據(jù)
#print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
get_translate_date('我愛(ài)中國(guó)')

使用 Beautiful Soup 解析網(wǎng)頁(yè)

通過(guò) requests 庫(kù)已經(jīng)可以抓到網(wǎng)頁(yè)源碼，接下來(lái)要從源碼中找到并提取數(shù)據(jù)。Beautiful Soup 是 python 的一個(gè)庫(kù)，其最主要的功能是從網(wǎng)頁(yè)中抓取數(shù)據(jù)。Beautiful Soup 目前已經(jīng)被移植到 bs4 庫(kù)中，也就是說(shuō)在導(dǎo)入 Beautiful Soup 時(shí)需要先安裝 bs4 庫(kù)。

安裝 bs4 庫(kù)的方式如圖 16 所示:

圖 16

安裝好 bs4 庫(kù)以后，還需安裝 lxml 庫(kù)。如果我們不安裝 lxml 庫(kù)，就會(huì)使用 Python 默認(rèn)的解析器。盡管 Beautiful Soup 既支持 Python 標(biāo)準(zhǔn)庫(kù)中的 HTML 解析器又支持一些第三方解析器，但是 lxml 庫(kù)具有功能更加強(qiáng)大、速度更快的特點(diǎn)，因此筆者推薦安裝 lxml 庫(kù)。

安裝 Python 第三方庫(kù)后，輸入下面的代碼，即可開(kāi)啟 Beautiful Soup 之旅：

import requests        #導(dǎo)入requests包
from bs4 import    BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

代碼運(yùn)行結(jié)果如圖 17 所示。

圖 17（點(diǎn)此查看高清大圖）

Beautiful Soup 庫(kù)能夠輕松解析網(wǎng)頁(yè)信息，它被集成在 bs4 庫(kù)中，需要時(shí)可以從 bs4 庫(kù)中調(diào)用。其表達(dá)語(yǔ)句如下：

from bs4 import BeautifulSoup

首先，HTML 文檔將被轉(zhuǎn)換成 Unicode 編碼格式，然后 Beautiful Soup 選擇最合適的解析器來(lái)解析這段文檔，此處指定 lxml 解析器進(jìn)行解析。解析后便將復(fù)雜的 HTML 文檔轉(zhuǎn)換成樹(shù)形結(jié)構(gòu)，并且每個(gè)節(jié)點(diǎn)都是 Python 對(duì)象。這里將解析后的文檔存儲(chǔ)到新建的變量 soup 中，代碼如下：

soup=BeautifulSoup(strhtml.text,'lxml')

接下來(lái)用 select（選擇器）定位數(shù)據(jù)，定位數(shù)據(jù)時(shí)需要使用瀏覽器的開(kāi)發(fā)者模式，將鼠標(biāo)光標(biāo)停留在對(duì)應(yīng)的數(shù)據(jù)位置并右擊，然后在快捷菜單中選擇“檢查”命令，如圖 18 所示：

圖 18

隨后在瀏覽器右側(cè)會(huì)彈出開(kāi)發(fā)者界面，右側(cè)高亮的代碼（參見(jiàn)圖 19(b)）對(duì)應(yīng)著左側(cè)高亮的數(shù)據(jù)文本（參見(jiàn)圖 19(a)）。右擊右側(cè)高亮數(shù)據(jù)，在彈出的快捷菜單中選擇“Copy”?“Copy Selector”命令，便可以自動(dòng)復(fù)制路徑。

圖 19 復(fù)制路徑

將路徑粘貼在文檔中，代碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于這條路徑是選中的第一條的路徑，而我們需要獲取所有的頭條新聞，因此將 li：nth-child（1）中冒號(hào)（包含冒號(hào)）后面的部分刪掉，代碼如下：

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用這個(gè)路徑，代碼如下：

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

清洗和組織數(shù)據(jù)

至此，獲得了一段目標(biāo)的 HTML 代碼，但還沒(méi)有把數(shù)據(jù)提取出來(lái)，接下來(lái)在 PyCharm 中輸入以下代碼：

for item in data:
result={
'title':item.get_text(),
'link':item.get('href')
}
print(result)

代碼運(yùn)行結(jié)果如圖 20 所示：

圖 20（點(diǎn)此查看高清大圖）

首先明確要提取的數(shù)據(jù)是標(biāo)題和鏈接，標(biāo)題在＜a＞標(biāo)簽中，提取標(biāo)簽的正文用 get_text() 方法。鏈接在＜a＞標(biāo)簽的 href 屬性中，提取標(biāo)簽中的 href 屬性用 get() 方法，在括號(hào)中指定要提取的屬性數(shù)據(jù)，即 get(＇href＇)。

從圖 20 中可以發(fā)現(xiàn)，文章的鏈接中有一個(gè)數(shù)字 ID。下面用正則表達(dá)式提取這個(gè) ID。需要使用的正則符號(hào)如下:

\d匹配數(shù)字
+匹配前一個(gè)字符1次或多次

在 Python 中調(diào)用正則表達(dá)式時(shí)使用 re 庫(kù)，這個(gè)庫(kù)不用安裝，可以直接調(diào)用。在 PyCharm 中輸入以下代碼:

import re
for item in data:
result={
"title":item.get_text(),
"link":item.get('href'),
'ID':re.findall('\d+',item.get('href'))
}
print(result)

運(yùn)行結(jié)果如圖 21 所示：

圖 21

這里使用 re 庫(kù)的 findall 方法，第一個(gè)參數(shù)表示正則表達(dá)式，第二個(gè)參數(shù)表示要提取的文本。

爬蟲(chóng)攻防戰(zhàn)

爬蟲(chóng)是模擬人的瀏覽訪問(wèn)行為，進(jìn)行數(shù)據(jù)的批量抓取。當(dāng)抓取的數(shù)據(jù)量逐漸增大時(shí)，會(huì)給被訪問(wèn)的服務(wù)器造成很大的壓力，甚至有可能崩潰。換句話就是說(shuō)，服務(wù)器是不喜歡有人抓取自己的數(shù)據(jù)的。那么，網(wǎng)站方面就會(huì)針對(duì)這些爬蟲(chóng)者，采取一些反爬策略。

服務(wù)器第一種識(shí)別爬蟲(chóng)的方式就是通過(guò)檢查連接的 useragent 來(lái)識(shí)別到底是瀏覽器訪問(wèn)，還是代碼訪問(wèn)的。如果是代碼訪問(wèn)的話，訪問(wèn)量增大時(shí)，服務(wù)器會(huì)直接封掉來(lái)訪 IP。

那么應(yīng)對(duì)這種初級(jí)的反爬機(jī)制，我們應(yīng)該采取何種舉措？

還是以前面創(chuàng)建好的爬蟲(chóng)為例。在進(jìn)行訪問(wèn)時(shí)，我們?cè)陂_(kāi)發(fā)者環(huán)境下不僅可以找到 URL、Form Data，還可以在 Request headers 中構(gòu)造瀏覽器的請(qǐng)求頭，封裝自己。服務(wù)器識(shí)別瀏覽器訪問(wèn)的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent，如圖 22 所示。

圖 22

因此，我們只需要構(gòu)造這個(gè)請(qǐng)求頭的參數(shù)。創(chuàng)建請(qǐng)求頭部信息即可，代碼如下：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
response = request.get(url,headers=headers)

寫(xiě)到這里，很多讀者會(huì)認(rèn)為修改 User-Agent 很太簡(jiǎn)單。確實(shí)很簡(jiǎn)單，但是正常人1秒看一個(gè)圖，而個(gè)爬蟲(chóng)1秒可以抓取好多張圖，比如 1 秒抓取上百?gòu)垐D，那么服務(wù)器的壓力必然會(huì)增大。也就是說(shuō)，如果在一個(gè) IP 下批量訪問(wèn)下載圖片，這個(gè)行為不符合正常人類的行為，肯定要被封 IP。

其原理也很簡(jiǎn)單，就是統(tǒng)計(jì)每個(gè)IP的訪問(wèn)頻率，該頻率超過(guò)閾值，就會(huì)返回一個(gè)驗(yàn)證碼，如果真的是用戶訪問(wèn)的話，用戶就會(huì)填寫(xiě)，然后繼續(xù)訪問(wèn)，如果是代碼訪問(wèn)的話，就會(huì)被封 IP。

這個(gè)問(wèn)題的解決方案有兩個(gè)，第一個(gè)就是常用的增設(shè)延時(shí)，每 3 秒鐘抓取一次，代碼如下：

import time
time.sleep(3)

但是，我們寫(xiě)爬蟲(chóng)的目的是為了高效批量抓取數(shù)據(jù)，這里設(shè)置 3 秒鐘抓取一次，效率未免太低。其實(shí)，還有一個(gè)更重要的解決辦法，那就是從本質(zhì)上解決問(wèn)題。

不管如何訪問(wèn)，服務(wù)器的目的就是查出哪些為代碼訪問(wèn)，然后封鎖 IP。解決辦法：為避免被封 IP，在數(shù)據(jù)采集時(shí)經(jīng)常會(huì)使用代理。當(dāng)然，requests 也有相應(yīng)的 proxies 屬性。

首先，構(gòu)建自己的代理 IP 池，將其以字典的形式賦值給 proxies，然后傳輸給 requests，代碼如下：

proxies={
"http":"http://10.10.1.10:3128",
"https":"http://10.10.1.10:1080",
}
response = requests.get(url, proxies=proxies)

擴(kuò)展閱讀

本文僅對(duì) Python 爬蟲(chóng)及實(shí)現(xiàn)過(guò)程做了簡(jiǎn)明扼要地介紹，僅能使初學(xué)者對(duì) python 爬蟲(chóng)有一個(gè)淺顯的認(rèn)識(shí)，并不能讓你完全掌握 Python 爬蟲(chóng)。

如果你想對(duì) Python 爬蟲(chóng)有更深入的了解，我推薦你閱讀：

Python爬蟲(chóng)入門教程
Python3網(wǎng)絡(luò)爬蟲(chóng)入門教程
Python爬蟲(chóng)教程——慕課網(wǎng)

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版