免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP

未登錄

開(kāi)通VIP，暢享免費(fèi)電子書等14項(xiàng)超值服

開(kāi)通VIP

首頁(yè)

好書

留言交流

下載APP

聯(lián)系客服

Python|快速掌握Python爬蟲XPath語(yǔ)法

userphoto

小樣樣樣樣樣樣 >《待分類》

2021.05.01

1.什么是XPath？

xpath是一門在XML和HTML文檔中查找信息的語(yǔ)言，可用來(lái)在XML和HTML文檔中對(duì)元素和屬性進(jìn)行遍歷，XPath 通過(guò)使用路徑表達(dá)式來(lái)選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。這些路徑表達(dá)式和在常規(guī)的電腦文件系統(tǒng)中看到的表達(dá)式非常相似。

2.XPath語(yǔ)法

想要學(xué)好xpath，首先要搞明白html文檔中的節(jié)點(diǎn)。

以上是在網(wǎng)上隨便找的一段html的文本，可以觀察得到，div的標(biāo)簽下是ul標(biāo)簽，而ul標(biāo)簽下是li標(biāo)簽，于是發(fā)現(xiàn)html的標(biāo)簽是一級(jí)一級(jí)如樹狀的。Xpath正是通過(guò)這樣的方式去尋找。以生活中舉例，要確定一個(gè)人的位置，首先確定他在中國(guó)，然后確定他在某個(gè)省份，哪座城市，那個(gè)小區(qū)，最后找到他。

同級(jí)標(biāo)簽可以用li[1],li[2],li[3]的方式獲取

3.lxml庫(kù)

簡(jiǎn)單介紹一下lxml庫(kù)，接下來(lái)會(huì)用到它

lxml是一個(gè)HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML 數(shù)據(jù)。

lxml和正則一樣，也是用C實(shí)現(xiàn)的，是一款高性能的PythonHTML/XML解析器，可以利用之前學(xué)習(xí)的XPath語(yǔ)法，來(lái)快速的定位特定元素以及節(jié)點(diǎn)信息。

4.實(shí)際案例

隨便爬取一個(gè)網(wǎng)站，找到找到網(wǎng)站的html文本，如下圖

要找到title和href，仔細(xì)觀察可以得到路徑分別是//div[@id="resultList"]/div[@class="el"]/p/span/a/@title

//div[@id="resultList"]/div[@class="el"]/p/span/a/@href

運(yùn)行如下：

5.總結(jié)

Xpath，是在爬蟲中常見(jiàn)的提取數(shù)據(jù)的方式之一，相比于正則，它更加簡(jiǎn)單一些，便于操作，xpath的難點(diǎn)在于準(zhǔn)確的確定數(shù)據(jù)所在的位置。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

猜你喜歡

類似文章

python中的爬蟲神器 XPath 介紹

python爬蟲整理| 原來(lái)我曾經(jīng)擁有過(guò)這么多爬蟲啊

python爬蟲系列之 xpath：html解析神器

Python網(wǎng)絡(luò)爬蟲四大選擇器（正則表達(dá)式、BS4、Xpath、CSS）總結(jié)

Python爬蟲之bs4，非常詳細(xì)

python3解析庫(kù)lxml 詳細(xì)用法示例

更多類似文章 >>

生活服務(wù)

聯(lián)系我們

分享收藏導(dǎo)長(zhǎng)圖關(guān)注下載文章

綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)！

如果VIP功能使用有故障，
可點(diǎn)擊這里聯(lián)系客服！

聯(lián)系客服

先別劃走！

送你5元優(yōu)惠券，購(gòu)買VIP限時(shí)立減！

5元

優(yōu)惠券

優(yōu)惠券還有10:00過(guò)期

×