免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
推薦一個網(wǎng)頁抓取小工具Web Scraper

想分享的這款工具是個Chrome下的插件,叫:Web Scraper,是一款可以從網(wǎng)頁中提取數(shù)據(jù)的Chrome網(wǎng)頁數(shù)據(jù)提取插件。在某種意義上,你也可以把它當做一個爬蟲工具。

也是因為最近在梳理36氪文章一些標簽,打算看下別家和創(chuàng)投相關的網(wǎng)站有什么標準可以參考,于是發(fā)現(xiàn)一家名叫:“烯牛數(shù)據(jù)”的網(wǎng)站,其提供的一套“行業(yè)體系”標簽很有參考價值,就說想把頁面上的數(shù)據(jù)抓下來,整合到我們自己的標簽庫中,如下圖紅字部分:

如果是規(guī)則展示的數(shù)據(jù),還能用鼠標選擇后復制粘貼,但這種嵌入頁面中的,還是要想些辦法。這時想起之前安裝過Web Scraper,就用下試試,還挺好用的,一下子提高了收集效率。也給大家安利下~

Web Scraper這個Chrome插件,我是一年前在三節(jié)課的公開課上看到的,號稱不用懂編程也能實現(xiàn)爬蟲抓取的黑科技,不過貌似三節(jié)課官網(wǎng)上找不到了,大家可以百度:“三節(jié)課 爬蟲”,還能搜到,名字叫“人人都能學會的數(shù)據(jù)爬蟲課”,但好像還要交100塊錢。我是覺得這東西看看網(wǎng)上的文章也能學會,比如我這篇~

簡單來說,Web Scraper是個基于Chrome的網(wǎng)頁元素解析器,可以通過可視化點選操作,實現(xiàn)某個定制區(qū)域的數(shù)據(jù)/元素提取。同時它也提供定時自動提取功能,活用這個功能就可以當做一套簡單的爬蟲工具來用了。

這里再順便解釋下網(wǎng)頁提取器抓取和真正代碼編寫爬蟲的區(qū)別,用網(wǎng)頁提取器自動提取頁面數(shù)據(jù)的過程,有點類似模擬人工點擊的機器人,它是先讓你定義好頁面上要抓哪個元素,以及要抓哪些頁面,然后讓機器去替人來操作;而如果你用Python寫爬蟲,更多是利用網(wǎng)頁請求指令先把整個網(wǎng)頁下載下來,再用代碼去解析HTML頁面元素,提取其中你想要的內容,再不斷循環(huán)。相比而言,用代碼會更靈活,但解析成本也會更高,如果是簡單的頁面內容提取,我也是建議用Web Scraper就夠了。

關于Web Scraper的具體安裝過程,以及完整功能的使用方法,我不會在今天的文章里展開說。第一是我只使用了我需要的部分,第二也是因為市面上講Web Scraper的教程很豐富,大家完全可以自行查找。

這里只以一個實操過程,給大家簡單介紹下我是怎么用的。

第一步 創(chuàng)建Sitemap

打開Chrome瀏覽器,按F12調出開發(fā)者工具,Web Scraper在最后一個頁簽,點擊后,再選擇“Create Sitemap”菜單,點擊“Create Sitemap”選項。

首先輸入你想抓取的網(wǎng)站URL,以及你自定義的這條抓取任務的名字,比如我取的name是:xiniulevel,URL是:http://www.xiniudata.com/industry/level

第二步 創(chuàng)建抓取節(jié)點

我想抓取的是一級標簽和二級標簽,所以先點進去剛才創(chuàng)建的Sitemap,再點擊“Add new selector”,進入抓取節(jié)點選擇器配置頁,在頁面上點擊“Select”按鈕,這時你會看到出現(xiàn)了一個浮層

這時當你鼠標移入網(wǎng)頁時,會自動把某個你鼠標懸停的位置綠色高亮。這時你可以先單擊一個你想選擇的區(qū)塊,會發(fā)現(xiàn)區(qū)塊變成了紅色,想把同一層級的區(qū)塊全選中,則可以繼續(xù)點擊相鄰的下一個區(qū)塊,這時工具會默認選中所有同級的區(qū)塊,如下圖:

我們會發(fā)現(xiàn)下方懸浮窗的文本輸入框自動填充了區(qū)塊的XPATH路徑,接著點擊“Done selecting!”結束選擇,懸浮框消失,選中的XPATH自動填充到下方Selector一行。另外務必選中“Multiple”,以聲明你要選多個區(qū)塊。最后點擊Save selector按鈕結束。

第三步 獲取元素值

完成Selector的創(chuàng)建后,回到上一頁,你會發(fā)現(xiàn)多了一行Selector表格,接下來就可以直接點擊Action中的Data preview,查看所有想獲取的元素值。

上圖所示部分,是我已經(jīng)添加了一級標簽和二級標簽兩個Selector的情況,點擊Data preview的彈窗內容其實就是我想要的,直接復制到EXCEL就行了,也不用什么太復雜的自動化爬取處理。

以上就是對Web Scraper使用過程的簡單介紹。當然我的用法還不是完全高效,因為每次想獲取二級標簽時還要先手動切換一級標簽,再執(zhí)行抓取指令,應該還有更好的做法,不過對我而言已經(jīng)足夠了。這篇文章主要是想和你普及下這款工具,不算教程,更多功能還是要根據(jù)你的需求自行摸索~

怎么樣,是否有幫到你?

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
網(wǎng)頁爬蟲:零基礎用爬蟲爬取網(wǎng)頁內容
超酷!我不寫一行代碼,爬取GitHub上幾萬的Python庫(教程分享)
Web Scraper 高級用法——Web Scraper 抓取多條內容 | 簡易數(shù)據(jù)分析 07
零代碼爬蟲神器 -- Web Scraper
Chrome擴展推薦:雙擊關閉標簽頁
Python爬蟲入門教程:豆瓣Top電影爬取
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服