正則表達式是處理字符串的強大工具,它有自己特定的語法結(jié)構(gòu),有了它,實現(xiàn)字符串的檢索、替換、匹配驗證都不在話下,正則表達式在所有編程里通用,所以不僅僅是python使用。
以下是常用的正則表達式,用的時候參考即可,不需要死記硬背,用得多了自然就熟悉了。
1、python爬蟲最常用組合
死記硬背,估計很難記住,很多人就不想學了。但是只要記住最常用的組合即可。
.*? 是我們在匹配過程中最常使用到的,表示的就是匹配任意字符。
\d+ 匹配任意數(shù)字組合。
上面的 .*? 為什么不直接用 .* 而需要加個 ?,這個涉及到貪婪還是非貪婪匹配。
2、貪婪還是非貪婪匹配
貪婪匹配:就是我們的第一段代碼,一個數(shù)一個數(shù)都要去匹配,會盡可能多地去匹配內(nèi)容。
非貪婪匹配:會盡量少的匹配符合條件的內(nèi)容 也就是說,一旦發(fā)現(xiàn)匹配符合要求,立馬就匹配成功,而不會繼續(xù)匹配下去。
例子:
aacbacbc 用 a.*b 貪婪匹配的內(nèi)容是:aacbacbaacbacbc 用 a.*?b 非貪婪匹配的內(nèi)容是:aacb
Python語言中的re模塊擁有全部的正則表達式功能。
1、re.match函數(shù)
函數(shù)語法:
re.match(pattern, string, flags=0)pattern: 模式字符串 string:要匹配的字符串 flags:可選參數(shù),比如re.I 不區(qū)分大小寫
匹配成功re.match方法返回一個匹配的對象,否則返回None。
示例:
import reprint(re.match('ywbj', 'ywbj.cc')) # 在起始位置匹配print(re.match('ywbj', 'ywbj.cc').span()) # 在起始位置匹配print(re.match('ywbj', 'www.ywbj.cc')) # 不在起始位置匹配
執(zhí)行結(jié)果:
<re.Match object; span=(0, 4), match='ywbj'> (0, 4) 3 None
從例子中我們可以看出,re.match()方法返回一個匹配的對象,而不是匹配的內(nèi)容。
通過調(diào)用span()可以獲得匹配結(jié)果的位置。
而如果從起始位置開始沒有匹配成功,即便其他部分包含需要匹配的內(nèi)容,re.match()也會返回None。
2、分組捕獲
以上可以看到返回的是匹配的對象,不是匹配的內(nèi)容。
需要獲取匹配的內(nèi)容,我們可以使用group(num) 或 groups() 匹配對象函數(shù)來獲取匹配表達式。
一般一個小括號括起來就是一個捕獲組。我們可以使用group()來提取每組匹配到的字符串。
示例:
import recontent = 'I have 100 dogs and cats'res = re.match('^I.*?(\d+)(.*?)and(.*?)$',content)print(res.group())print(res.groups())print(res.group(1))print(res.group(2))print(res.group(3))
執(zhí)行結(jié)果:
I have 100 dogs and cats ('100', ' dogs ', ' cats') 100 dogs cats
以上成功通過group捕獲需要的詞組和內(nèi)容。
3、re.search()函數(shù)
re.match只匹配字符串的開始,如果字符串開始不符合正則表達式,則匹配失敗,函數(shù)返回None;而re.search匹配整個字符串,直到找到一個匹配。
示例:
import recontent = 'I have 100 dogs and 200 cats'res = re.search('\d+',content)print(res.group())
執(zhí)行結(jié)果:
100
以上,如果用re.match則無法匹配,因為正則表達式不符合字符串規(guī)范,會報錯。
而用re.search,直接匹配整個字符串。找到第一個符合 \d+ 的字符串100。
注:僅僅是匹配第一個符合的,所以只有100,后面的200不會匹配。
4、re.findall()函數(shù)
re.search可以直接匹配找到符合正則的字符串,但是僅僅是**第一個**符合的。
如果需要匹配全部的符合的,則用到re.findall()函數(shù)。
re.findall()在字符串中找到正則表達式所匹配的所有子串,并返回一個列表,如果有多個匹配模式,則返回元組列表,如果沒有找到匹配的,則返回空列表。
示例:
import recontent = 'I have 100 dogs and 200 cats'res = re.findall('\d+',content)print(res)
執(zhí)行結(jié)果:
['100', '200']
由于返回的是返回一個列表或元組,所以也不需要group來捕獲。如果需要一個一個捕獲,用res[0] 或res[1]來一個一個顯示捕獲的值。
5:re.sub()函數(shù)
檢索和替換,Python 的 re 模塊提供了re.sub用于替換字符串中的匹配項。
語法:
re.sub(pattern, repl, string, count=0, flags=0)參數(shù):pattern : 正則中的模式字符串。repl : 替換的字符串,也可為一個函數(shù)。string : 要被查找替換的原始字符串。count : 模式匹配后替換的最大次數(shù),默認 0 表示替換所有的匹配。
示例:
import recontent = 'I have 100 dogs and 200 cats'res = re.sub('\d+','300',content)print(res)
執(zhí)行結(jié)果:
I have 300 dogs and 300 cats
6:re.compile()函數(shù)
這個主要就是把我們的匹配符封裝一下,這個也是很常用的一個函數(shù)。
表達式:
re.compile(pattern[, flags])
參數(shù):
pattern : 一個字符串形式的正則表達式
flags : 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體參數(shù)為:
示例:
import recontent = 'I have 100 dogs and cats'res = re.match('^I.*?(\d+)(.*?)and(.*?)$',content,re.S)print(res.group())print(res.groups())
以上,我們可以先用re.compile把正則表達式封裝,便于以后反復使用。封裝后如下:
import recontent = 'I have 100 dogs and cats'pattern = re.compile('^I.*?(\d+)(.*?)and(.*?)$',re.S)res = re.match(pattern,content)print(res.group())print(res.groups())
執(zhí)行結(jié)果相同:
I have 100 dogs and cats('100', ' dogs ', ' cats')
7、其他函數(shù)
re.finditer,和 findall 類似,在字符串中找到正則表達式所匹配的所有子串,并把它們作為一個迭代器返回。
import re it = re.finditer(r'\d+','12a32bc43jf3') for match in it: print (match.group() )
輸出結(jié)果:
1232433
re.split,split 方法按照能夠匹配的子串將字符串分割后返回列表。
示例:
import repattern = re.compile(r'[A-Z]+')m = pattern.split('abcDefgHijkLmnoPqrs')print(m)
執(zhí)行結(jié)果
['abc', 'efg', 'ijk', 'mno', 'qrs']
其他函數(shù),具體用法可參考官方文檔:
https://docs.python.org/zh-cn/3/library/re.html
1、正則表達式分析
慣例,同樣以豆瓣電影排行做分析,鏈接為:
https://movie.douban.com/top250
查看源代碼,簡單點,我們提取4個信息即可。分別是排名序號、電影名稱、導演演員、年份類型。
分析,所有信息在li標簽中,所以首尾用在 li 標簽中找就行了。需要的提取的信息,用()分組捕獲就行。
1:第一個信息,排名序號,排名序號1在class></em之間。em是唯一的,比較簡單。
<li.*?(\d+)</em.*?li>
2:第二個信息,電影名稱,有很多地方,但是我們選個唯一明顯不重復的,alt= 后面是標簽里唯一的,整個標簽里面就一個信息,所以這里比較簡單,這時正則表達式為。
<li.*?(\d+)</em.*?alt='(.*?)'.*?li>
3:第三個信息,導演演員,在<p 標簽里面,br>標簽上方,這時正則表達式為。
<li.*?(\d+)</em.*?alt='(.*?)'.*?<p.*?'>(.*?)<br>.*?li>
4:第四個信息,年份類型,同理br>標簽后方,</p結(jié)束,這個也很明顯,最后的正則表達式為。
<li.*?(\d+)</em.*?alt='(.*?)'.*?<p.*?'>(.*?)<br>(.*?)</p.*?li>
2、頁面信息提取
正則表達式完成后,基本完成一大半了。現(xiàn)在簡單提取相關(guān)信息。
這里用到兩個庫,re庫正則表達式,和requests庫抓取頁面
import requestsimport reheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/65.0.3325.162 Safari/537.36'}url='https://movie.douban.com/top250'req=requests.get(url,headers=headers)html=req.text#print(req.text)pattern= re.compile('<li.*?(\d+)</em.*?alt='(.*?)'.*?<p.*?'>(.*?)<br>(.*?)</p.*?li>',re.S)items=re.findall(pattern,html)print(items)
執(zhí)行結(jié)果,返回一個列表,還有\(zhòng)n空格等,比較亂,類似如下:
[('1', '肖申克的救贖', '\n 導演: 弗蘭克·德拉邦特 Frank Darabont 主演: 蒂姆·羅賓斯 Tim Robbins ', '\n 1994 / 美國 / 犯罪 劇情\n '), ('2', '霸王別姬', '\n 導演: 陳凱歌 Kaige Chen 主演: 張國榮 Leslie Cheung ', '\n 1993 / 中國大陸 中國香港 / 劇情 愛情 同性\n '), ('3', '阿甘正傳', '\n 導演: 羅伯特·澤米吉斯 Robert Zemeckis 主演: 湯姆·漢克斯 Tom Hanks ', '\n 1994 / 美國 / 劇情 愛情\n '), ('4', '泰坦尼克號', '\n ...
3、列表去\n空格
為了整潔,我們先抓取列表第一個數(shù)據(jù) 即 items[0] ,并去掉\n和空格。
列表去除\n,需要用到 strip() 函數(shù), strip() 方法用于移除字符串頭尾指定的字符(默認為空格或換行符)或字符序列。但是該函數(shù)只支持字符串,不支持列表。所以需要用循環(huán)的方式。如下:
new=[x.strip() for x in items[0] if x.strip()!='']
最后更改后的代碼為:
import requestsimport reheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/65.0.3325.162 Safari/537.36'}url='https://movie.douban.com/top250'req=requests.get(url,headers=headers)html=req.text#print(req.text)pattern= re.compile('<li.*?(\d+)</em.*?alt='(.*?)'.*?<p.*?'>(.*?)<br>(.*?)</p.*?li>',re.S)items=re.findall(pattern,html)#print(items[0])new=[x.strip() for x in items[0] if x.strip()!='']print(new)
執(zhí)行結(jié)果這時候整潔多了:
['1', '肖申克的救贖', '導演: 弗蘭克·德拉邦特 Frank Darabont 主演: 蒂姆·羅賓斯 Tim Robbins', '1994 / 美國 / 犯罪 劇情']
4、循環(huán)提前整個頁面信息
以上只有第一個信息,整個頁面有很多信息,需要全部提取,并排列整齊,所以需要再次用到for循環(huán),一列一列的顯示出來。
最終代碼為:
import requestsimport reheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/65.0.3325.162 Safari/537.36'}url='https://movie.douban.com/top250'req=requests.get(url,headers=headers)html=req.text#print(req.text)#pattern= re.compile('<li.*?(\d+)</em.*?alt='(.*?)'.*?</li>',re.S)pattern= re.compile('<li.*?(\d+)</em.*?alt='(.*?)'.*?<p.*?'>(.*?)<br>(.*?)</p.*?li>',re.S)items=re.findall(pattern,html)#print(items[0])for item in items: new=[x.strip() for x in item if x.strip()!=''] print(new)
執(zhí)行結(jié)果:
['1', '肖申克的救贖', '導演: 弗蘭克·德拉邦特 Frank Darabont 主演: 蒂姆·羅賓斯 Tim Robbins /...', '1994 / 美國 / 犯罪 劇情']['2', '霸王別姬', '導演: 陳凱歌 Kaige Chen 主演: 張國榮 Leslie Cheung / 張豐毅 Fengyi Zha...', '1993 / 中國大陸 中國香港 / 劇情 愛情 同性']['3', '阿甘正傳', '導演: 羅伯特·澤米吉斯 Robert Zemeckis 主演: 湯姆·漢克斯 Tom Hanks / ...', '1994 / 美國 / 劇情 愛情']['4', '泰坦尼克號', '導演: 詹姆斯·卡梅隆 James Cameron 主演: 萊昂納多·迪卡普里奧 Leonardo...', '1997 / 美國 墨西哥 澳大利亞 加拿大 / 劇情 愛情 災(zāi)難']['5', '這個殺手不太冷', '導演: 呂克·貝松 Luc Besson 主演: 讓·雷諾 Jean Reno / 娜塔莉·波特曼 ...', '1994 / 法國 美國 / 劇情 動作 犯罪']['6', '美麗人生', '導演: 羅伯托·貝尼尼 Roberto Benigni 主演: 羅伯托·貝尼尼 Roberto Beni...', '1997 / 意大利 / 劇情 喜劇 愛情 戰(zhàn)爭']['7', '千與千尋', '導演: 宮崎駿 Hayao Miyazaki 主演: 柊瑠美 Rumi H?ragi / 入野自由 Miy...', '2001 / 日本 / 劇情 動畫 奇幻']['8', '辛德勒的名單', '導演: 史蒂文·斯皮爾伯格 Steven Spielberg 主演: 連姆·尼森 Liam Neeson...', '1993 / 美國 / 劇情 歷史 戰(zhàn)爭']['9', '盜夢空間', '導演: 克里斯托弗·諾蘭 Christopher Nolan 主演: 萊昂納多·迪卡普里奧 Le...', '2010 / 美國 英國 / 劇情 科幻 懸疑 冒險']['10', '星際穿越', '導演: 克里斯托弗·諾蘭 Christopher Nolan 主演: 馬修·麥康納 Matthew Mc...', '2014 / 美國 英國 加拿大 / 劇情 科幻 冒險']['11', '忠犬八公的故事', '導演: 萊塞·霍爾斯道姆 Lasse Hallstr?m 主演: 理查·基爾 Richard Ger...', '2009 / 美國 英國 / 劇情']['12', '楚門的世界', '導演: 彼得·威爾 Peter Weir 主演: 金·凱瑞 Jim Carrey / 勞拉·琳妮 Lau...', '1998 / 美國 / 劇情 科幻']['13', '海上鋼琴師', '導演: 朱塞佩·托納多雷 Giuseppe Tornatore 主演: 蒂姆·羅斯 Tim Roth / ...', '1998 / 意大利 / 劇情 音樂']['14', '三傻大鬧寶萊塢', '導演: 拉庫馬·希拉尼 Rajkumar Hirani 主演: 阿米爾·汗 Aamir Khan / 卡...', '2009 / 印度 / 劇情 喜劇 愛情 歌舞']['15', '機器人總動員', '導演: 安德魯·斯坦頓 Andrew Stanton 主演: 本·貝爾特 Ben Burtt / 艾麗...', '2008 / 美國 / 科幻 動畫 冒險']['16', '放牛班的春天', '導演: 克里斯托夫·巴拉蒂 Christophe Barratier 主演: 讓-巴蒂斯特·莫尼...', '2004 / 法國 瑞士 德國 / 劇情 喜劇 音樂']['17', '無間道', '導演: 劉偉強 / 麥兆輝 主演: 劉德華 / 梁朝偉 / 黃秋生', '2002 / 中國香港 / 劇情 犯罪 驚悚']['18', '瘋狂動物城', '導演: 拜倫·霍華德 Byron Howard / 瑞奇·摩爾 Rich Moore 主演: 金妮弗·...', '2016 / 美國 / 喜劇 動畫 冒險']['19', '大話西游之大圣娶親', '導演: 劉鎮(zhèn)偉 Jeffrey Lau 主演: 周星馳 Stephen Chow / 吳孟達 Man Tat Ng...', '1995 / 中國香港 中國大陸 / 喜劇 愛情 奇幻 古裝']['20', '熔爐', '導演: 黃東赫 Dong-hyuk Hwang 主演: 孔侑 Yoo Gong / 鄭有美 Yu-mi Jung /...', '2011 / 韓國 / 劇情']['21', '控方證人', '導演: 比利·懷爾德 Billy Wilder 主演: 泰隆·鮑華 Tyrone Power / 瑪琳·...', '1957 / 美國 / 劇情 犯罪 懸疑']['22', '教父', '導演: 弗朗西斯·福特·科波拉 Francis Ford Coppola 主演: 馬龍·白蘭度 M...', '1972 / 美國 / 劇情 犯罪']['23', '當幸福來敲門', '導演: 加布里爾·穆奇諾 Gabriele Muccino 主演: 威爾·史密斯 Will Smith ...', '2006 / 美國 / 劇情 傳記 家庭']['24', '觸不可及', '導演: 奧利維·那卡什 Olivier Nakache / 艾力克·托蘭達 Eric Toledano 主...', '2011 / 法國 / 劇情 喜劇']['25', '怦然心動', '導演: 羅伯·萊納 Rob Reiner 主演: 瑪?shù)铝铡た_爾 Madeline Carroll / 卡...', '2010 / 美國 / 劇情 喜劇 愛情']
到這里,單個頁面的信息就已經(jīng)提取完成了,也算是完成了爬蟲的一小步了。