在搜索引擎的開發(fā)中,我們需要對(duì)網(wǎng)頁的Html內(nèi)容進(jìn)行檢索,難免的就需要對(duì)Html進(jìn)行解析。拆分每一個(gè)節(jié)點(diǎn)并且獲取節(jié)點(diǎn)間的內(nèi)容。此文介紹兩種C#解析Html的方法。
C#解析Html的第一種方法:
用System.Net.WebClient下載Web Page存到本地文件或者String中,用正則表達(dá)式來分析。這個(gè)方法可以用在Web Crawler等需要分析很多Web Page的應(yīng)用中。
估計(jì)這也是大家最直接,最容易想到的一個(gè)方法。
轉(zhuǎn)自網(wǎng)上的一個(gè)實(shí)例:所有的href都抽取出來:
一些爬蟲的HTML解析中也是用的類似的方法。
C#解析Html的第二種方法:
利用Winista.Htmlparser.Net 解析Html。這是.NET平臺(tái)下解析Html的開源代碼,網(wǎng)上有源碼下載,百度一下就能搜到,這里就不提供了。并且有英文的幫助文檔。找不到的留下郵箱。
個(gè)人認(rèn)為這是.net平臺(tái)下解析html不錯(cuò)的解決方案,基本上能夠滿足我們對(duì)html的解析工作。
自己做了個(gè)實(shí)例:
運(yùn)行效果:
實(shí)現(xiàn)取來很容易,結(jié)合Winista.Htmlparser源碼很快就可以實(shí)現(xiàn)想要的效果。
小結(jié):
簡(jiǎn)單介紹了兩種C#解析Html的的方法,大家有什么其他好的方法還望指教。
聯(lián)系客服