Python爬虫日记2:使用lxml解析HTML输出对应值

今天我要做的是爬取凤凰网资讯的一个即时新闻列表的标题和对应链接,很简单的requests与lxml练习,同时使用xpath。贴出网址:http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml

凤凰资讯.png

二、运行环境

  • 系统版本
    Windows10 64位
  • Python版本
    Python3.6 我用的是Anaconda集成版本
  • IDE
    PyCharm 学生可以通过edu邮箱免费使用,不是学生的朋友可以试试社区版。

三、分析

解析HTML常用方式有BeautifulSoup,lxml.html,性能方面lxml要优于BeautifulSoup,BeautifulSoup是基于DOM的,会解析整个DOM树,lxml只会局部遍历。

python3网络请求常用的有自带的urllib,第三方库requests,使用起来requests还是比urllib更简单明了,而且requests有更强的功能。

四、实战

首先导入今天需要的模块requests,lxml.html。

import requests
import lxml.html

然后url是目标网址,html保存着这个网页的文本内容,这时候需用lxml来解析它,这样才能提取我们需要的数据。

url = 'http://news.ifeng.com/listpage/11502/0/1/rtlist.shtml'
html = requests.get(url).text
doc = lxml.html.fromstring(html)

解析完成后,我们首先提取文章的标题,这里使用了xpath来搜索标题所在的标签,对原网址F12 开发者模式打开可以查询标题。
凤凰资讯标题.png

titles = doc.xpath('//div[@class="newsList"]/ul/li/a/text()')
href = doc.xpath('//div[@class="newsList"]/ul/li/a/@href')

这里第一行是将网页中的符合标题的内容都传给titles变量中,第二行是将标题所在的网址全部传给href。

说到这个xpath查询有很多人不太会用,或者觉得很麻烦,不过这里推荐一款xpath查询插件,这样我们查询目标的时候就很容易获取了。这款chrome插件是xpath heper ,安装好之后我们重新打开浏览器按ctrl+shift+x就能调出xpath-helper框了,按shift配合鼠标可以切换查询的目标。

最后一步:将标题和对应的网址结合起来,遍历后输出即可看到结果
i = 0
for content in titles:
results = {
‘标题’:titles[i],
‘链接’:href[i]
}
i += 1
print(results)

凤凰资讯2.png

五、总结

查询标签用BeautifulSoup也挺合适的,这次为了练习一下就使用了lxml 配合xpath。继续努力,给自己加油!ヾ(o◕∀◕)ノヾ