Python爬虫基础学习,从一个小案例来学习xpath匹配方法

学习目的是为了实践,而实践又可以加深我们的学习效率,今天给大家带来了lxml库的xpath匹配方法的实例!教程大家网上搜索有很多,我们只看实用功能 , 当然,如果您已经很熟练了,可以跳过不看的!
开始前准备
版本:python3.6
工具:pycharm、lxml库(pip安装即可)
内容:新浪新闻搜索关键字抓取相关信息并保存本地txt文档
思路
我们先打开网页url,看下它的页面数据是怎么加载的
搜索世界杯,然后在开发者工具中先抓包看看是否为json数据,结果发现并没有 , 那么直接打开源代码看看呢
源代码往下翻,到1200行左右看内容,眼熟不?所有的新闻都在源代码中存在,那么就简单了!直接可以抓取相关内容
开始写代码吧
先介绍一下xpath的语法,其实各种教程都有写,我们只需要记住几点
ok,不啰嗦了 , 直接上代码了
可以看到几行代码直接获取了所有新闻的标题 , 简单说一下那几行代码
1、url , 有人可能已经注意到了,我在代码中用的url和网页实际的有些不同,那是因为url中?后面的内容html页面分享到qq空间代码,如果&后面的参数没有结果的话,是可以省略的,还有可以省略的就是类似时间戳等等,大家可以尝试下!
2、html = requests.get(url)常规的获取网页源代码,用的是requests库,因为这个网站没有反爬,所以很容易就取到了
3、data = https://www.30zx.com/etree.HTML(html.text)这里就是上文所说,解析源码的语法 , 而且lxml解析源码还一个好处就是,如果源码中存在非闭合的标签或者不是很规范的标签,它会自动补全 , 非常实用!
4、重点来了:infos = data.xpath(‘//div[@class=”r-info r-info2″]/h2/a’)这行代码是获取源代码中带有”r-info r-info2″值的class属性html页面分享到qq空间代码,并且它在div标签中,然后在标签内容中查找h2标签及h2标签下的a标签,我们来看看网页中的位置
这里需要注意的是,尽量选择用class属性去定位是比较好的,因为它的属性一般都是功能唯一的,比较方便!大家可以先复制属性值然后去源代码中搜索,如果唯一或者所在的标签全部是需要的内容,那么就可以使用,如果不是 , 请往上级查找!
5、因为刚才定位到的标签是列表形式,所以用for循环来遍历取出,这里重点讲解下string(.)的用法:
上面的标签内容是非常方便的 , 标题就在a标签下的文本中,但是依然存在一种情况,比如标题中含有我们是搜索的关键字的时候 , 它就不是只存在a标签下了,比如下图
短短一行,存在2个标签 , a和a标签下的span标签,那么这种情况下 , 我们就需要使用string(.)来匹配了,它的主要功能是取出所属标签下所有文本内容!所以我们的语法就成了info.xpath(‘string(.)’,然后用print显示就达到了效果!
好了,语法大概说到这,我们将所有的标题和url、简介全部抓取下来,然后写到txt文档,篇幅有限就抓5页的内容吧!
ok,内容全部写到文件了,当然了,还可以继续往下写,比如进入每一个新闻页面,抓取所有文本内容,也是一样的写法,大家有兴趣的可以自行完善哦!
最后
推荐一个我个人的学习方法,那就是多看多听多练!多看看大神的教程、博客、经验总结等等,多听听大神的思路分析,最重要的是多练,代码一定要多写!代码一定要多写!代码一定要多写!这样才能更快的学习进步?。〈蠹壹佑?
【Python爬虫基础学习,从一个小案例来学习xpath匹配方法】本文到此结束,希望对大家有所帮助!

猜你喜欢