爬虫编写流程
首先明确爬虫代码编写的流程:先直接打开网页,找到你想要的数据 , 就是走一遍流程 。比如这个项目我要爬取历史某一天所有比赛的赔率数据、每场比赛的比赛结果等 。
那么我就先打开这个网址: 然后点击“竞彩”,再点击“指数” , 跳转到另一个网址:,然后就看到了想要的数据:各公司主队获胜赔率1.61、1.65等 。
到此为止,开始动手通过代码实现这个过程 。
解析“爬虫主程序.py” :(主程序包括四个函数)
## -*- coding: utf-8 -*-ls_url = 'https://live.leisu.com/wanchang?date='#ls历史https://live.leisu.com/wanchang?date=20190606class LiveJiangSpider(scrapy.Spider):name = 'FBP'allowed_domains = ['leisu.com']def start_requests(self):d1='20190606' #历史的比赛request = scrapy.http.FormRequest(ls_url + d1,callback=self.parseLs, meta={'d1': d1}) #历史的比赛# request = scrapy.http.FormRequest(wl_url + d1,callback=self.parseWl, meta={'d1': d1})#未来的比赛yield requestdef parseLs(self,response):d2=response.meta['d1']sel=response.xpathracelist=[e5.split("'") for e5 in sel('//li[@data-status="8"]/@data-id').extract()]for raceid in racelist:#raceid=['2674547'];raceid[0]=2674547item = PeilvItem()sel_div=sel('//li[@data-id='+str(raceid[0])+']/div[@class="find-table layout-grid-tbody hide"]/div[@class="clearfix-row"]')if str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()) == "[]":item['cc']=""else:item['cc']=str(d2) + str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()[0])if "周" in item['cc']:#取竞彩-周一001等plurl='https://live.leisu.com/3in1-'+raceid[0]request = scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})yield request #并非return,yield压队列,parse函数将会被当做一个生成器使用 。scrapy会逐一获取parse方法中生成的结果 , 并没有直接执行parse,循环完成后,再执行parsedef parse(self, response):print('--------------into parse----------------------')item = response.meta['item']pv=response.xpathpl_str = '/td[@class="bd-left"]/div[@class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"]/span[@class="float-left col-3"]/text()'if str(pv('//*[@data-id="5"]'+pl_str).extract())=="[]":item['li'] =''else:item['li']=pv('//*[@data-id="5"]' + pl_str).extract()[0]if str(pv('//*[@data-id="2"]'+pl_str).extract())=="[]":item['b5'] =''else:item['b5']=pv('//*[@data-id="2"]' + pl_str).extract()[0]yield item#程序在取得各个页面的items前,会先处理完之前所有的request队列里的请求,然后再提取items
首先导入我们需要的包:
import datetimeimport sysimport requestsimport scrapyimport timeimport jsonimport scrapy.httpfrom peilv.items import PeilvItemfrom lxml import etree
name = ‘FBP’是定义爬取项目名称,以便通过命令 crawl FBP -o .csv获取数据 。
向发送请求 。(你可以打开这个网址,里边是爬虫程序爬取数据的最外层网站) .http. 方法: 第一个参数是请求的具体网址; 第二个参数是下一步调用的函数; 第三个参数 meta 是向调用函数传递的参数 。
( 同理,不再重复讲解)
主要用于解析次外层网页数据 。这里用 XPath 解析,也是比较容易掌握的解析方式 。网页结构如下:(通过浏览器打开 然后右键点击网页空白处点击“查看网页源代码” , 找到你需要爬取的核心数据部分,这里我要找每场比赛的信息,那么拷贝下来,然后以易于查看的规整方式列出 , 如下:)
函数里的下边代码,用sel代表.xpath,结合上表中 xml 中的元素:获取了比赛场次,存储到item[‘cc’] 。
def parseLs(self,response): sel=response.xpath sel_div=sel('//li[@data-id='+str(raceid[0])+']/div[@class="find-table layout-grid-tbody hide"]/div[@class="clearfix-row"]') if str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()) == "[]":item['cc']="" else:item['cc']=str(d2) + str(sel_div.xpath('span[@class="lab-lottery"]/span[@class="text-jc"]/text()').extract()[0])
此外,还要获取比赛的赔率信息,但并不在当前这个网页,而在更内层的网页中,需要从当前网页跳转 。存储赔率的内层网页为 ,不同场次的比赛只有-后边的数字是变化的,那么程序中只要循环构造对应的数字就好了 。发现这个数字刚好是 data-id 。通过以下代码实现获?。?
racelist=[e5.split("'") for e5 in sel('//li[@data-status="8"]/@data-id').extract()]for raceid in racelist:plurl='https://live.leisu.com/3in1-'+raceid[0]request = scrapy.http.FormRequest(plurl,callback=self.parse,meta={'item':item})yield request

文章插图
在中加入meta,即可将meta传递给 。再提交该网页请求到下一个函数parse 。这里需要注意:parse中既返回item又生成新的 。
平时在parse中 item即可返回item,则生成新的请求 。如果我们将换为yield的话即可既返回item又生成新的 。注意一旦使用了yield , 那么parse方法中就不能有了 。
parse
网页结构如下:(通过浏览器打开 然后右键点击网页空白处点击“查看网页源代码”,拷贝需要赔率的部分到文本文档,换行操作后如下:
...... 1.6203.6005.250 ......通过以下代码获取赔率,首先由上一个函数通过.http.(plurl,=self.parse,meta={‘item’:item})调用到下边的parse方法,传入plurl链接对应的网页内容,同样用.xpath取出td中class为”bd-left”下边div中class为”begin float-left w-bar-100 bd- p-b-8 color-999 m-b-8”再下边span中class为”float-left col-3”的值 。
def parse(self, response):print('--------------into parse----------------------')item = response.meta['item']pv=response.xpathpl_str = '/td[@class="bd-left"]/div[@class="begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8"]/span[@class="float-left col-3"]/text()'if str(pv('//*[@data-id="5"]'+pl_str).extract())=="[]":item['li'] =''else:item['li']=pv('//*[@data-id="5"]' + pl_str).extract()[0]if str(pv('//*[@data-id="2"]'+pl_str).extract())=="[]":item['b5'] =''else:item['b5']=pv('//*[@data-id="2"]' + pl_str).extract()[0]yield item#程序在取得各个页面的items前,会先处理完之前所有的request队列里的请求,然后再提取items再通过//*判断所有data-id为5下边的是否为空,若不为空则将其赋值给item[‘li’]网页不能查看源代码,其他的item赋值同理 。
这里重点讲一下parse方法工作机制:因为使用的yield,而不是 。parse函数将会被当做一个生成器使用 。
会逐一获取parse方法中生成的结果 , 如果是则加入爬取队列网页不能查看源代码,如果是item类型则使用处理,其他类型则返回错误信息 。
取到第一部分的不会立马就去发送这个,只是把这个放到队列里,然后接着从生成器里获?。?
取尽第一部分的,然后再获取第二部分的item,取到item了,就会放到对应的里处理;
parse()方法作为回调函数()赋值给了,指定parse()方法来处理这些请求 .(url, =self.parse);
对象经过调度,执行生成 .http.()的响应对象,并送回给parse()方法,直到调度器中没有(递归的思路);
程序在取得各个页面的items前,会先处理完之前所有的队列里的请求,然后再提取items 。
以上过程引擎和调度器将负责到底 。
总结
以上我们实现了一个爬虫实战项目,通过分析网页结构 , 借助框架获取数据,为今后的数据分析做准备 。
【Python Scrapy 项目实战】本文到此结束 , 希望对大家有所帮助!
猜你喜欢
- 店铺销量高就可以了吗?还有一个物流也是至关重要的你知道吗?
- 电信师傅让我帮忙看下程控电话交换机的外线电话怎么不响铃
- 通信历史连载7-电话
- 请问大神帮我推荐一台笔记本电脑,能玩大型游戏的,像古墓丽影之类的大型游戏
- 你想要的免中介费退押金的房屋转租攻略干货来了!
- 20%!房贷首付比例降了|除首套房,二套房贷首付调整为30%
- 图 8万元买的“三菱速跑”难道就不能极限越野吗?
- 70后的女人都面临更年期了,这是一道分水岭,如何熬过、越过?
- 你们电脑都在用哪个邮箱客户端?
