八爪鱼采集系统软件的安装与登录
打开八爪鱼官网(http://www.bazhuayu.com/)下载最新版本,安装到本地计算机,软件需要 NET Framework 3.5 SP1 支持,在安装时软件会自动检测是否安装了 NET Frame work 3.5 SP1,如果没有安装则自动从微软官方在线安装 。安装完成后使用电子邮箱或者手机号码免费注册账户并登录 。
采集目标网站元数据的操作流程,以维普期刊导航数据为例创建数据采集流程
创建采集任务
(1)进入主界面,点击右侧导航条“任务”按钮 , 打开任务界面,点击“新建”下拉菜单,选择“自定义采集” 。
(2)输入采集网址的方法有“手动输入、从文件导入、批量生成和从任务导入”四种,可以先把需要采集的目标网址 URL 保存到一个文件中,再将目标网址 URL 复制粘贴到网址输入框中,注意输入的网址不要超过 1 万条,这里我们选择手动输入即可 , 点击“保存网址” 。内置浏览器会打开网页,右边的操作提示显示“请选择页面元素” , 点击核心期刊导航中的折叠按钮,在操作提示中点击“点击该元素”按钮,网页上的折叠区域打开,同时在流程图中自动添加“点击元素” 。
创建翻页循环
若需要采集的元数据比较多,出现多页分布情况 , 则需要创建翻页循环 。
(1)点击其中一个期刊类别链接,打开网页之后,点击右上角的 流程 按钮,使制作的流程呈现可见状态 。点击网页下方的“下一页”按钮,选择“循环点击单个链接”,翻页循环创建完成 。可在左上角流程中手动点击“循环翻页”和“点击翻页”几次,测试是否正常翻页 。

文章插图
(2)若加载详情页时加载速度很慢,网页一直处于缓冲状态,无法立即执行下一个步骤,可以在“循环翻页”的高级选项里设置“Ajax 加载数据”,超时时间设置为 3-5 秒,点击“确定”按钮,八爪鱼在采集数据时将会等待3-5秒时间,让浏览器加载网页数据,让下一步骤得以顺利执行 。
创建列表循环
若需要采集的元数据常常以表单格式分布在目标页面 , 则需要创建列表循环 。
(1)用鼠标右键点击网页上的“中国科技核心期刊”按钮 , 可以看到自动有红色虚框框住链接按钮网站本地测试,在操作提示中提示“已选中一个链接 , 同时发现34个同类链接,您可以”网站本地测试,点击“选中全部”,操作提示框提示“已选中 34 个链接,以下是列表,您可以:采集以下链接文本、采集以下链接地址、采集以下元素 innerHtml……循环点击每个链接” 。
(2)鼠标点击“循环点击每个链接”按钮,流程图中自动创建一个循环点击元素的流程,对其他元素进行同样的操作,可以一一打开不同深度的页面 。列表循环就创建完成,并进入到第一个循环项的详情页面 。若进入详情页时一直在缓冲状态,无法执行下一个步骤,可以在“点击元素”的高级选项里设置“Ajax 加载数据”,Ajax 超时设置为 3 秒,点击“确定” 。
(3)数据提取,接下来采集具体字段,分别选中页面中需要抓取的元数据,点击“采集该元素的文本”,可以在“配置抓取模版”中修改字段名称 。若需要抓取的元数据占据多行,可以用鼠标点击其所在的位置,点击“操作提示”框中的右下角图标 , 扩大选项范围,直至包括全部正文内容,选择“采集该元素的文本”,修改字段名称,数据提取完毕 。
(4)若网页加载速度非常慢 , 或者要避免访问页面较快出现防采集问题,可在流程各个步骤的高级选项里设置“执行前等待”几秒时间,设置后点击“确定” 。
数据采集及导出
(1)点击左上角的“保存”按钮,点击“开始采集”按钮,弹出对话框中有“启用本地采集、启用云采集、设置定时云采集”三个选项 。选择“启动本地采集”,“启用本地采集”用于测试流程是否正确 , 也用于免费采集数据任务,其它两个选项为收费项目 。
(2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式” , 将采集好的数据导出,这里我们选择 Excel 作为导出格式,保存文件,数据就导出来了 。
【利用八爪鱼网络爬虫技高效采集】本文到此结束,希望对大家有所帮助!
猜你喜欢
- 养鱼小妙招~
- 回答鱼友们的霸气问题,蝴蝶鲤能和斗鱼混养吗?直接喂鱼多好
- 全款买房银行会查来源吗?
- 为什么微软不在中国设OneDrive服务器?
- 微信好友验证,你想过这样写吗?
- 此款木本盆栽花,花量超级多,容易开爆盆,好看又好养,值得入手
- 宁波十大运动中心排行榜:宁波市体育中心上榜,第一是专业道场
- 做抖店一个月,关了三家店,抖音小店,运营分享。#商品卡
- 普及汽车贷款业务基本知识!
