您的位置:起点软件下载网络软件网络辅助八爪鱼采集器 破解版 v7.5.0.9101 绿色免费版

八爪鱼采集器 破解版 v7.5.0.9101 绿色免费版八爪鱼采集器 破解版 v7.5.0.9101 绿色免费版

软件大小:56.2M

软件语言:简体中文

用户评分:

软件类型:绿色软件

授权方式:免费软件

软件官网:http://www.cncrk.com/

更新时间:2018/9/14

软件分类:网络辅助

运行环境:Win All

平台检测 无插件 360通过 腾讯通过 金山通过 瑞星通过
上网辅助
八爪鱼采集器 破解版是一款完全免费的多功能网页信息采集工具,主要用于抓取网络上的内容。八爪鱼采集器拥有高效强大的数据采集和整理功能,能够针对不同的网页采用不同的配置,快速突破各大网站防采集策略,同时内置了强大的数据格式化引擎,支持自定义采集采集功能,可以快速过滤网站各类元素,获得有效内容。

八爪鱼采集器下载

【基本介绍】

八爪鱼网页数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集、编辑、规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本、提高效率。涉及到政府、高校、企业、银行、电商、科研、汽车、房产、媒体等众多行业及领域。
八爪鱼作为一款通用的网页数据采集器,其并不针对于某一网站某一行业的数据进行采集,而是网页上所能看到或网页源码中有的文本信息几乎都能采集,市面上98%的网页都可以用八爪鱼进行采集。
使用本地采集(单机采集),除了可以实现绝大多数网页数据的爬取,还可以采集过程中对数据进行初步的清洗。如使用程序自带的正则工具,利用正则表达式将数据格式化。在数据源头即可实现去除空格、筛选日期等多种操作。其次八爪鱼还有提供分支判断功能,可对网页中信息进行是与否的逻辑判断,实现用户筛选需求。
云采集除具有本地采集(单机采集)的全部功能之外,还可以实现定时采集,实时监控,数据自动去重并入库,增量采集,自动识别验证码,API接口多元化导出数据以及修改参数。同时利用云端多节点并发运行,采集速度将远超于本地采集(单机采集),多IP在任务启动时自动切换还可避免网站的IP封锁,实现采集数据的最大化。

【运行原理】

八爪鱼网页数据采集客户端使用的开发语言是C#,运行在Windows系统。客户端主程序负责任务配置及管理,任务的云采集控制,云集成数据的管理(导出,清理,发布)。数据导出程序负责数据的导出Excel,SQL,TXT,MYSQL等,支持一次导出百万级别数据。本地采集程序负责根据工作流对网页进行打开,抓取,采集数据,通过正则表达式与Xpath原理,快速获取网页数据。
整个采集流程基于Firefox内核浏览器,通过模拟人的思维操作方式(如打开网页,点击网页中的某个按钮),对网页内容进行全自动提取。系统完全可视化流程操作,无需专业知识,轻松实现数据采集。通过对网页源码中各个数据XPath路径的精确定位,八爪鱼可以批量化精准采集出用户所需数据。

【软件亮点】

舆情监控
全方位监测公开信息,第一时间获取舆论趋势
市场分析
获取用户真实行为数据,全面把握顾客真实需求
产品研发
风险预测
高效信息采集和数据清洗,及时应对系统风险

【软件特点】

简易采集
简易采集模式内置上百种主流网站数据源,如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据。

智能防封
八爪鱼采集可根据不同网站,自定义配置组合浏览器标识(UA),全自动代理IP,浏览器Cookie,验证码破解等功能,实现突破绝大多数网站的防采集策略。

云采集
由5000多台云服务器支撑的云采集,7*24小时不间断运行,可实现定时采集,无需人员值守,灵活契合业务场景,帮你提升采集效率,保障数据时效性。

API接口
通过八爪鱼API,可以轻松获取八爪鱼任务信息和采集到的数据,灵活调度任务,比如远程控制任务启动与停止,高效实现数据采集与归档。基于强大的API体系,还可以无缝对接公司内部各类管理平台,实现各类业务自动化。

自定义采集
针对不同用户的采集需求,八爪鱼可提供自动生成爬虫的自定义模式,可精准批量识别各种网页元素,还有翻页、下拉、ajax、页面滚动、条件判断等多种功能,支持不同网页结构的复杂网站采集,满足多种采集应用场景。

便捷定时功能
简单几步点击设置,即可实现采集任务的定时控制,不论是单次采集的定时设置,还是预设某一天或是每周每月的定时采集,都可以同时对多个任务自由进行设置,根据需要对选择时间进行多重组合,灵活调配自己的采集任务。

全自动数据格式化
八爪鱼内置了强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,采集过程中全自动处理,无需人工干预,即可得到所需格式数据。

无限层级采集
很多主流新闻、电商类的网站,里面包含一级商品列表页,也包含二级商品详情页,还有三级评论详情页面;不论网站有多少层级,八爪鱼都可以不限制层级的采集数据,满足各类业务采集需求。

支持网站登录后采集
八爪鱼内置了采集登录模块,只需配置目标网站的账号密码,即可用该模块采集到登录后的数据;同时八爪鱼还具备采集Cookie自定义功能,首次登录以后,可以自动记住cookie,免去多次输入密码的繁琐,支持更多网站的采集。

【安装教程】

(1)下载八爪鱼安装包,在保存路径找到对应的压缩文件。

(2)安装八爪鱼
A.解压下载好的八爪鱼的安装包(一定要解压!)如果没有解压缩软件,还需要再下载解压缩软件,解压后将得到下图文件夹。

B.请分别查看“安装前必读”和“配置规则必读”,该文件提供了极其重要的信息,对您操作八爪鱼至关重要。
C.点击OctopusSetup.exe文件进行安装(建议使用管理员权限运行)

(3)八爪鱼登录
打开八爪鱼采集器软件,输入用户名和密码,点击登录即可。
登录后进入主界面,主界面介绍如下:

【采集流程】

在八爪鱼采集原理中我们讲过,八爪鱼是模拟人浏览网页的行为进行数据采集的,比如打开网页、点击某个按钮等。在八爪鱼采集器客户端中,我们可以自行配置这些流程。
八爪鱼数据采集,一般有以下几个基本流程,其中打开网页、提取数据是不可或缺的,其他流程可根根据自身需求进行增删。

1、打开网页
本步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。即使用URL循环打开网页。

2、点击元素

本步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮、点击翻页,点击跳转到其他页面等等。

3、输入文本

本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。 将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键字。

4、循环

本步骤用来重复执行一系列步骤,根据配置不同,支持多种循环方式。
1)循环单个元素:循环点击页面中的某个按钮;
2)循环固定元素列表:循环处理网页中固定数目的元素;
3)循环不固定元素列表:循环处理网页中不固定数目的元素;
4)循环URL列表:循环打开一批指定网址的网页,然后执行同样的处理步骤;
5)循环文本列表:循环输入一批指定文字,然后执行同样的处理步骤。

5、提取数据
本步骤根据自身需求提取网页中自己所需要的数据字段,要哪个就点击选择哪个。除从网页中提取数据,同时还可添加特殊字段:当前时间、固定字段、空字段、当前网页网址等。
一个完整的采集任务必需包含“提取数据”,且提取数据中至少要有一个字段。如果没有,当启动采集时程序会报错,提示“没有配置采集字段”。

另外,八爪鱼的规则市场有很多已经做好的规则,可直接下载后导入八爪鱼使用。

a、如何下载采集规则
八爪鱼采集器内置了规则市场,由用户分享配置好的采集规则,互帮互助。 使用规则市场下载规则,可以不用花费时间研究和配置采集流程。很多网站的采集规则都可以在规则市场中搜索到,下载运行即可采集。
下载规则有以下三种方式:打开八爪鱼官网(http://www.bazhuayu.com)->爬虫规则;打开八爪鱼采集器客户端->市场->爬虫规则;直接在浏览器中访问数多多官网(http://www.dataduoduo.com)->爬虫规则。

b、如何使用规则
一般从规则市场下载的规则是.otd为后缀的规则文件,4.*以后的版本中会自动导入下载的规则文件。以前的版本中需要手动导入下载的规则文件。将下载好的规则存储到相应位置。然后打开八爪鱼客户端->任务->导入->选择任务。从邮件或者QQ,微信接收到的规则同理。

【使用教程】

单网页信息采集教程
本教程给大家演示如何采集单个网页上的数据,适用于搜集某一页的数据。仅有“打开网页”和“提取数据”两步,是最为简单的流程配置,但在所有流程均不可缺少。目的是让大家了解如何创建自定义采集任务,掌握最基础的自定义任务配置方法。

步骤1 打开网页
登陆八爪鱼7.0采集器→点击左上角的“+”图标→选择自定义采集(也可以点击主页中自定义采集下方的“立即使用”),进入到任务配置页面。然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。

网页打开后,我们可以对任务名进行修改,不修改则默认以网页标题命名。在运行采集前可随时修改任务名。


步骤2 提取数据
在网页中,直接选中需要提取的数据即可,窗口右上角会有对应的提示。本教程中我们以提取新闻标题、日期、正文为例,请各位灵活运用,各取所需。

提取数据设置好,即可点击保存并开始运行采集。但是此时的字段名为系统自动生成的。为了更加符合自己需求,可点击右上角“流程”进入流程页面对字段名进行修改。首先选中要修改中字段名,此时下拉框中会有备选字段名,可直接选取使用。如果没自己想要的,就输入新的字段名。修改好字段名后,点击“确定”进行保存。保存后即可运行采集。

所有版本均可运行本地采集,旗舰版及以上版本可运行云采集和设置定时云采集,但运行云采集前先运行本地采集进行测试。任务运行完采集后,可选Excel、CSV、HTML等格式进行导出或导入数据库。数据导出后可点击链接进入数据存放文件夹内查看数据,文件默认以任务名命名。


分页列表详细信息采集
步骤1 登陆八爪鱼7.0采集器→点击新建任务→自定义采集,进入到任务配置页面: 然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。

我们在八爪鱼里需要循环点击下图浏览器中电影名称,再提取详情页面中的数据信息,所以我们需要先做一个翻页循环再做一个循环点击电影名称提取数据的列表。

步骤2 我们先做一个循环翻页流程,这个步骤就会在采集的时候模拟人工点击翻页,鼠标点击在下图浏览器页面中的“下一页”按钮,在弹出的对话框中选择“循环点击下一页”;这样翻页循环就做好了。


下面对电影名称创建循环点击
我们要把每个电影的链接打开,进入详情页面,然后在采集详情里面的数据。结合步骤2中建立的翻页循环,我们就能自动点击下一页翻页,对每一页的电影标题列表都能逐个打开进入详情页,从而完成对所有电影详情数据的点击并最终达到提取所有数据的效果。

步骤3 鼠标点击下图中第一个电影标题“教父:第二部”链接,这时候和右边的操作提示框中就会出现一些选项,我们选择“选中全部”选项,然后再选择“循环点击每个链接”选项即可,这样循环点击电影标题到详情页面的步骤就做好了。
小贴士 在7.0以前的八爪鱼版本中,会弹出一个选项框让用户选择,7.0中为了让用户在操作的时候还能看到网页,这个提示框就挪到了右边,并且简化了操作过程。而且在点击第一个电影标题“教父:第二部”链接之后,浏览器中这个链接就被选中了,在网页中用一个绿色框标注出来,同时八爪鱼的智能算法也自动检测到了还有其他几个相似元素,也就是本例中另外两个电影标题链接,我们选择“选中全部”选项,就可以自动选中全部标题链接,这时候八爪鱼提示我们已经选中了这一组元素,然后我们要逐个点击链接进去详情页采集,所以接下来对选择的“循环点击每个链接”选项,这时候八爪鱼就会自动模拟人的操作,执行刚才设定的“循环点击每个链接”的动作,以刚选中的电影标题列表的第一个为样本页面,点击详情链接并跳转到详情页面中去了,后续步骤中我们就可以提取数据了。
接下来就是最终提取数据的步骤了,结合前面的步骤,最终完成对所有电影详情数据的采集

步骤4 鼠标点击页面中要提取的电影标题字段,这里标题字段就被选中了并通过红色框表示,然后在弹出的提示框中选择“采集该元素的文本”表明要采集的是页面中的文本数据,
然后同样的方式选择点击浏览器中的其他字段,再选择“采集该元素的文本”


步骤5 这样提取完毕之后我们可以点一下流程按钮,然后修改字段名称。这里的字段名称相当于表头,便于采集时区分每个字段类别。 在下面界面中修改字段名称,修改完成之后,点击“确定”保存


步骤6 点击“保存并启动”,再在弹出的对话框中选择“启动本地采集”
系统会在本地电脑上开启一个采集任务并采集数据,任务采集完毕之后会弹出一个采集结束的提示, 接下来选择导出数据,这里以选择导出excel2007为例,然后点击确定. 之后选择文件存放路径,再点保存即可。这样就获取了我们最终需要的数据了。

下面是数据示例

【常见问题】

八爪鱼采集器能采集别人的后台数据吗?
八爪鱼采集器无法采集没有访问权限的后台数据。因为后台数据的采集,需要有后台访问权限,八爪鱼是正规的采集软件不会提供此类侵权服务。
但八爪鱼可以对自己的网页后台数据进行采集。

安装时出现读取文"OctopusSetup.msi"时出错

在未解压下载包的情况下点击“setup.exe”进行安装就会出现这个错误;
解决方法:
1.请确保先将zip文件解压到一个文件夹;
2.安装时,文件夹应该包含3个文件。(安装必读,setup.exe和setup.msi)

windows installer有问题,安装八爪鱼采集器时,提示“需要的DLL文件缺失”

原因:电脑系统的版本过低,无法支持八爪鱼采集器的安装。
解决方法:电脑系统更换为Windows7系统或者更高版本的系统,就可以重新安装八爪鱼采集器

在Win8中,在安装msi安装包的时候常常会出现代码为2502、2503的错误。

其实这种错误是由于安装权限不足造成的,可以这种msi的安装包不像其他exe的安装程序,在安装包上点击“右键”之后没有“以管理员身份运行”的选项。
方法一
把鼠标放到Win8屏幕的最左下角,等待Win8 Metro界面的缩略图出现后点击鼠标右键,在弹出的菜单中选择“命令提示符(管理员)”

打开的“命令提示符(管理员)”

找到自己将要安装的程序路径,比如:我要安装的这个程序在D盘的Others文件夹下

点击路径那一栏,把路径复制出来,然后再复制程序名称

在“命令提示符(管理员)”中输入 msiexec /package 你将要安装的程序的完整路径及程序名 (注意空格),比如:我是要安装D盘Others文件夹下的msxml

然后按回车键,安装程序就会自动启动,此时,你在安装的过程中就不会碰到2502、2503的错误了

方法二

1.打开任务管理器,可以通过右键点击桌面上的任务栏打开任务管理器,也可以通过同时按下键盘上的Ctrl+Alt+Delete键打开任务管理器。
打开任务管理器后,切换到“详细信息”选项卡,找到explore.exe这个进程,如下图所示:

2.我们可以通过右键结束explore.exe这个进程,也可以通过选中它后,点击下面的结束任务进行结束。 接下来,点击任务管理器上面的“文件” - “运行新任务”,如下图:
在里面输入“explorer.exe”,然后勾选“以系统管理权限创建此任务”,之后点击“确定”即可。接下来就可以正常安装或卸载你的软件了。

tips:其实整个过程其实就是把explorer.exe(资源管理器)重启了一下,有的同学说直接在任务管理器里右键点击explorer.exe进行重启不行吗?
答案是不行的!因为这样重启后,依然没有系统管理权限,只有我们用上面提供的方法重启explorer后才具有系统管理权限的。

【更新日志】

主要体验改进
【自定义模式】新增触发器功能,可根据特定条件进行采集,点击查看详细教程
【自定义模式】新增浏览器模式,方便配置滑动验证码等网站采集规则
【自定义模式】提供八爪鱼6内核模式,有效解决部分网站在八爪鱼7上打不开的问题
【自定义模式】支持采集网址数量,从2万扩展到100万级别
【自定义模式】网址输入支持文本导入,支持txt、xls、xlsx、csv格式
【自定义模式】网址输入支持批量生成网址参数,包括数字变化、字母变化、时间变化、自定义列表四种生成方式
【自定义模式】支持任务跟随采集,A采集的网址作为B任务的输入源进行关联采集,拓宽使用场景
【自定义模式】提高创建列表速度
【本地采集】提升采集性能
【简易模式】增加搜索功能,可搜索模板
【简易模式】目前可按模板名和模板上线时间进行排序
【简易模式】增加「热门」分类
Bug修复
修复部分定时任务出错问题
修复本地采集卡死问题
修复若干问题
  • 下载地址
有问题? 投诉报错

引导图片

大家都喜欢

  • 电脑软件
  • 手机软件
更多>

用户评论

(您的评论需要经过审核才能显示)0人参与,0条评论
140

最新评论

还没有评论,快来抢沙发吧!

请简要描述您遇到的错误,我们将尽快予以修订

返回顶部