火车头采集器下载 火车采集器(LocoySpider) 网页数据采集利器 V10.21 中文免费安装版
火车采集器又称火车头采集器,主要用于指定网页内容的采集等操作,也是目前使用最为广泛的数据采集工具。
程序支持远程下载图片文件,知识兔支持网站登陆后的信息采集,知识兔支持探测文件真实地址,知识兔支持代理,知识兔支持防盗链的采集,知识兔支持采集数据直接入库和模仿人手工发布等许多功能特点。
火车采集器支持从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职招聘网站等。
同时具有强大的网站登录采集、多页和分页的采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。
强大的php和c#插件支持,知识兔让您可以通过二次开发实现您所想要的任何更强大的功能。
【软件特色】
1、通用性强
无论新闻、论坛、视频、黄页、图片、知识兔下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
2、稳定、高效
五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
3、扩展性强、适用范围广
自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,知识兔让数据都能为你所用。
【基本功能】
1、规则自定义 – 通过采集规则的定义,知识兔可以搜索所有网站采集几乎任何类型的信息。
2、多任务,多线程 – 可以同时进行多个信息采集任务,每个任务可以使用多个线程。
3、所见即所得 - 任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
4、数据保存 - 数据边采集边自动保存到关系数据库中,并且知识兔数据结构能够自动适应,软件可以根据采集规则自动创建数据库,知识兔以及其中的表和字段,知识兔也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
5、断点续采 – 信息采集任务可以在停止后从断点开始继续采集,知识兔从此你用不再担心你的采集任务意外中断了。
6、网站登录 - 支持网站Cookie,知识兔支持网站可视化登录,即使知识兔登录时需要验证码的网站也能采集。
7、计划任务 – 通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
8、采集范围限制 – 可以根据采集的深度和网址的标识来限制采集的范围。
9、文件下载 - 可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换 – 可以将采集的结果根据规则替换成你定义的内容。
11、条件保存 – 可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别 – 运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布 - 可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口 - 定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
【特色功能】
1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
2、多种发布方式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
4、本地编辑:本地可视化编辑已采集的数据。
5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
6、管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
更新日志
1、二级代理重大修改并增加了商业代理支持
2、post获取网址POST页码增加递增数值
3、修复php和python插件不支持cookie的问题
4、当成功失败标识都为空时认为是发布成功
5、调整发布和入库模块界面大小和操作bug
6、修复web发布不登录时不发UA的问题
7、修复web发布测试时超时不起效的问题
8、修复Web发布时特殊情况下死循环问题
下载仅供下载体验和测试学习,不得商用和正当使用。