乐于分享
好东西不私藏

火车采集器LocoySpider

20090823014942-674666446

软件作者: 合肥乐维信息技术有限公司

火车采集器(软著登字0144474号,2009SR017475)是一款专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。

火车采集器专注于数据采集领域,致力于帮助各类互联网企业,站长,网站编辑等提供数据采集解决方案及消除采集技术难题。积累了十万余免费客户及近万名商业客户,产品及解决方案被华为软件、阿里巴巴、网易、酷六网、中国科学技术信息研究所、总装备部宣传部等使用并认可,并长期为国内知名互联网企业提供数据采集方案。自2005年11月21日发布第一版以来,经过六年多数十次的更新换代升级,新发布的基于火车头数据采集平台的火车采集器V7版已形成具有非常完善及强大的功能特性,以通用好用和良好的口碑著称。

火车采集器程序功能上支持采集需要登录查看的内容,支持探测文件真实地址并下载远程文件,支持二级随机代理,支持采集数据直接入库和模仿手工发布等许多功能特点。同时又具有无限级网址采集、无限级多页和分页规则采集、POST采集、图片文件添加水印、XPath可视化提取、正文识别、OCR图形图像识别,同义词转换翻译伪原创等高级采集发布功能,可以完成您在浏览器内能看到的各类信息的提取。强大的php和c#插件接口支持,让您可以通过二次开发实现您对数据的萃取要求、定时任务及分布式采集客户端又能保证您对数据的及时性及数据量的要求。

火车采集器v8版本是v7版本的重大优化升级,该版本修复了v7的许多问题,增加了更多扩展,也更加方便用户开发。新版本以更丰富,更易用为宗旨,向新老用户提供更好的服务。以下是新版本的增加的功能和修复的问题。

V8版本增加的功能
1.增加发布扩展功能,开发了很多CMS的发布扩展
2.增加获取更新远程采集规则功能,用户可以自建规则服务器,向自己客户提供采集规则
3.增加更多应用扩展,如E商统计,极速搜索,论坛采集器,微博数据助手等
4.二级代理增加页面缓存功能,方便短时间内对同一网页进行采集。
5.起始网址添加自定义语法,可以生成更多复杂网址
6.将google,bing,有道翻译集成到汉译英翻译模块中
7.本地库转换时增加了保留数据选项
8.POST采集网址部分增加了文本导入搜索词功能
9.增加网盘上传功能,一个文本可以同时上传多个网盘
10.增加将EXCEL数据导入采集器功能
11.POST获取网址部分增加了一个修改header功能
12.支持下载ftp中的文件
13.标签处理中加了一个运行C#代码功能
14.任务搜索功能中增加分组搜索
15.修改测试发布,增加入库以及应用扩展测试发布
16.入库和web发布添加了个复制配置右键菜单
17.系统托盘增加显示当前程序运行目录功能
18.本地替换增加可选操作整个数据库的选项
19.火车采集器任务右键菜单增加shift键功能

V8版本修改的Bug
1.解决explorer关闭重开后采集器图标找不到的问题
2.解决url地址中带.号获取内容失败的bug
3.修正多页抓取的时候UserAgent不统一造成cookie失效的情况
4.修正多页抓取的时候网站编码选择自动识别并且多页的网址编码不一致造成多页返回乱码的问题
5.处理了部分mysql数据库不能获取列表的问题
6.修复部分代理在二级代理中无效一级代理中有效的问题
7.修正图片下载地址不包含< 必须包含条件 失效的bug
4.解决打开程序报错,软件界面上图片显示红叉的问题

火车采集器 v8.5 Build2014.12.10版本主要更新的内容
1.修改软件启动界面,使用更为友好
1.增加插件异常处理,方便调试插件
2.运行日志增加任务id
3.修复非管理员开机启动失败问题、
4.修复任务批量处理非内容标签复制问题
5.修复”如果为空再次提取”的bug
6.WECenter的UBB转化功能完善
7.随机插入功能改进
8.修复ul,ol等标签带style时无法过滤问题
9.官方插件模块接口等资源更新

 

 下载地址:

[Downlink href=”https://pan.baidu.com/s/1mgqTo3u”]点我下载[/Downlink]

赞(2) 打赏
未经允许不得转载:完美博客 » 火车采集器LocoySpider
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址