
- 新闻、博客、论坛网站的采集
(1)可以对新闻网站上的新闻、资讯进行采集,可以采集网页上的标题、作者、来源、时间、正文等信息项,例如可以采集新华网、人民网、中国政府网、新浪新闻、搜狐新闻、联合早报、路透中文网、中国网、环球网、腾讯新闻、北京晚报、广州日报等新闻网站上的数据;
(2)可以对博客网站上的博文信息进行采集,可以采集博文标题、发表时间、内容、标签、分类、每篇评论、阅读人次等信息项,例如可以采集新浪博客、博客网、网易博客、搜狐博客、百度空间、QQ空间、MSN空间等博客博文信息;
(3)可以对论坛网站上的发帖回帖信息进行采集,可以采集帖子标题、发表时间、发帖人昵称、帖子内容、浏览次数、回复次数、回帖人昵称、每个回帖内容等信息项,例如可以采集强国论坛、天涯社区、西祠胡同、大众点评、新浪论坛等社区论坛信息;您也可以重点采集娱乐、体育、军事、女性、生活、财经、汽车、房产、家居、教育、数码、旅游、游戏等类别中的某类论坛或论坛的某个栏目。
- 行业网站、服务型网站、内网的采集
(1)可以对服装、纺织、饰品、农业、能源、机械、工业设备、仪表、五金、灯具、汽车、化工、冶金、建材、安防、食品、医药、物流等某类行业网站进行采集和数据项分析;
(2)可以对火车票务、商品买卖、求职招聘、企业库、产品库、it商情、福利彩票等某类服务型网站进行采集和数据项分析;(酷讯网站当初就是靠采集火车票转让信息而一夜成名)
(3)可以对内网发布的各种数据、各种指标等内网页面进行采集和数据项分析;对于想做垂直搜索门户的用户来说,这就是您需要的垂直采集功能。
- 支持网站登录
对于需要登录才可以访问的网站,系统可以在后台模拟用户实现登录过程,登录后,可以采集到更核心、密级更高的信息。
- Ajax网站采集
对于应用了Ajax技术的网站,通过分析页面代码等手段,我们可以分析出隐含的url地址,进而可以采集其中的页面数据;这部分数据,可是很多传统的蜘蛛采集工具所采集不到的。
- 隐藏参数的网站采集
对于应用了隐藏参数的页面,系统可以自动识别隐藏参数,并传递给目标页面;这部分数据,肯定不是有些搜索门户舍得下大精力主攻的数据,换句话说,这部分数据是采集成本较高的数据。
- 跨平台、跨数据库
系统基于jsp/java技术开发,系统运行环境支持windows 2k/xp和linux、Solaris等Unix系统,采集的数据可以保存到数据库中,例如可以入库到Oracle、SQL Server、MySQL、Informix等数据库中,系统理论上可以运行在各种数据库上,但我们目前建议您将程序运行在MySQL或者SQLSERVER上。
- 高并发大数据量的服务器端采集
以b/s结构实现,可以远程管理和维护,可以部署在客户端也可以部署在服务器端,方便灵活,支持高并发大数据量,支持多线程。从这个角度来看,和那些只在客户端小打小闹的采集工具就不是一个层面上的东东了,采购这样的工具肯定物超所值。
- 不仅仅是以html置标作为数据项的头尾标志,而是以任意有特征的字符作为数据项的头尾标
市场上有很多采集工具是分析html置标的,这是有一定局限性的,即无法进一步对html置标内部的数据进行解析,我们的系统可以以任意有特征的字符作为数据项的头尾标志,使数据采集的粒度更细小,当然也就更细致入微,更容易提纯去粗。
- 精确制导的采集模版设置
可以指定采集的入口页、入口频道、入口栏目、入口要采集的页面范围,可以指定采集入口页是列表页还是正文页;对于列表页,支持多页自动翻页采集,对于正文页,支持多页的自动合并,支持图片的采集和路径的转换等; 系统支持任意层级的页面深度采集、深潜采集。
- 断点续采
网络断网时,系统记下断点,网络恢复后,系统可以从断点处进行续采,实现采集过程的连续性,避免重复采集,同时也保证数据的完整无缺。减少无用功和重复劳动,符合低碳绿色生活理念。
- 对内容恒定页、内容变化页采取不同的采集策略
系统可以指定页面是内容恒定页还是内容变化页,内容恒定页采过一次后不再重复采集,内容变化页因为内容是变化的,需要重复采集并及时识别出变化的内容。例如,对于论坛的回帖、删帖,要根据用户对数据最新版本、历史版本的要求程度,采取不同的采集策略。
- 支持各种页面编码
系统可以自动识别页面编码,并在后台进行转换处理;系统支持ISO-8859-1、GBK、GB2312、UTF-8、UNICODE、BIG5等各种编码格式。
- 支持用户自定义表的字段映射及数据入库
根据采集的需要,用户可以设计自己的存储表结构,通过我们系统实现采集数据项与表字段的映射;采集下来的数据可以直接保存到Oracle、SQL Server、MySQL等数据库的表结构中。
- 支持第三方发布接口
采集下来的数据,可以通过第三方发布接口直接发布到内外网上。
- 可以与WebNews互联网舆情监控系统、WebCraft信息情报数据库系统等我们的其他系统无缝集成。
WebNews互联网舆情监控系统、WebCraft信息情报数据库系统等是我们开发的其他系统,这里就不展开介绍。