首 页 关于我们  解决方案  产品中心  成功案例  服务与支持  联系方式 
     
 
自主产品
  数聚®智慧决策门户
  数聚®企业搜索系统
  数聚®网络舆情监测系统
  数聚®网络爬虫
  数聚®企业费用管控系统
  数聚®名单监控系统
代理产品
产品演示
  SAP Crystal 解决方案

联系我们

上海市徐汇区零陵路899号
飞洲国际广场15J 200030

电话:86-21-51506298

传真:86-21-51506299

关注我们的微博

+关注

 
首页 - 产品中心 - 数聚® 网络爬虫
 

数聚® 网络爬虫
 产品简介

【网络爬虫产品介绍】 

数聚网络爬虫通过在多个实际项目的投入使用,积累了丰富的信息采集经验,爬虫核心技术为业界领先水平。

数聚网络爬虫通过对指定网站的雷达扫描,为用户提供所需要的最新信息;通过对全网的监控,提供给用户所关注的更全面的信息。

数聚网络爬虫可以监测新闻,论坛,博客以及微博等不同类型网站的最新发布信息,准确提取正文内容并自动排除重复文章,自动识别和记录信息的发布来源、发布时间等关键信息,从而将互联网上的非结构化数据转化成可用的结构化数据;抓取效率高,安全易用。

 

 产品功能

【网络爬虫产品功能】 

1、采集实时性强,效率高
a、专注对特定网站的高频扫描,信息更新速度快;
b、采用增量信息抓取方式,保证抓取采集信息不重复。

 
2、信息提取准确
a、自动辨别信息发布时间、发布来源等信息,并据此进行抓取信息的排列和分类;
b、能准确提取网页中的标题、正文、发表时间、来源等信息项,对重复文章进行排重,并对具有分页的网页内容进行自动合并。


3、兼容性强
a、加入自动识别网页编码功能,确保采集网页信息准确、流畅;
b、支持简体、繁体中文网站监测,自动转换编码格式并统一保存采集文本,方便多平台展示。


4、稳定、安全
a、经过多次的升级和多项目的实践,采集程序运行稳定性好,采集速度快,占用资源少;
b、采用多线程多任务并发执行实现模块7*24小时不间断安全运行。


 

 
首 页 | 关于我们  | 解决方案  | 产品中心  | 服务与支持  | 联系方式 

版权所有:上海数聚软件系统股份有限公司   备案号:沪ICP备07500365号