互联网数据采集平台

2018/09/13 16:30

大数据


互联网数据采集平台是利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成;随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣成为一种越来越大的需求。

分布式爬虫数据采集平台

互联网数据采集平台

业界领先的技术性能

  • 业界最全的CSS、JS爬虫解析引擎
  • 业界领先的分钟级网站增量采集技术
  • 日爬取网站数量千万级
  • PB级网页数据存取
  • 日解析栏目数百万级
  • 日侦测错别字十万级

核心技术

  • 数据/可控双平面分离体系架构
  • 面向问题可回溯的数据结构
  • 面向对象的可伸缩的任务队列
  • 基于MYSQL多源复制的半分分布式
  • 基于多维特征码的增量策略
  • 基于用户行为的断点续爬
  • 自动感知的黑白名单技术

基于采集规则的结构化数据挖掘抽取

互联网数据采集平台

协同化语言层构建:对HTML网页进行语义标注

字段式精准采集:最适合为数据挖掘提供结构化数据

采集规则自动生成:贴合用户采集需求,及时响应

全量爬虫+增量爬虫

全量爬虫:

  • 断点续爬
  • 列表页和内容页
  • 分页判断
  • 独立简单
  • 支持JS(包括Ajax)/CSS/可定制是否启用
  • 使用HBase去重和储存最终结果
  • HTML页面特征代码计算

增量爬虫:

  • 实现规则
  • 第一层必爬
  • 定义爬三层列表页
  • 网页指纹对比
  • 网面指纹
  • 全量爬取时进行记录
  • 网页变动后进行更新

解决问题:

  • URL不合法
  • 安全狗
  • 线程超时
  • MariaDB链接保活
  • 框架网页
  • Jquery callback
  • 源代码编码转换

积累经验:

  • 全局过滤的网站
  • 浏览器语言与网页字符集
  • 不需要GET的资源类型
  • 分页规则
  • 取Rendering 后的页面代码而非HTTP协议中
  • 禁止非SC_OK状态码响应后抛出异常
  • 禁止CSS和JS异常抛出

爬虫应用案例

政府网站智能监测分析

政府网站智能监测分析——案例介绍

根据“政府网站普查”的考核指标,对政府网站进行监测分析

单项否决/ 网站可用性/ 信息更新情况 /互动回应情况/ 服务实用情况

应用描述

按照设置的层数、线程数、频率,对网站进行自动全量爬取

通过网站更新识别技术,按照设置的层数、线程数、频率,对网站进行自动增量爬取,只爬取增量数据

通过连接状态识别,检测整站的链接可用性情况

通过页面内容获取,监测整站的严重错误(错别字)情况

通过采集规则配置,监测整站的栏目更新情况

消费者洞察

消费者洞察——案例介绍

对海量数据进行深度分析,整合消费者画像、属性分析、产品分析、产品管理、提及点等功能,最终帮助企业在市场定位、商业竞争、销售策略等方面提供决策支持

应用描述

采用垂直爬虫技术,仅对特定页面的指定内容进行数据采集

基于6大类数据源上百个网站:电商购买评论、知道问答、新浪微博、论坛贴吧、电商购买咨询、新闻跟评

采集关键内容包括品牌、型号、配置、属性、功能点、评价等

网络舆情分析

网络舆情分析——案例介绍

基于互联网信息采集、文本挖掘和智能检索技术,及时发现、采集舆情相关信息,对信息进行自动分类、智能过滤、自动聚类、主题检索和统计分析,实现社会热点话题、突发事件、重大情报的快速识别和定向追踪

应用描述

根据事件关键词,全面搜索、采集数据,发现、追踪舆情信息

采集覆盖全网媒体:国内外重要网站、论坛、微博、微信公众号、贴吧、博客等互联网开放平台,确保有效舆情无一遗漏

经济态势数据采集

经济态势数据采集——案例介绍

通过对互联网指定类型的网站的指定内容的数据的定向采集,协助政府部门建设互联网经济数据库等

应用描述

采用多种爬虫技术组合,同时采集结构化数据和页面内容

采集的网站类型达12大类,包括:微信公众号、学术智库、财经资讯、上市公司财报、政府经济统计数据、搜索引擎指数、电商网站网店及商品、房地产交易及价格、微博、移动平台等

采集的公众号、网站、公司、行业、地区等,数量近3万个


本文采集自互联网,如有版权问题请联系我们进行处理。

联系方式:system@shangyexinzhi.com

文章来源:网络大数据

收藏 | 微信分享 微博分享 QQ分享 | 返回顶部