首页» 支撑工具» 智能化数据分析» 技术白皮书

技术白皮书

1.数据支撑平台概述

基于自主研发的应用支撑平台,结合十多年来在政府、企业、军队和军工等单位实施项目经验,形成了具有自主知识产权的数据支撑平台——数博大数据分析平台(Dabot,以下简称数博平台)。

数博平台基于当前主流的应用技术进行构建。结合当前大数据处理技术和政府大数据的特点,基于Spark和Hadoop等成熟的大数据存储技术,形成了完整的大数据存储解决方案,并基于Spark MLlib、Spark R和Spark Graph设计和开发了数博平台中的系列产品。

2.平台特点

Dabot数博平台支持结构化大数据集成和非结构化数据处理,支持多数据源的数据集成,可视化的数据集成定制,通过任务调度、作业计划及数据处理过程,形成平台数据中心,同时数博平台的数据访问层提供数博数据访问管理工具(Dabot DSS)为外部使用者提供更加灵活的数据服务功能。数博数据访问管理工具(Dabot DSS)以服务的方式为数据访问提供全生命周期的管理,从数据服务的创建、授权和管理、使用、监控、变更和失效等环节进行一体化的管理,以确保数据管理系统对外提供服务的质量和效率。

数博平台的数据统计功能采用即席多维数据集的方式,对业务进行建模,通过多个维度对业务数据进行统计,根据定义好的多维报表进行在线展示,并支持数据的过滤、上钻、下钻、切片、维度转换等多维分析操作。

数博平台还提供利用组件定制工具,通过简单几步选项配置,选择平台的元数据和模型定制数据,选择想要输出的图表类别,可以即时预览定制的图表,所见即所得,生成系列可视化组件,利用数据门户、Portal和内容管理与发布平台,对外实现数据的展现。

3.应用场景分析

3.1多数据源的集成

数博平台支持各种数据源、转换方式和目标数据库的连接组件,支持的数据源包括:

  • Oracle、SQL Server等主注关系型数据库
  • Excel、CSV、XML等文本数据
  • RSS、Web等页面数据
  • HBase、Hadoop、MongoDB等主流NoSQL数据库
  • 数博消息队列

3.2灵活的企业数据服务

数博平台的数据中心为外部使用者提供灵活的数据服务功能:

  • 支持的数据源包括关系数据库管理系统(RDBMS)、分布式文档存储数据库(MongoDB)、Excel、RDF等
  • 支持HTTP、HTTPS、JMS、SMTP等协议
  • 支持的数据库包括:MS SQL、Oracle、MySQL等
  • 输出支持XML、JSON和RDF等格式
  • 快捷的数据服务发布模式

3.3全文检索

数博平台利用数据中心,对外提供API接口,支持全文检索。数博平台的全文检索具备建立索引和提供查询的基本功能外,还具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上,数博平台全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。

4.总体架构

图  2-1 图表 总体架构图

平台总体分为采集层、存储管理层、计算分析层和展现层。

采集层

采集层负责数据的采集和集成功能,支持从各种现有业务系统的数据源如关系型数据库(Oralce、SQL Server、MySQL等)、文件系统(CSV、Excel、XML等)和Web页面中采集数据,并通过网页采集工具和ETL工具将采集到的数据进行清洗和加工,存储到数博平台的数据存储中。同时,根据业务运行的需要,当需要从各种主机、服务器和应用系统中采集日志信息时,可以使用采集层的日志采集工具实时捕获运行时的业务日志,通过流的方式传输到数博平台的数据存储层,根据处理的需要进行加工和实时分析。

存储管理层

存储管理层提供了数博平台的数据存储功能,同时在数据存储基础之上提供数据从产生、获取到存档和清除等各环节的全生命周期的数据管理。存储管理层在提供了数据访问管理,除了通过本地化直接连接的方式外,还提供了外部系统通过Web服务的方式进行数据访问的功能,通过对数据访问进行管理,可以为数据服务的创建、授权和管理、使用、监控、变更和失效提供一体化的服务平台。

同时,数博平台提供了数据架构管理、元数据管理、数据存储管理、数据融合管理、数据质量管理和数据安全管理等工具,为数据各环境和各种成熟度下的管理需要提供技术支撑。

计算分析层

计算分析层为数据处理和分析提供技术能力,同时为支撑各种数据统计和分析的功能提供基础和保障。在计算分析层,我们以成熟且功能强大的Spark平台为基础,集成和改进了主流的数据处理和分析算法,并基于此基础提供了数据检索、数据统计、结构化数据分析和文本数据分析等功能,为数据的充分使用提供了有效支撑。

层现层

数博数据平台基于先进前端展现技术D3进行可视化的设计和实现,并在此基础上设计和积累了丰富的可视化组件库,包括图形、地图、表格和多维报表的展现等,同时提供数据门户的定制功能,支持为不同角色和人员提供个性化的个人工作台,基于展现层提供的内容管理和发布功能,可以从表示层集成各种来源的数据和内容,为组织对外发布信息和基于数博平台提供更加丰富的内容服务提供了功能实现。另外,如果第三方应用需要集成数博平台提供的服务,可以直接通过API的方式进行集成,数博平台支持各种方式的API实现,如Web Service、REST等。

4.平台组成

数博平台由以下系列产品和工具组成:

类别 工具名称 代号
数据采集类 结构化数据采集工具 Dabot DI
Web数据采集工具 Dabot Crawler
消息队列工具 Dabot MB
类别 工具名称 代号
数据管理类 元数据管理工具 Dabot MM
数据融合管理工具 Dabot DR
数据质量管理工具 Dabot DQ
数据访问管理工具 Dabot DSS
统计分析类 查询服务器 Dabot QS
报表服务器 Dabot RS
分析服务器 Dabot AS
门户类 数据门户服务器 Dabot Portal