首页 > 编程知识 正文

大数据平台功能描述,构建大数据平台

时间:2023-05-06 13:01:47 阅读:53132 作者:1022

承担平台关键功能设计系统功能设计业务能力设计业务能力设计的内容,通过对业务需求点的总结分析归纳,提取相应的系统功能,包括数据访问管理、数据存储管理、数据加工管理、数据共享管理、运维管理、服务监控管理、基础资源管理和系统管理

数据访问管理数据源配置管理还可以用于数据源配置管理、大数据平台可以访问的数据源配置、记录有关数据源的信息、定期检测数据可用状态以及监视配置信息资源等功能。

配置访问方式配置管理配置管理访问方式配置管理、大数据平台数据访问方式,配置ETL、数据复制、Web服务、数据收集、文件部署等不同访问方式的正确实现手段。

ETL访问通过整合ETL工具,以ETL方式将业务系统等数据源的详细数据访问大数据平台,可以部署集群、向外扩展。 支持多级ETL。

整合数据复制数据复制、数据复制工具,通过数据复制方式将业务系统等数据源的详细数据连接到大数据平台,支持实时链接、大量初始化、大事务处理。

Web服务访问Web服务,通过Web服务将业务系统等数据源的详细数据访问大数据平台,需要Web服务访问管理的调度功能。 Web服务方式有基于SOAP协议的Web服务方式和rest风格的Web服务方式。

通过数据收集数据的收集、自动化收集工具的集成,以及在数据源服务器上部署收集代理,按收集频率自动收集、聚合和传输详细数据,并发送到大数据平台。

集成数据爬虫、数据爬虫工具,提供爬虫根据采集频率自动移动到目标站点获取外部公共数据,将数据标准化、标准化后接入大数据平台。

数据追记数据追记。 支持主数据、业务明细数据、指标数据等手动填写、补写。 数据范围涵盖所有自动收集数据范围,作为自动收集(ETL、数据复制、Web服务、数据收集、数据爬虫)访问方式的补充。

提供文件分析和导入文件分析和导入、文件分析和导入功能,满足特殊数据访问需求。

数据变更取得数据变更取得通过访问软件提供的访问数据变更机构取得包含数据内容的变化、格式的变化、数据同步过程和异常等的内容。

数据访问规则可以管理数据访问规则的管理,记录各种访问方式的数据访问规则和流程,并从主题数据反向跟踪数据访问的来源和转换规则。

清洗数据,根据清洗策略、规则对访问数据进行去重、去污、干燥清洗。

数据审计数据审计基于数据的完整性、及时性、合法性、一致性进行检查,对发现的问题以特定方式进行预警,对问题协同处理,建立数据质量评价体系。

数据访问监视数据访问监视,监视数据访问服务的运行状况。 监测数据访问方式、运行情况、呼叫异常、运行时间、访问数据量、统计等信息,展示和统计监测结果。

数据存储管理数据存储区域管理逻辑划分数据存储区域管理、平台存储,形成不同的存储区域,记录存储区域的数据存储形态、数据内容、数据格式等信息,定期自动扫描。

数据存储格式管理数据存储格式管理,平台数据存储格式多样,包括关系数据库、数据仓库、列存储、文件系统、无SQL存储,有多种存储格式和

模型管理数据模型管理是分别记录各存储区域内数据的逻辑模型,物理模型因存储形态而异很大,逻辑模型在形态上统一识别数据并关联区域。

数据归档管理按照数据归档管理、在线、近线和离线原则归档和迁移历史数据。

统一数据接口管理统一数据接口管理,平台物理上涵盖各种数据存储形态,分布在不同设备上,通过统一数据接口进行标准化、规范化数据访问、共享通道。

数据访问路径配置数据访问路径配置,基于数据特性访问数据路径

由存储到所在存储区域。

统一存储参数配置

统一存储参数配置,涉及各区域分库/分表、阈值、策略等参数的配置。

数据缓存管理

数据缓存管理,提供热点数据缓存功能,提高数据使用效率与服务性能。

数据存储监测

数据存储监测,对数据存储服务运行情况进行监测。监测数据接入的方式、运行情况、调用异常、执行时间、接入数据量、统计等信息,并对监测的结果进行展现和统计。

数据加工管理 数据转换

数据转换,数据源所存储数据是源明细数据,平台按业务重新划分主题域后,对业务领域数据需要重新建模,两者通过数据转换实现数据标准化、规范化。其中还涉及到代码、字典、计量单位等数据标准制定与统一,此为难点。

指标计算

指标计算,对业务指标按频度进行批量计算,或实时计算。批量计算涉及数据量大,维度多,计算缓慢,吞吐大。实时计算涉及数据量小,要求时效。

汇总统计

汇总统计,对数据进行合并、加宽、汇总,提供共享和决策应用的支撑。

联机分析

联机分析,采用传统技术手段,建立业务数据立方体,通过切片、切块、旋转、钻取等方式达到业务分析的目的,采用报表方式进行可视化展现。

数据挖掘

数据挖掘,设定挖掘算法,通过归纳推理,从大量数据中挖掘隐含的、未知的、实用的知识,找出事物本质规律,辅助决策支持,需要大量数据知识。

机器学习

机器学习,设定业务场景,分析业务问题,建立数据模型,采集样本数据,训练模型,对模型进行调优,使结果尽量收敛与有效范围,解决问题。

数据加工监测

数据加工监测,对数据加工服务运行情况进行监测。监测数据接入的方式、运行情况、调用异常、执行时间、接入数据量、统计等信息,并对监测的结果进行展现和统计。

数据共享管理 数据直接访问

数据直接访问,通过Sql、API方式直接访问平台数据,需要拥有较高等级的访问权限,访问效率高、数据吞吐量大,对网络传输要求较高。

数据服务访问

数据服务访问,对于要求数据量较小、访问级别较低、自定义数据交换格式的目标应用,以服务方式提供平台数据,数据吞吐量小,网络传输要求低。

实时数据推送

实时数据推送,对于要求实时展现数据的目标应用,提供从平台到目标应用的推送服务,平台实时感知数据变化,通过多种技术方式推送到应用。

数据协议交换

数据协议交换,适用于大批量数据交换的场景,双方以协议商定的方式定制化交换数据的数据模型、数据范围、交换频度、交换协议等内容。

服务交付管理

服务交付管理,对服务形成全面管理,包括服务创建、注册、修改、删除,以及通过访问数据的服务接入、访问模式、访问路由、流量控制等。

数据可视展现

数据可视展现,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受,基于图标、图像、像素等可视化技术。

数据共享监测

数据共享监测,对数据共享服务运行情况进行监测。监测数据共享的方式、运行情况、调用异常、执行时间、接入数据量、统计等信息,并对监测的结果进行展现和统计。

运维管理 运维配置

运维配置,包括数据运维与服务运维两部分,设置数据/服务监测单元、数据/服务监测对象、数据/服务监测规则、数据/服务监测任务,供运维使用。

数据运维

平台可根据定义的监测对象和指定的监测规则来对数据进行监测、生成监测报告、对监测不通过的数据进行报警等功能,实现数据质量的管理。

服务运维

平台可根据定义的监测对象和指定的监测规则来对服务进行监测、生成监测报告、对监测不通过的服务进行报警等功能,实现服务质量的管理。

基础资源管理 元数据管理

元数据管理,要具备元数据分类、存储、访问标准,要涵盖技术元数据、业务元数据,支撑主题数据、转换规则、标准代码、数据访问等管理功能。

主数据管理

主数据管理,需要实现对主数据的分类、结构维护、编码规则维护、数据维护、数据同步等功能,作为共享数据提供对各业务应用的支持。

信息资源目录

信息资源目录,以正向/反向、手工/自动的抽取方式,实现对平台存储的所有信息资源的元数据信息的采集,将相关资源元数据挂接到资源目录树,以统一视图的方式提供完整的信息资源目录。

系统管理 用户管理

管理维护大数据平台的用户信息。

日志管理

系统内日志的记录和查询,将所有操作记录记入系统日志。

权限管理

实现对系统单位、部门组织和人员的权限管理和维护功能。

参数配置

提供对大数据平台的系统参数的配置功能

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。