韩亚飞_yue31313_韩梦飞沙 QQ:313134555
目录
数据治理概念:
数据治理架构:
数据质量:
数据生命周期:
数据安全:
数据分析与建模:
大数据治理审计:
大数据服务:
名词术语:
数据治理概念:
对业务的数据管理和利用,为用户创造价值。
Data Governance
数据治理架构:大数据架构:
大数据基础设施硬件 基于普通商用服务器的集群。
也可以与云计算平台结合,运用其中的虚拟化和弹性资源调度,为大数据提供可伸缩的计算资源和基础设施。
大数据一体机:
通过预装软件。
硬件根据软件做定制。
基础设施包括3个:网络、存储、计算。
资源管理 方法
1、虚拟化
2、基于yarn或mesos的资源管理
元数据管理 :
包含元数据 创建、存储、整合、控制功能。
元数据管理在大数据治理有非常重要的地位。能够提升战略价值,帮助决策。
在数据仓库中 元数据需要的内容:
1、描述哪些数据在数据仓库中
2、定义要进入数据仓库中的数据 和 从数据仓库产生的数据
3、记录数据抽取时间。
4、记录和检测 数据是否一致
5、衡量数据质量
主数据:
用户的各个系统要共享的数据。
主数据管理,就是为了保证主数据的一致... 保证主数据正确的单一视图。
主数据管理构建于ETL技术之上。
元数据标准:
通过描述数据的标准化,便于数据的理解和共享。
目前标准有 行业标准、国际标准。
国际标准 参见 ISO IEC11179。
大数据架构:
大数据技术架构 :
数据清洗技术:根据正确性条件,清除错误的数据,对重要数据修复。
分布式数据处理技术:
主流的分布式计算系统
Hadoop 离线的复杂大数据处理
spark 离线的快速大数据处理
storm 在线的实时大数据处理
数据挖掘
技术:网络挖掘、特异群组挖掘、图挖掘
数据质量:数据满足需求,即高质量。不满足,即低质量。
数据生命周期:
数据从产生、获取到销毁的过程。
热数据 teredata
温数据 Aster
冷数据 Hadoop
数据安全:存储安全:
1、采用PGP、trueCrypt 对存储的数据进行加密。
2、采用ssl 通信。
3、数据灾难备份。
安全成熟度 判定
平均检测时间:平均 识别分析应对的时间。
平均响应时间:平均 响应到最终解决的时间。
网络流量识别僵尸网络
利用mapReduce方法分析大量网络流量数据,确定感染的主机。
使用PageRank和分群算法的组合,跟踪僵尸网络中的指挥和控制渠道。
创建依赖图,使用PageRank算法和DBScan,从代表每个主机作为节点的网络流量记录构建依赖关系图。在图形边缘的数量是影响计算复杂性的主要参数。
数据分析与建模:数据挖掘
数据挖掘分析
发现数据规律。
从而可以描述现状和预测未来。
如何发现规律
1、直接观察数据列表
2、查询数据
3、多维度指标分析
4、特定场景分析
大数据治理审计:就是评估治理的效果。
大数据服务:数据 (大数据) 提供的服务
存储
集成
计算
展现(可视化)
挖掘
名词术语:名词
解释
EIMenterprise information management。企业信息管理。EDMenterprise data management。企业数据管理。DRMdata resource management。数据资源管理。IRMinformation resource management。信息资源管理。IAMinformation access management。信息资产管理。COBIT国际的IT治理标准。control objectives for information and related technology。CSA 云计算联盟CISO 首席信息安全官ESG 企业战略组 enterprise strategy groupDM数据管理,data management。DMBOK《DAMA数据管理知识体系指南》 的简称IM信息管理,information management。DGI数据治理研究所。data governance institute。EDM评估、指导、监督。evaluate、direct、monitor。ITGIT governance。 IT治理。DAMA国际数据管理协会ISACA国际信息系统审计和控制协会BOSS业务运营支撑系统。Business & Operation Support System。DaaS数据即服务。MDmaster data 。主数据。MDMmaster data management。主数据管理。EIIenterprise information integration。DSSdecision support System。 智能决策支持系统。SIEM 安全信息和事件管理MTTD平均检测时间 mean time to detect
MTTR 平均响应时间mean time to responseC&C指挥和控制WINE 全球智能网络环境 worldwide intelligence network environmentKBD 关键业务数据IMF 国际货币基金GIGO 垃圾进垃圾出 garbage in garbage out
大数据产业链:
1、提供数据。数据拥有者。采集数据。
2、提供技术。技术提供商。集成数据、数据统计、可视化。
3、提供服务。服务提供商。数据挖掘、业务价值。
大数据价值实现3个阶段
1、整合用户数据
2、结合数据、建立预测模型、帮助用户找出最有价值的信息。
3、释放数据的价值。形成一种新的商业模式。
用户使用大数据的战略要点
一定是问题需求驱动的。融合业务需求。
数据治理工具:
编号
工具
厂商
1数据治理平台collibra、 global ids2数据管理平台ibm,Informatica,sap3商务智能平台information builder,sas4数据建模工具embarcadero er studio5元数据资源库管理工具adaptive、 asg software6数据质量管理工具trillium software
国内大数据标准资料:
《GB/T 35295-2017 信息技术 大数据 术语》 1、《信息技术 大数据 技术参考模型》.pdf2、《数据能力成熟度评价模型》.pdf3、《信息技术 科学数据引用》.pdf4、《信息技术_数据交易服务平台_交易数据描述》.pdf5、《信息技术_数据交易服务平台_通用功能要求》.pdf6、《信息技术__数据溯源描述模型》.pdf7、《多媒体数据语义描述要求》.pdf数据治理图20180719.ppt