大数据项目开发步骤:
步骤1 :需求:输入数据和生产数据;
第二步:数据量、处理效率、可靠性、可维护性、简单性;
步骤3 :数据建模
步骤4 (架构设计)数据如何进来,输出如何呈现,最重要的是处理流失数据的架构
第五步:再次考虑大数据系统与企业IT系统的交互
第六步:最终确定选择、规范等
第七步:在数据建模的基础上编写基础服务代码;
步骤8 :正式创建第一个模块
步骤9 :实现其他模块,完成测试和调试等;
第10步:测试和检查
大数据流程:
从过程的角度看,整个大数据处理可以分为四个主要步骤。
第一步是收集和存储数据
第二步是通过数据分析技术对数据进行探索性的研究,包括无关数据剔除(即数据清洗)和数据查找模式来探索数据的价值
第三步是在基本数据分析的基础上,选择和开发数据分析算法,对数据建模。 从数据中提取有价值的信息,其实是真正的阿里云大数据的学习过程。 这包括许多算法和技术,如机器学习算法
最后一步是模型的引入和应用。 也就是说,将研究的模型应用于生产环境。
1 )数据收集)定制开发收集程序或使用开源框架flume
2 )数据预处理)自定义开发mapreduce程序在hadoop集群上运行
3 )数据仓库技术:基于hadoop之上的Hive
4 )数据导出:基于hadoop的sqoop数据导入导出工具
5 )数据可视化:定制开发web程序或使用kettle等产品