步骤地图:
1 )数据摄取
部署大数据解决方案的第一步是从多个来源提取数据的数据捕获。 数据源可以是诸如Salesforce的CRM、诸如SAP的企业资源规划系统、诸如MySQL的RDBMS或其他日志文件、文档、社交媒体源等等。 可以通过批处理作业或实时流导入数据。 将提取的数据保存到HDFS中。
2 )数据存储
提取数据后,下一步是保存提取的数据。 数据可以存储在HDFS或NoSQL数据库(即HBase )中。 HDFS存储适合顺序访问,而HBase适合随机读/写访问。
3 )数据处理
部署大数据解决方案的最后一步是数据处理。 数据在Spark、MapReduce、Pig等处理框架之一中进行处理。