先弄明白Hadoop,storm,spark,Kafka,Sqoop,Fulme,Hbase,Hive这几个基本项目的概念,然后学会搭建Hadoop集群,然后学会在Hadoop上构建Hbase和hive,然后学习mapreduce编程,好明白什么是列存储,学会Hbase怎么使用,学会hive。
完成这些以后,基本上就算入门了。
然后根据场景学习Sqoop,Flume和Kafka。
然后可以学storm,最后学spark。
至于机器学习的算法,自然语言处理以及更深入的深度神经网络,建议你最后接触。
以上是大数据的东西。
云计算没有这么复杂,除非你要开发自己的虚拟化环境。
云,我建议你学openstark,并不是很复杂。
云和大数据本质上来说是亚马逊和谷歌的两种弹性计算构建各自发展出来的技术。
大数据集群经常需要部署在云上。
别把两个概念弄混了。
参考:
主要有两个部分。
分布式存储。
分布式计算分布式存储主要是 hadoop hdfs 文件系统 或者 mongodb 或者 cassanra数据库分布式计算主要是。
spark 或者 tensonflow 另外也包含流式计算比如 storm ,和消息系统 kafka 建议从python学起比较容易入门 深入一点可以学scala
参考:
前几个说大数据的比较多,我来说云计算,毕竟属于云计算从业者。
你能学到的都是开源的东西,他们提到的大数据框架都是开源的,云计算不同,云计算分为公有云和私有云,公有云一般都是自研的系统,国外做的最好的亚马逊AWS、微软AZure,国内最好的阿里云、腾讯云都是这种情况,私有云则基本都用开源的openstack,国内做的好点的厂商有华为、easystack。
openstack可以拆解为许多组件,比较重要的有计算nova,网络neutron,镜像存储glance,块存储cinder,对象存储swift,认证keystone,界面horizon这些。
除了openstack以外,云计算领域非常热门的技术当属容器服务docker,有兴趣可以自行了解。
参考:
大数据入行快一年了,从oracle erp转过来的,前5个月做的hive里的etl数据仓库等等,各种大数据组件也没怎么接触,最近几个月才开始接触,像hadoop,hive,hbase,kafka,es,codis,mr等,都了解了下,但还不是很深入的理解,只是用mr程序各种处理数据,从一个组件弄到另一个里。
但是比较想学习下统计建模和算法,但是现在没啥机会,只能自己学习了解下机器学习的东西。
说实话不太清楚大数据以后得发展,但是感觉后面数据多了肯定会用到的,貌似现在大数据的牛人工资都不低,不知道后面混成牛人后,是不是烂大街了。