阿里云大数据的发展历程

  • 话说最早的阿里巴巴也是IOE架构(IBM小型机、Oracle数据库、EMC存储),在统一的硬件基础架构上各个业务BU(可以理解为子公司或者事业部)各忙各的。

    阿里云大数据开通地址 https://data.aliyun.com/product/product_index

  • 到2009年的时候,阿里巴巴的已经拥有了全亚洲最大的Oracle集群。但因为业务发展的太快,亚洲最牛的一批Oracle工程师每天必干的事情竟然就是每天重启Oracle数据库。当时为了解决这种问题,就将数据分析类的任务从Oracle数据库中拿出来,放在Greenplum(GreenPlum是一种MPP数据库,通过增加更多的可以相互协调的计算节点来提高数据分析的处理能力)中运行。

     

  • 在2009年的9月,阿里云成立,愿景就是:打造数据计算和分享的第一平台,为了践行这愿景开发了全球第二个(第一个是Google,目前还没有第三个)通用云计算平台飞天,为神马叫通用云计算平台,因为在阿里云,无论是弹性计算还是对象存储还是大数据计算都在一个统一的飞天云平台上运行。

     

  • 2010年Greenplum的性能也遇到了瓶颈。必须寻找其他的解决方案,我们知道那个时间点还有一个非常火的大数据解决方案叫做Hadoop。

     

  • 时间来到了2010年10月,经过一年的研发,阿里巴巴自研的云计算平台飞天开始稳定运行,MaxCompute是其核心的大数据计算引擎。为了验证这个平台的可用性,在阿里内部启动了牧羊犬项目,就是让处于创业阶段的阿里金融小贷业务使用阿里云大数据计算服务。让金融业务使用了一个刚开发上线的全新云平台,马老师不愧是外星人。有意思的是当时阿里金融小贷业务的负责人正是胡晓明,就是今天的阿里云CEO,做过阿里云客户的他估计更能对客户体验感同身受。

     

  • 到2012年7月,阿里巴巴已经展开了轰轰烈烈的去IOE运动。接下来,阿里巴巴开始着手统一数据平台,也就是用世界上唯二的通用云计算平台飞天服务整个阿里巴巴集团。经过两年的时间,飞天的稳定性已经被阿里金融小贷的快速发展所证明了。但阿里云为淘宝设计的架构,淘宝并不买单,以当时淘宝的体量和业务复杂度,靠阿里金融的案例是不够的。当时淘宝使用是亚洲最大的Hadoop集群。为了确定到底淘宝要不要从Hadoop切换到MaxCompute,淘宝的技术人员提出要以性能为依据进行对比,因此阿里内部启动了代价高昂的登月计划,就是同时运行两个大数据平台:基于Hadoop的云梯一和基于MaxCompute的云梯二。

     

  • 在2013年的时候,云梯一和云梯二都发展到了相当大的规模,再继续同时运行两套大数据平台的代价已经变得无法接受了。因此在所有的阿里巴巴高层一起坐下来探讨到底谁走谁留。据说当时的那场会议完全一边倒,除了阿里云的创始人王坚,所有的高管都建议保留更加成熟的Hadoop,放弃MaxCompute。处于劣势的王坚气的拍了很多次桌子:不做云梯二就是逃跑。最后会议的结论是没有结论。可以看到姑且在阿里巴巴内部推动阿里云都遇到了这么大的困难,所以今天的企业用户接受云计算必然需要一个过程。

     

  • 到了2014年-2015年阿里大数据平台终于成熟,已经证明了可以支撑双十一的海量交易,登月计划完成。云梯一二进行了合并,留下的是MaxCompute。

     

  • 2016-2017年MaxCompute2.0发布,单集群节点已经可以过万,通过性能优化实现了最佳性能和最佳性价比。随着阿里巴业务向外扩张,在全球范围进行了部署。

     

    今天,这样一个从09年开始和阿里云一起诞生的连淘宝都在用的大数据平台,你花一分钟,在阿里云账户里存一块钱就可以开通使用。