阿里云大数据产品应用实践

在数据爆炸性增长的DT时代,基于阿里云大数据平台,大量用户已经建立起了在线数据积累、在线数据分析挖掘、在线数据展现、在线数据应用的大数据运营平台。

数据化运营是一个闭环:
数据化、只有不断的积累数据,才能为后面的数据化运营提供基础,没有数据的积累一切都是空谈。
算法化、建立一项业务的数学模型,并将其转化为计算机实现。
产品化、只有将数据和算法转换为产品或服务提供给组织的客户,大数据能力才能转变为组织的竞争力,数据化运营才能成为一个闭环。

这一闭环的关键是数据产品化,只是把数据存储起来是没有任何意义的,提供业务辅助支撑的分析报表也不是重点,对数据的使用必须能够渗透到组织的日常运营活动当中去,在日常运营活动中使用数据又进一步产生了新的数据,从而实现了数据化运营的闭环。
从这个角度上来说,“离线”的数据不论体量多大都只是负担,数据只有“在线”才能够进行数据化运营。

某自来水公司大数据实践举例:
自来水管道的爆裂和泄漏问题一直困扰着该用户,自2000年以来已经发生了3612起自来水管道的爆裂或泄漏事件。
为解决自来水管道的泄漏和爆裂问题,该用户利用阿里云大数据平台建立了管道智能检测系统,在线了如下几个方面的数据:
管道物理数据、材料,年龄,直径
环境条件、气候,土壤,管路
操作因素、如压力,历史故障等

通过结合各方面数据,实现了负载预测、管道模拟、管道生命周期管理等系列数据应用产品。

利用阿里云进行在线大数据处理将经历如下几个阶段:
数据上云、利用云端能力进行海量集中存储、实现大规模分布式计算。
数据资产化、对数据进行充分的梳理,建立数据的谱系地图,通过有效的数据管理将数据转化为资产。
业务创新、结合具体业务场景进行数据化运营,实现业务创新。
数据生态、通过开放数据,构建数据生态系统从而实现从数据化运营到运营数据的转变。

与上述阶段相关但不限于如下阿里云产品:
MaxCompute、阿里云最重要的大数据产品,直接构建在阿里飞天分布式集群之上,具有海量数据存储和分析处理能力,从诞生之初就服务于阿里金融等核心关键业务,目前阿里巴巴所有业务BU(天猫、淘宝、支付宝等)的所有数据分析业务均运行在该平台之上。

DateIDE、MaxCompute的开发使用界面,通过拖拽即可编排大数据处理任务,实时跟踪记录数据地图谱系,辅助大数据管理和运营。Data-IDE具有多用户和组织管理能力,具备完善的数据权限管理机制,适用于组织机构内多部门协同使用。

数据集成、一个高速数据通道,在DateIDE中用于海量的多数据源数据导入。

Quick-BI、用于数据可视化,可绘制商业智能图表。

Data-V、同样用于数据可视化,与Quick-BI的静态呈现不同,Data-V强调对数据进行更加炫酷的动态呈现。

OSS、主要用于非结构化数据的存储,非结构化数据可以上传到OSS中再通过MaxCompute中的自定义解析插件实现数据的结构化。OSS具有分级存储功能,长期不使用的数据可通过归档类型的OSS进行长期归档存储。

RDS、关系型数据库,即MySQL或SQL Server等,在进行数据的分析处理后,为方便应用到实际业务中,处理结果通常存储在RDS中。

DRDS、分库分表中间件,结合RDS实现海量数据的分库分表,数亿条数据可以通过DRDS水平拆分到多个RDS的多张表中,DRDS负责数据请求的自动路由和处理。

时序数据库、专门针对物联网类数据的时序化特点的数据库,具有较高的IO吞吐能力和较低的单位存储成本。

ECS、虚拟服务器,虚拟机,功能和物理服务器一致,阿里云对外提供计算能力主要通过ECS实现,在建立数据产品应用时,通常通过ECS来搭建应用服务器集群。

SLB、负载均衡,实现ECS服务器集群的负载分发。

阿里云大数据开发最佳实践步骤:

先从数据上云阶段开始,利用MaxCompute在云端进行数据的沉淀和积累。

借助于Date-IDE建立数据管理运营体系,实现数据的资产化。

现有业务系统中的数据可通过数据集成进行直接上传,形成ODS层。

在云端对数据进行处理,对ODS层数据进行清洗,按照维度模型进行组织管理。

依据业务需求进行后续数据挖掘和开发,数据挖掘的结果形成数据应用层,为方便随时调取使用,应用层数据通常存储于RDS中。

根据业务需要开发各种大数据产品应用,大数据产品应用运行于ECS集群,通过SLB进行集群负载分发。