阿里云神龙服务器特点架构及应用场景

首先、作为铺垫,介绍下阿里云ECS企业线产品,ECS的开发总监总结出以下公式 :
ECS = (安全 + 稳定 + 性价比)X 弹性
首先看安全,ECS通过包括国际通行的PCI、CSA、国内等保等最全面的安全认证,支持KMS秘钥统一管理、读写加密等安全特性,满足用户上云的安全需求。
再来看稳定性,在机房环境层面提供双路变电站供电、网络层面提供三物理链路+BGP多线接入、结合阿里巴巴百万级服务器的运维支撑能力,从而有能力提供目前业界最稳定的IT基础架构。
再来看看价格和弹性:本年度,阿里云到目前为止降价5次,包年包月最短可以按周计费,一台配置不错的服务器也就几十块到一百块就可以拿下,想创业的朋友可以立即行动了,按量计费可以按秒计费,8分钟10000台服务器。

神龙服务器的深度解析
当前,云服务器分虚拟机和物理机两类。

虚拟机的的优点包括:资源富有弹性、交付速度快、运维自动化、借口标准统一。
虚拟机的缺点有:性能/特性损失、软件复杂度高。

物理机的优点正好是虚拟机的缺点:性能/特性无损、高隔离性。
物理的缺点有很多,包括:资源固定无弹性、交付速度慢、托管式运维、数据安全问题严重。

虚拟机和物理机的优势结合起来才是云服务器的理想形态。

为了打造这样一种完美的云服务器形态,阿里启动了神龙(X-Dragion)计划。
有人问为啥叫做神龙?
研发总监说这个世界上虽然大家都知道龙,没有一个人真正见过龙,所以龙是一个既实又虚的东西。
而下一代的服务器就是一个这样虚实结合的物种。

目前,阿里云发布了神龙 服务器。
神龙服务器可以同时提供虚拟机和物理机两种服务,虚拟化技术由此升级为2.0。
神龙服务器既不是物理机也不是虚拟机,而是一个全新物种。
神龙服务器的规格:包括超高主频型、通用计算型、GPU异构计算型、ARM型。

神龙服务器的应用场景一:线下的专有云(私有云)整体迁移到阿里云(公有云)。

神龙服务器的应用场景二:新型的混合云,私有云的技术直接延展到公有云,例如直接在阿里云神龙上部署VMWare的虚拟化软件,线下私有云平台就可以和公有云采用相同的技术架构,从而实现统一管理。

神龙服务器的应用场景三:加密计算,神龙服务器内置加密芯片,可以在硬件层面进行直接的加密计算,服务器进出的所有数据全部为加密信息,对云计算安全性不放心得客户可以安心上云了,神龙服务器适用于所有高稳定、高性能、高隔离、高可靠的计算场景。

为了证明上述的应用场景,阿里找来了私有云软件提供商ZStack来进行了一次测试。
ZStack的底层使用KVM技术,通过两台神龙服务器提供了200多个私有云主机,这些云主机与同VPC(针对一个租户的虚拟局域网)的ECS实例(公有云主机)直接不经过任何转换就可以直接通信,阿里云还进行了高性能计算集群的测试。

阿里云神龙云服务器采用Docker化部署,来消除环境和语言差异。充分利用阿里云几乎无限的云服务器、CDN分发网络、OSS存储来进行弹性应对。要做到弹性扩容和调度,基础性的工作也不少,例如专线,微博陆续和阿里建立了320G的专线。除此以外,还有很多基础性的技术工作,例如如何解决1G大小的镜像的快速分发问题。

想知道鹿晗关晓彤是怎么把微博搞死的么? 微博的研发总监来告诉你。微博很早就启动了混合云项目,最早主要是为了解决WEB层的问题的,现在已经扩展到所有业务。微博的业务特点就是热点事件的出现“不打招呼”,一个热点事件,资源就会瞬间被打爆。热点出现后10分钟冲击波就将到来,基本上要持续两个小时以上。这两年微博的热点事件,其中最近的一个就是鹿晗关晓彤的事件。造成的冲击都是日常高峰流量的2倍以上。微博还是很穷的,资源的预留量只有1.4倍。 新购硬件的极限加急上线时间也要30天。 如果没有阿里云,不知道要死多少次了。

微博第一代的弹性扩容使用手工触发的方式。

微博第二代开始使用定时触发,每天晚上8点扩容,12点缩容,就这样省了不少钱。
在定时触发扩容的过程中还是有很多坑的,因为需要在15分钟扩1000台服务器,这15分钟被分解成:
云主机创建(3分钟)、云主机初始化(1分钟)、镜像拉取(2分钟)、服务启动(7分钟)、服务注册(2分钟)。

微博第三代开始使用智能触发的自动扩容,但是问题远远不想看起来的那么简单。
主要的问题是到底什么情况下触发扩容动作?
成千上万的性能指标里到底看哪一项?
微博花了两年的时间已经找到了一些窍门。
但是,暂时还不能公布。

问题是,光Web层实现智能弹性就足够了么?
答案是:肯定不行!在解决了Web层的弹性扩容问题后,其他资源立即就成为瓶颈。这次的鹿晗事件为啥导致宕机,就是因为MC服务(Memcache)的网络流量被完全的打满了
下一步,微博要实现资源层的弹性调度。
再下一步,新浪微博要做的事情还很多。
最终要实现完全自动化的DCOS操作系统。

第一条,尽量使用新的实例,在同等价格水平下,新的实例类型总能成倍的提升性能。
重载的数据库可以使用本地SSD实例,单机IOPS可以到210万。
例如自建MySQL数据库,使用本地存储实现极限性能,高可用可以通过复制实现。

轻载的数据库可以使用SSD云盘,单机IOPS可以到18万。

自建的大数据集群也没有必要使用云盘,云盘是默认三副本的,Hadoop也是三副本,最终的结果是九副本,造成大量成本浪费。
自建Hadoop使用本地盘就好。

人工智能分成模型训练和在线使用两个阶段,模型训练阶段可以使用高性能实例,模型在线应用完全没有必要使用高性能实例。

存储的选择完全要根据场景来:各种计费模式的选择,阿里新推出了竞价型的实例,可以在资源的空闲时间竞价运行对时效性要求不高的大数据计算、机器学习等任务。竞价从按量计费的1折开始计算。

以机器学习的模型训练所需要的GPU实例来看,过去一周价格一直在一折和三折之间波动,最终的结果是你能买到全网最便宜的GPU实例。这下,我终于知道为什么王坚博士说:今天,在阿里云上,你的工资就可以买到AlphaGo相对应的计算能力了。

推荐组合使用三种计费模式:
对于日常变动不大的部分可以选择包年计费。
对于新功能发布、大促等场景推荐使用按量计费。
对于大数据挖掘分析,模型训练等领域可以使用竞价实例。

还可以充分发挥阿里云多地域的优势,将在线服务运行在一线城市、将离线服务运行在一些边远地区。
例如在线服务运行在北京(华北二),离线业务可以运行在张家口(华北三)。
华北二和华北三的高速通道(专线)是免费的。