财新传媒
位置:博客 > 陈志刚 > 一文读懂阿里云强悍“计算能力”的来源、布局与雄心

一文读懂阿里云强悍“计算能力”的来源、布局与雄心

文/陈志刚

已经进入全球公共云服务第一梯队的阿里云,正在向“计算”的产业上游发展,谋求打造更强悍的计算能力。

加速计算能力突破的阿里云

一年一度的云栖大会是我们观察阿里云变化的绝佳窗口。

阿里巴巴集团资深副总裁、阿里云总裁胡晓明在大会上说,“我们要和全世界最优秀的创新型公司展开深入合作,为阿里云平台上的企业,为企业的转型升级,为政府的服务,为中小企业的创新创业,提供更好的技术能力帮助。”

在今年云栖大会中和大会前,阿里云发布了一系列的和计算有关的新技术、新产品。透过这些技术和产品,可以抽取出来的判断是:体系化、集团化的向计算有关的上游产业布局是阿里云谋求构建更强悍的计算能力的主旋律。

目前阿里云已经构建了涵盖IaaS、PaaS、SaaS,从弹性计算、存储、安全到异构计算、大数据、垂直行业解决方案的完备的云计算产品体系,并成为公有云和专有云市场的主要玩家, Gartner发布2016年全球公共云市场份额报告显示,阿里云已经超越Google,位居第二位。

这得益于两个因素,一是阿里巴巴在云计算领域的产品、数据中心、技术上的高强度、持续的战略性投入,二是阿里云丰富的产品线和快速满足市场需求的能力。

尤其是最近两年,阿里云显著性的加快了在企业移动化办公市场、通信和移动互联网应用开发市场的布局,并已经推出了企业办公服务(WLA)、云通信和移动云等云服务。尤其是在企业办公服务上,源自阿里巴巴集团全球范围内云+端办公模式的实践的办公套件正在市场上攻城略地,成为大型企业和政府、中小企业的协同首选方案。

对“计算能力”的布局,阿里云的进步更大,一是向产业上游不断延伸整合,二是围绕计算架构持续创新,三是瞄准量子计算等前沿计算技术提前布局,四是知本整合和合作成为重要选项。

向产业上游延伸,从计算的底层寻求突破

在10月12日云栖大会上,阿里云公布了一个消息:阿里云与Intel合作在最新的Intel硬件上,基于公共云发布了BigBench On MaxCompute+PAI获得三项计算突破,包括BigBench数据规模全球首次将规模拓展到100TB,达到7000 BBQpm,流计算2.0每秒峰值达千万QPS,整体链路延时亚秒级,以及E-MapReduce对比同类产品平均性能提升3倍。

我们可以从下面的逻辑看这件事:

1)这是一项TPCx-BigBench测试,属于大数据端到端真实复杂的业界领先测试基准;

2)TPC,是负责事务处理和数据库领域商务应用基准程序(Benchmark)的标准规范、性能和价格度量的非盈利国际标准化组织;

3)TPCx-BigBench是衡量基于Hadoop的大数据系统的性能基准测试标准,衡量的是服务器的软硬件整体性能;

4)截止目前,TPC官网公布的测试最大规模为10TB,最佳性能是1491.23BBQpm。阿里云的结果高达7000,是TPC官网最最佳性能的4.67倍。

所以阿里云此次取得的测试成果,是领先了一个量级。

这是阿里巴巴与Intel在处理器层面的软硬件整合发挥了重要作用。

英特尔数据中心事业部副总裁Robert Hays 说: ”我们非常高兴能够和阿里云共同在最新的英特尔® 至强® 可扩展处理器平台上对MaxCompute进行深度优化,并见证阿里云MaxCompute在BigBench测试中表现出的优异成绩“。

向计算上游发展,阿里巴巴最近还做了两件事情。

第一件事在2017年8月阿里巴巴参投了中国人工智能芯片公司寒武纪,布局人工智能底层技术。寒武纪在2016年发布的寒武纪1A处理器,是世界首款商用深度学习专用处理器。

第二件事在2017年9月21日,阿里云正式发布了采用第三代分布式共享存储架构的自研新一代商用关系型云数据库POLARDB,可满足多类数据库的混合使用效果。这是国内首个自主研发的通用云数据库,能够满足客户对业务连续性、在线业务扩展能力、数据安全上的需求。性能媲美商业数据库,价格仅有1/10。

从计算架构创新上驱动计算新物种和满足关键需求

创新服务器计算架构,打造新物种

神龙云服务器是此次云栖大会发布的最新弹性计算产品,这是阿里云计算架构创新驱动的成果之一。

按照神龙云服务器研发总监张献涛的说法,“神龙云服务器本质既不是虚拟机产品,也不是物理机产品,而是一个兼具虚拟机和物理机优势的新物种”。

神龙云服务器是应用了阿里巴巴神龙计划中深度融合物理机和虚拟机特性的创新型计算架构的产品。该计划是阿里巴巴为了打造下一代云计算核心技术而开展一项中长期研究课题,其主要内容包括自研芯片,核心业务加速设备以及重新定义服务器硬件架构。

计算架构的创新给神龙云服务器带来了显著性的计算突破:(一)具备云服务器优势,可水平弹性伸缩的高性能计算服务架构;(二)具备物理机优势,能够做到当前世代下物理机级的极致性能和隔离性,做到了客户独占计算资源,无虚拟化性能开销和特性损失;(三)支持再虚拟化,并能与阿里云产品家族中的其他计算产品无缝对接。

这对于高端客户构建混合云提供了接近完美的解决方案。

公有云和专有云同源的混合云计算架构针对高端客户满足关键需求

我们知道,对于政府、大型企业、金融机构来说出于系统稳定性可靠性要求,大都会选择专有云的模式,并不会把业务承载在公有云上。

但是如果专有云变成独立的孤岛,又失去了使用云计算的好处。那么如何才能同时满足:安全合规、防护能力和完善的灾备体系,又能获得高效的计算能力呢?

因此阿里云在此次云栖大会发布的第三代专有云,定位于为企业数字化转型提供硬件兼容、快速部署和金融级的容灾能力。并基于专有云为客户提供“混合云”计算架构解决方案,一是可以为本地数据中心赋予阿里云同款云架构能力,二是可以无缝获取公共云的弹性扩展能力,更关键的,三是两朵云同源同构,具备强一致性。

阿里专有云计算产品涵盖了云计算、企业级互联网架构、安全等全栈云产品的API和SDK。如果客户选择将专有云和公共云打通以混合云方式构建本地数据中心,那么该数据中心将与阿里云具备同款云架构能同时也能够无缝获取公共云的弹性扩展能力。

同时为了满足数据中心分散部署的需要,阿里云专有云3.1版本已经支持多Region部署,支持统一管理和调度的要求。

比如海关总署是阿里专有云的客户,其海关情报系统是中国海关大数据云平台上的首个应用,除了支持亿级数据模糊查询,秒级响应返回智能搜索结果之外,阿里云为海关总署的应用带来了智能的进化:基于专有云大数据平台建立了一个趋近于“人脑”的商品归类智能模型,应用与所有报关单的智能预审核,经过在上海海关试点验证,对有税差报关单的查货能力提升了5倍之多。

布局异构计算,赋能人工智能

云栖大会前,9月12日,阿里云宣布推出全新一代异构加速平台,为人工智能产业提供多场景化的全球加速能力。这是阿里云异构计算家族首次亮相,包括GPU、FPGA在内等6款异构实例。该平台主要是满足从图形渲染到高性能计算及人工智能等复杂应用的计算需求,为图形计算、生命科学、材料力学、分子动力学等科研计算领域提供普惠计算能力。

在描述异构架构的优势是, 张献涛说:“我们提供了25/100Gb ROCE走RDMA协议直连,可以多机多卡,用非常多的GPU/FPGA设备集群来共同训练一个模型,大大减少用户训练的时间,从几周到一个月缩短到一天或者几个小时的级别。”。

布局高性能计算,打造“云上超算中心”

阿里云异构平台推出的高性能计算产品E-HPC,支持一键部署,并获得媲美大型超算集群环境的“云上超算中心”。

而基于神龙云服务器的超级计算集群(SCC)也将在十月推出,其与阿里云ECS,EGS等计算类产品一起,为阿里云弹性高性能计算平台E-HPC提供了堪比超算中心的并行计算资源。

在IoT领域,阿里巴巴还发布了 AliOS Things&边缘计算网关,构建云端一体化IoT基础设施,推动物联网向智联网发展。

在满足企业波动计算明显的需求上,阿里云的函数计算在4月份已经公开邀请测试。这是阿里云在Serverless领域的重要产品,开发者通过函数计算即可获取巨大计算资源。

我们可以看到从服务器的计算架构到混合云计算、异构计算、超级计算,在计算机创新上,阿里云已经形成体系化的布局。

面向计算前沿技术,布局量子计算

量子计算代表着未来的计算方向。

此次云栖大会在计算领域的另一个重要发布就是阿里云量子计算云平台正式上线。

这是阿里巴巴自从2015年开始与中科院合作成立的阿里云与中国科学院-阿里巴巴量子计算实验室的成果之一。

对量子计算的布局,始于中国量子力学第一人潘建伟教授,他曾经对阿里提及量子计算实验室合作,并且可能十五年都不会有产出,令他意外的是“没想到阿里巴巴很快参与进来合作。”。

目前阿里云量子计算云平台已经能够提供20多个量子比特的经典计算仿真环境,到2017年底10量子比特超导量子计算即将上线。

按照联合实验室的规划,到2030年,该实验室将研制具有50-100个量子比特的通用量子计算原型机,全面实现通用量子计算功能,并应用于大数据处理等重大实际问题。

在量子计算人才领域,阿里云量子技术首席科学家施尧耘博士是在9月11日刚刚加盟阿里巴巴,担任首席科学家并负责组建量子实验室,此前他是美国密歇根大学安娜堡分校的终身教授和量子科学家。

除了带领量子实验室建立量子计算的体系结构,突破经典计算无法解决的问题之外,施尧耘博士还有另一个任务,就是在美国西雅图为阿里巴巴招揽量子计算人才。

阿里巴巴是量子计算领域布局的新巨头,包括IBM和微软在量子计算领域的投入和布局都已经有十多年的历史,今年3月份IBM宣布了一项新业务“IBM Q”,开始面向企业和科研单位提供商用化的量子计算平台。谷歌在2013年收购了D-Wave生产的世界上第一款商业量子计算机D-Wave Two,2016年5月谷歌至和NASA甚合建了Quantum AI Lab(量子人工智能实验室)。

尽管阿里巴巴是新玩家,但是后发者的优势就是可以更好的站在前人的基础之上,获得更快的加速度。

以知本整合和合作加速创新和基础客户领域布局

一切事业终究是人的事业,高科技领域人才更是核心竞争力,更善于与人合作的阿里巴巴正在以新的方式吸纳在科技领域的优质知本资源。

在云栖大会上,阿里巴巴公布了在三年内研发投入1000亿人民币,用于涵盖基础科学和颠覆式技术创新的研究计划,包括全球研究院、高校联合实验室、全球前沿创新研究计划三大部分。

刚刚成立的达摩院是阿里巴巴吸纳知本资源的重要平台,其将在全球布局达摩院实验室,与高校合作的研究所;构建分布在全球各地的研究中心以及与提供全球学术合作网络,使得阿里巴巴可以在全球配置技术、人才。

“达摩院”将独立于阿里现有研发体系,在新的机制下运行,并专注与基础科学、颠覆性技术等中长期的技术研发。

此外,阿里巴巴还推出了创新研究计划(AIR)计划将聚焦“在探索科技创新的全球性研究项目“,“重点是推进计算机科学和技术领域内具有前瞻性和开创性的基础研究工作。同时,致力于推动学术和产业合作”(AIR官网语)。这是一项从业务一线找问题,然后由高等学校的学术研究专家有针对性的攻克难题的创新计划。

截至目前,AIR已经在发布了14个前沿技术领域中需要解决的29个研究课题,并已经启动了与国内高校的合作。

毫无疑问,在线计算将无所不在,而计算资源的生产将是巨头的天下。

我们已经看到,阿里云计算正在向计算的上游产业加速发展,以集团化、系统化、体系化的方式,推进计算能力的突破,这些努力我相信,将有助于降低计算的成本、推动创新、加速商业进步。

2017年云栖大会阿里巴巴发布的系列产品和在计算上取得的突破表明,这个商业和科技巨头将在云计算领域发挥更大的作用,承担更大的责任。

推荐 0