移动互联网

双11技术大练兵,阿里云开启新十年

2019/11/13 0:18:00

“今年双11,我最关心的不是销售数字,而是技术峰值。”在双11前夕,阿里巴巴掌门人张勇(逍遥子)道出了他的心声。

今年双11订单峰值达到54.4万笔/秒,单日数据处理量达到970PB,均是全新世界纪录,阿里又一次扛住了全球最大流量洪峰。

这不让人意外,更难的是:应对极限挑战,对阿里来说不再是惊心动魄的历程,而是一种寻常。

为了这一天,阿里埋头准备了10年

11月11日当天,我们走访了达摩院。阿里巴巴达摩院翻译平台负责人骆卫华(闻彰)透露:11月10日晚上熬了个大夜,熬夜剁手,却不是写代码,这一次双11,阿里工程师终于可以闲下来剁手了。

闲得直剁手1.png

前几年双11对阿里技术而言是很大的挑战,所有人顶着巨大压力,随时应对突发状况。今年双11成了“一件小事”,应对双11越来越轻松。十年来,阿里跟着双11一起积累技术,今年双11,阿里大半年前开始做一件事:将所有核心系统部署到公有云上。

今年,阿里巴巴CTO张建锋(行癫)担任阿里云智能总裁后,干的第一件大事就是推动阿里100%上云。在今年4月的阿里云智能峰会上,张建锋对全场的开发者说:“‘全站云化’的时代已经到来,整个阿里经济体正在All In Cloud”。阿里经济体All In Cloud不是说说而已。

虽然阿里云已经连续两年稳居亚太第一云计算巨头,不过当时,阿里业务系统只有60%到70%在云上,许多核心系统的负载均在传统数据中心,这跟谷歌、亚马逊、微软等云计算巨头的做法一样。深思熟虑后,在All In Cloud的战略下,阿里花了半年时间推动业务系统上云,到了9月,核心系统已100%跑在阿里云上。阿里巴巴也是唯一一家将自有业务100%上云的科技巨头。

这是一个浩大的迁移工程,涉及到数十万计物理服务器的迁移,这些服务器是阿里数字经济体最能看得见摸得着的“实体资产”。阿里经济体中海量业务在成千上万个大大小小的系统支撑下运转,成百上千的应用,服务着数十万商家和近8亿用户,服务器上云,牵一发而动全身。

在双11媒体中心面对千余家全国媒体演讲时,张建锋说这是给阿里这架“高速飞行中的飞机”换引擎的过程。

闲得直剁手2.png

这看上去有点像一次豪赌,扛过去了,是一次壮举;一旦失败,就是粉身碎骨。

100%上云后的前两个月,阿里运行平滑,不论是商家还是用户,都毫无感知。面临双11充满未知的各种可能,阿里做足了预案,严阵以待。到了双11当晚,一切都很好,这才有了工程师“闲得剁手”的一幕。

闲得直剁手3.png

平日里多做重要的事情,紧急的事情就会来得更少。今年双11,阿里巴巴技术工程师可以闲庭信步,是因为提前半年推动了核心业务系统100%上云这件重要的事。往回看得更远一些,阿里巴巴十年来做了一件更重要的事情:以云为依托完善技术基础设施,阿里经济体100%上云则是一个结果。云计算的大规模并发计算力,弹性、可靠和安全性,一次次经受住双11的考验和锤炼,阿里自有系统100%上云则是一次“超级背书”,是阿里以身作则,号召各行各业All In Cloud的行动。

2019年,阿里云和双11均迎来第十一个年头。2009年阿里云正式上线、淘宝商城(天猫前身)打响双11第一枪,这两件事很大程度决定了阿里今天的业务版图。今年双11 GMV 2684亿元,是十年前的5368倍,订单峰值则是2009年1380倍。十年前有卡顿,今年几乎零卡顿,正是因为阿里以十年未周期,对技术进行战略投入。

云是切入点,却不是全部。

双11,阿里技术最好的演练场

每年双11,都是阿里技术最好的演练场。阿里十年来储备的诸多技术绝活儿,各种核心技术组件,就像阅兵式上导弹飞机等尖端武器一样,接受上亿消费者的检验。

张建锋说:“不是任何一朵云都能撑住这个流量。中国有两朵云,一朵是阿里云,一朵叫其他云。”阿里云最大的不同在于全程自主研发,而不是基于开源系统改造,基于此才可以不断突破技术的边界,应对各种场景的极限,形成大量技术创新,双11期间上场练兵的“武器”不计其数。

飞天:阿里自研大规模云计算操作系统

十年前,阿里云在北京的工程师写下了第一行代码, 开始搭建云计算最核心的平台:云操作系统飞天,这是中国唯一自研的云操作系统,支持调度超过10万台服务器进行并发计算。飞天是阿里云大规模、高并发、低成本和弹性计算的根本保障。比如今年双11,飞天在0点将计算资源分配给交易相关应用,1点后再将计算资源分配给数据处理系统,一天处理970P左右的数据,有限的计算资源在不同任务间无缝切换,被用到了极致。

闲得直剁手4.png

OceanBase:数据库“导弹库”的代表

数据库是跟操作系统一样底层的软件,是决定峰值计算能力的关键。伴随着轰轰烈烈的去IOE进程,支付宝自主研发了关系型数据库OceanBase,2014年先将10%的交易支付放在OceanBase上完成,现在用户使用支付宝时各种数据和处理都在其上进行,其可支持一秒内同时记数万笔帐。今年OceanBase在TPC-C测试里面拿下了全球第一,打破Oracle(甲骨文)保持了9年之久的记录。OB是双11支付不卡壳,系统不崩溃的重要基础设施之一。

不只是OceanBase,阿里自主研发的数据库体系PolarDB、RDS、AnalyticDB、TSDB等均参与到双11,PolarDB每秒处理峰值同样超过Oracle,今年世界互联网大会PolarDB入选领先互联网成果。

神龙:如何让服务器突破极限?

虚拟化是云计算的基础,它将物理服务器虚拟化成想要的计算单元,进而拥有最大的弹性,然而却会导致性能损耗。双11这样的场景,大量的计算资源投入就会有大量的损耗。

如何解决这样的矛盾?阿里在2017年推出“神龙架构”,弥补虚拟化的性能损耗,同时拥有云的弹性和运维优势。2019年杭州云栖大会上,阿里云推出了第三代神龙架构,全面支持ECS虚拟机、裸金属、云原生容器等,在IOPS、PPS等方面提升5倍性能,可帮助用户降低50%的计算成本,据张建锋介绍,一般的服务器随着压力增长,最终负载能力会慢慢下降,它不是线性的,但神龙服务器压力越大,输出则是非常线性的。

飞天大数据平台:单日970PB的数据引擎

2010年,阿里巴巴战略布局云计算时,百度、腾讯还处于观望态度,不过马云当时就表示:“云计算最后是一种分享,是数据的处理、存储跟分享的机制,我们对云计算充满信心、充满希望。”这时候,在马云的认知里,云计算不是结果,只是手段,数据才是终局。多年来阿里都在强调和完善“数据”两个字的内涵,数据已是阿里经济体的基石。

双11用户和商家的行为都在产生数据,同时被数据影响。2015年双11阿里处理了100PB数据,2018年到了600PB,今年双11这个数字变为970PB,担任对海量数据实时处理重任的,是阿里云飞天大数据平台,它对海量数据进行实时深挖。这是中国唯一自主研发的计算引擎,是全球集群规模最大的计算平台。阿里在全球率先大规模应用RDMA网络,实现远端存储比本地读写磁盘更快,进而实现计算与存储分离。阿里自主研发的流处理系统每秒可处理25亿笔记录。

如今,飞天大数据平台已支持实时数据挖掘、实时统计分析、在线机器学习、实时金融风控、IoT 边缘计算等场景,被应用在双11以及城市大脑等场景。

双中台:经济体技术协同枢纽

阿里云将“双中台”作为四张王牌之一,“数据中台”和“业务中台”双中台给业务前台提供创新的技术、数据和计算支持,业务端可对后台数据进行深度充分挖掘,双中台是阿里技术开放的基座架构,在经济体中的各路玩家社会化协同时扮演连接枢纽的角色。

闲得直剁手5.png

今年双11,阿里巴巴前台业务不只是应用了云计算基础设施,同时将数据智能技术、达摩院AI技术等进行充分应用,阿里正在向线下零售、工厂制造、农产品原产地等环节渗透,在这一过程阿里云双中台承接了阿里数据智能向各行各业开放的角色,直接与品牌、商家、工厂和合作伙伴的系统对接,将商品的规划、制造、库存、物流和零售等环节全面打通。

达摩院:底层技术实现应用创新

今年双11,大量的AI技术被应用。

速卖通平台上的中国及全球中小卖家基于智能翻译技术,可与不同国家的买家沟通,一共支持64种语言方向;东南亚最大电商平台Lazada推出了支持当地六种语言的实时翻译,涵盖买卖双方即时通讯沟通、商品详情、优惠券等商家自营工具。

阿里巴巴集团合伙人、首席客户官吴敏芝则透露,天猫双11当天,智能客服机器人阿里小蜜承接了淘宝天猫平台97%的在线服务需求,提供了相当于8.5万名人工客服小二的工作量。客服机器人全天提供在线咨询对话量3亿次,解决率达70%,带来的询单成交达113亿。

这些AI技术均来自于达摩院,2017年,阿里决定成立达摩院,三年投资千亿,面向未来二十年储备前沿科技,包括量子计算、人工智能、网络安全、芯片技术、传感器等底层前沿技术。达摩院两年来的成果正在被应用到双11这样的场景,突破传统技术极限。

闲得直剁手6.png

阿里云智能旗下的AI设计师“鹿班”、视频智能生成工具AlibabaWOOD、菜鸟数智大脑、蚂蚁金服的区块链技术……均在双11发挥了重要作用,正是诸多技术组件的完美协作,才让阿里扛住了全球最大流量洪峰,支撑了单日数据处理量高达970PB这样的极限计算场景。

今年双11是阿里十年来不断完善、巩固和深化的技术版图的一次集中呈现。今年双11,阿里提出“奥运会”的说法,奥林匹克精神是“更高更快更强”,这定标了阿里技术下一个十年的方向。

下一个十年,成为数字经济基础设施

每一波技术浪潮都是“后浪推前浪”,前十年阿里的技术沉淀,给下一个十年打下了基础。前十年阿里的技术布局方向,体现出三个特征:广度(技术全)、深度(底层)和开放(普惠)。

阿里技术上一个十年先从云计算切入,从IaaS云到PaaS到私有云到混合云到城市大脑再到ET大脑到双中台……不断叠加,云计算从点变为线。云计算这根线,又跟AI、大数据、IoT、芯片等技术线齐头并进,构成了阿里的技术版图。

有广度,阿里技术同时谋求深度。当年决定自研飞天就体现出底层思维,阿里知道:只有打开底层才能真正突破技术边界,只不过一切都从0到1并不现实,阿里技术走向底层是循序渐进的,后来去IOE建自有数据库,千亿达摩院,后来成立平头哥芯片公司发布玄铁910、含光800等多款自研芯片,都是不断深入底层。双11上,张建锋带了一款含光800到媒体中心,并表示:明年双11,阿里大量人工智能应用都会跑在自研芯片上面。不只是芯片,对阿里来说,底层还有更多可能性:存储、材料、传感器、能源、量子计算机…… 

闲得直剁手7.png

不断向底层试探,阿里技术得以突破技术极限,并具备将技术开放的硬实力——自己技术不强“开放”给别人没任何意义。

伴随11年双11的成长,阿里云已构建云计算、数据智能、智联网、移动协同办公和区块链等关键核心技术,这些是未来10年数字经济发展的新基础设施,这些技术都是从自用走向经济体生态,最终向全社会开放:


  • 自有业务100%上云,是要带动各行各业All In Cloud;

  • 双中台旨在推动阿里数据智能开放;

  • 阿里小蜜给淘宝客服用了后,正开放给所有商家,未来将开放给全行业;

  • 平头哥提出“让天下没有难造的芯片”的愿景,给芯片产业提供开放的IP Core……

开放普惠,成为社会数智基础设施,是阿里技术下一个十年的方向。3月21日,张建锋担任阿里云智能总裁后第一次亮相的峰会主题是:“十年再出发”,在这个峰会上,他第一次对外提出“阿里经济体All In Cloud”,这一行动将让阿里自己用的技术,跟阿里云上的产品保持一致,确保阿里核心技术能力向外输出。张剑锋同时担任阿里巴巴CTO和阿里云智能总裁,可以整合阿里全量技术资源到云,实现对外输出的普惠目标。

今年9月,在主题为“数智”的第10届云栖大会上,张勇提出,整个社会都在全面走向数字经济时代,“数”“智”成为最重要的两个关键元素,阿里巴巴要做的就是帮助企业共同走向数字经济时代的“阿里巴巴商业操作系统”。张建锋则进一步明确,云计算、海量数据、IoT和移动化四个技术将构成数字经济整个核心的基础,基于此,阿里云升级成阿里云智能,不仅提供云的基础设施,也提供四大核心技术综合性解决方案,这是阿里云智能接下来几年的重点。

闲得直剁手8.png

开放的结果就是创新,今年双11就是一个缩影,大量基于新技术的创新应用呈现井喷。阿里小蜜替代8.5万名客服小二的工作,鹿班帮助商家自动生成海报,AlibabaWOOD智能生成商品短视频素材,蚂蚁区块链实现对超过4亿件进口商品溯源认证……双11从规模驱动升级到创新驱动。

所有不可想象,终将化作寻常;我们相信“相信”,一切都是新的。

这是天猫双11后“天猫官方发言人”在微博发布的一句文案。

今年的双11阿里将曾经的不可想象,化为日常。现在阿里技术正处于一个承前启后的关键节点。5G商用,AI产业化,区块链……诸多新技术爆发。不确定性与机会如影随形,阿里不会焦虑,因为不论环境如何变化,不论还有什么新的技术浪潮,它都清晰地知道下一个十年要去到哪里,因为“相信”而“看见”。

闲得直剁手9.jpg

欢迎添加 luochaozhuli (备注:进群)分享交流。

关注罗超频道(luochaotmt),阅读更多精彩内容。


版权声明
本文仅代表作者观点,不代表艾瑞立场。本文系作者授权艾瑞专栏发表,未经许可,不得转载。
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 合作伙伴| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15021772号-10

扫一扫,或长按识别二维码

关注艾瑞网官方微信公众号