据外媒报道,美国东部时间周日下午3点25分(北京时间3日凌晨3点25分),谷歌云发生大规模宕机,影响了包括北美、英国、欧洲、南美等全球多地的谷歌服务。此次谷歌云服务断线影响了诸多谷歌旗下网站与App的运行,包括世界最流行的邮件应用Gmail、世界最大视频网站YouTube与免费办公套件G Suite。此外包括Discord、Snapchat等依赖谷歌云服务的第三方App也受到了影响。

▲图片来源于网络

前有亚马逊AWS电缆被挖,今又有谷歌云宕机,最近云服务厂商风波不断!这已经不是第一次发生大规模宕机事件,对很多企业造成直接的利益损失!

究竟什么是宕机?会有什么影响?

举个栗子,云服务好比是一个家庭的水电暖供应的基础设施。停电 1 分钟,对于一般家庭而言,也许只意味着少看一会儿电视、少吹一会儿空调,但对于企业而言,或许意味着一条生产线的瘫痪、整个生产流程的推倒重来。同理,云服务器宕机 1 分钟,对于云服务提供商来说是一次运维故障,但对企业而言,或许意味着客户的流失甚至破产,特别是不可逆的故障,这不是云服务提供商赔偿就能挽回的。

现在越来越多的企业将其业务系统、数据部署在云上,云服务器一旦宕机,企业业务必然会受波及,因此安全被各企业视为头等要务。

▲图片来源于网络

世界上没有任何一家公司可以保证100%的服务可用性。但是作为一家互联网公司,如何通过选择合适服务供应商,降低业务中断的发生几率,这里面是有策略和逻辑的,小编特意采访了Oceanpayment钱海CTO Kevin和GM of EU & Operations Lilia(曾任欧洲某支付集团创始人兼COO),来听听他们的专业意见。

Kevin:

Oceanpayment在选择服务商的时候,会着重考虑服务商的服务可用性、单点故障可能性。Oceanpayment从2017年开始,服务可用性已经达到了99.99%,也就是说一年中发生系统性故障的时间不能超过52.6分钟,且从实际业务看甚至达到了99.999%,也就是故障时间不超过5.26分钟。所以Oceanpayment在选择服务商的时候就必须要求服务商的服务可用性不能低于99.99%,否则会影响到Oceanpayment的服务可用性。

其次是考察服务商的网络资源、业务资源等方面是否存在单点故障的可能性,我们认为服务商在每个业务节点都要有双点甚至多点的切换机制,以确保业务的连续性。

当然,对于企业来讲,灾备和演练也很重要。企业平时做好充分的准备,经常演练,就不怕灾难发生后恢复不了数据,恢复不了业务,给公司造成致命风险。不要把鸡蛋都放在一个篮子里的道理大家都懂,尤其是在当今的信息时代,花点时间定期进行数据的备份,这绝对值得去做。

Lilia:

从业务运营的角度,有的时候故障是无法避免的,所以我们会着重关注服务商在出现故障后发现问题的速度和响应机制。当故障出现,服务商应该在最短的时间发现问题、定位问题和修复问题,且应该在第一时间通知商户和并给出合理的方案和建议。一个拥有良好素质的运营团队可以帮助商户在故障出现后有效的降低损失,了解故障进展,并提出故障解决可执行思路或者方案。比如此次谷歌云服务故障发生当晚,Oceanpayment24小时监控系统就立即发现了异常并发出警报,运营支撑团队立刻发起应急机制,连夜进入战斗状态,通过监测客户网站交易数据、测试网站支付流程、同时采集多方数据进行分析,用时不到二十分钟即确认是谷歌云服务故障,客关团队立即通过电话、微信和邮件等不同方式有效的通知商户,从发生警报到应急处理结束,距离谷歌云服务故障不到一个小时。

Oceanpayment始终以客户为本,共进步共发展。用心服务、专业服务和快速响应是Oceanpayment本地化服务的基础。

我们的服务始于支付,不止于支付!

历年云服务宕机大事件回顾

2018 年 11 月 9 日 谷歌公有云下的 Kubernetes 服务(GKE)宕机。

2019 年 3 月 2 日

阿里云开始出现大规模故障,这场事故持续了三个小时左右,事后观察了两个小时。

2019 年 3 月 12 日

3 月 12 日全球各地的谷歌云用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其他服务时都遇到了问题,谷歌随后承认出现故障,谷歌云平台状态页面(Google Cloud Status Dashboard)显示,此次故障影响了谷歌云存储的所有区域。

2019 年 3 月 13 日

3 月 13 日,全球最大的社交网络 Facebook 及其旗下 Instagram 和 WhatsApp 的服务器均出现故障。部分服务器故障时间长达 24 小时,这是 Facebook 公司近期遭遇的史上最长宕机。

    切换版本语言