2025年发生的7起重大IT灾难

摘要: 多家大型云计算企业的服务出现了持续数小时的故障,导致其提供的网络服务无法正常运行;而在韩国,一场电池火灾也使得政府的相关服务陷入瘫痪。
在2025年,几项重要事件主导了企业IT领域的发展趋势:人们对人工智能应用的兴趣日益浓厚;同时,人们对生成式人工智能技术的期望也逐渐降低;此外,ERP软件供应商SAP也在持续努力,试图吸引客户使用其基于云技术的S/4HANA平台。

与往年一样,2025年也发生了一些重大的企业IT灾难,包括服务中断、部署失败,以及针对供应商的诉讼。我们最近发布了一份<#>人工智能相关灾难的清单,因此在这里就不会再重复讨论这些事件了;同时,我们也基本上没有提及数据泄露事件,因为仅这一年度发生的重大网络攻击事件就多达数百起。

只要说“请”就行了。

今年7月,美国清洁产品制造商Clorox向Cognizant提起了价值3.8亿美元的诉讼,指控这家IT服务提供商的客服人员将网络密码交给了那些通过电话索要这些密码的网络犯罪分子。

据Clorox称,2023年的那次攻击手段其实非常简单。“Cognizant并没有被任何复杂的阴谋或高明的黑客技术所欺骗,”<#>根据这份诉讼文件<#>,“那些网络犯罪分子只是拨打了Cognizant的服务热线,要求获取访问Clorox网络的权限,而Cognizant直接就把这些权限交给了他们。”

诉讼中提交的录音记录显示,客服人员向那些据称没有提供员工身份编号、经理姓名或任何其他验证信息的来电者提供了密码。

这次攻击被归咎于“散落蜘蛛”这个网络犯罪组织。这个组织<#>通常会使用更为复杂的手段<#>来针对受害者实施攻击。

ERP系统出了问题

医疗器械公司Zimmer Biomet于9月向德勤提起了金额高达1.72亿美元的诉讼,指控这家IT咨询公司在一次大规模的SAP S/4HANA系统实施项目中未能实现其承诺的结果。

这起诉讼指控德勤夸大了自身的能力,导致项目预算超支,并在该ERP系统尚未完全成熟的情况下,就迫使其在2024年7月正式投入使用。诉讼称,直到2024年第三季度,该ERP系统仍缺乏许多关键功能,Zimmer Biomet因此无法利用它来发货或接收货物、编制发票,也无法生成基本的销售报表。

根据诉讼指控,这些错误所带来的补救成本超过了7000万美元,同时Zimmer Biomet还要求追回其向德勤支付的1亿美元以上的款项。这家咨询公司称这些指控“毫无根据”。

电池爆炸:另一件需要令人担忧的事情

许多信息技术灾难其实都可以追溯到存在漏洞的软件或内部流程存在问题,但有时候,导致这些灾难的风险因素其实更为根本。

9月,韩国国家信息资源服务中心的政府数据中心发生了一场大规模火灾,导致存储在那里的<#>1,858TB政府数据丢失了。

这些丢失的数据被大约125,000名公务员所使用,他们负责运营着160多项面向公众的服务。一个主要问题是,NIRS系统并没有备份机制,有关官员表示,由于数据量巨大,因此将这些数据复制到其他地方实际上是不切实际的。

许多政府服务都受到了影响,包括纳税申报以及紧急救援服务;在受影响的系统中,仅有不到18%在一周内恢复了正常运行。

据报道,这场火灾是在进行例行维护作业时由于锂离子电池的移动而引发的。在工作人员将这些电池断开连接大约40分钟后,发生了爆炸,随后大火持续燃烧了约22个小时,近200名消防员参与了灭火工作。由于这些电池位于服务器附近,因此彻底扑灭这场火灾并将损失控制在最低限度显得尤为困难。

11月,由于被指控玩忽职守,该数据中心的负责人被免去了职务。

网络解决方案提供商InkBridge Networks的客户体验与产品副总裁Jana Sedivy指出,这一事件充分体现了备份的重要性。

“归根结底,这提醒我们:‘云存储’实际上就意味着‘使用的是别人的计算机’。”她说,“云存储确实很有用,但为了更加安全起见,最好还是为自己的数据备份再准备一份备份。如果这些备份数据并不连接在你的本地网络上,那就更好了。”

必不可少的云服务正在消失,第一部分

在6月份发生的那次<#>大规模系统故障期间,包括Gmail、Docs、Drive、Maps以及Gemini在内的多项谷歌云服务都陷入了瘫痪状态。此次故障的根源在于谷歌对“服务控制”系统所进行的政策调整——这一用于管理各类服务的系统由于某个程序中的空指针错误,导致多个产品的API功能出现了故障。

这次故障持续了七个小时以上,影响了包括北美、欧洲、远东和非洲在内的多个地区的谷歌云服务。此次中断影响了许多依赖谷歌服务的网页应用,比如Spotify、Snapchat和Discord,同时也影响了几项Cloudflare提供的服务。

尽管谷歌的网站可靠性工程团队在事件发生后的两分钟内就开始对这一情况进行紧急处理,但整个问题的解决过程还是花费了较长时间。某些地区在事件发生40分钟后就恢复了正常运行,但那些覆盖范围较大的地区则需要更长的时间才能恢复正常。

谷歌的工程师们写道:“在我们一些规模较大的地区,当服务控制任务重新启动时,这种行为会对其所依赖的基础设施产生连锁反应,从而导致这些基础设施不堪重负。”

谷歌承诺会将Service Control的架构进行模块化设计,从而有效隔离可能出现的各种问题。该公司还表示,未来会做得更好。

必不可少的云服务正在消失,第二部分
10月底,亚马逊网络服务的US-EAST-1区域发生了严重的故障,此次故障持续了大约三个小时,发生时间是在清晨。问题的根源在于该区域内DynamoDB API端点的DNS解析功能出现了故障,这一故障导致多个AWS服务的错误率上升、延迟增加,同时新实例的创建也出现了失败现象。

虽然AWS发布了一份<#>详尽的事后分析报告,但一些观察人士对该公司声称“已经解决了相关问题”这一说法表示怀疑。他们担心,当这些服务是由几十年前开发的技术组合而成的时候,人们会对这些大型云计算服务商产生越来越严重的依赖。

其他观察人士指出,AWS并没有详细说明这次故障究竟是由于什么原因造成的。

Hyve Managed Hosting的联合创始人兼董事Jake Madders表示,AWS的服务中断这一事件表明,IT领域的领导者们确实有必要多样化他们的云服务使用方式。

“AWS事件清楚地表明,即使是最大型、最可靠的云服务提供商也可能会遇到严重的故障,但这些风险是可以被缓解的,”他说。“通过选择不同的云服务提供商并分布在不同的地理区域,才能确保系统的冗余性,从而在发生故障时实现无缝的故障转移。”

必不可少的云服务正在消失,第三部分(以及第四部分?)

同样,微软的Azure云服务在2025年也发生了两次故障。

7月底,微软Azure美国东部地区的服务出现了故障,客户在尝试创建或更新虚拟机时遇到了资源分配失败的问题。造成这一问题的原因在于:由于需求量突然激增,微软的计算资源远远无法满足这些需求,因此出现了容量不足的情况。

微软称该问题已在8月5日之前得到解决,但几天后,仍有一些 <#>用户<#>抱怨称相关问题依然存在。

随后,在10月底,Azure再次出现故障,此次故障影响了其365、Xbox以及Minecraft系列产品线,同时也影响了Costco、Starbucks等企业运营的网站。

微软将这一问题的出现归咎于一次意外的配置更改。共有近2万名Microsoft 365的用户向该公司反映了相关问题,而在最初报告故障发生10多个小时后,仍有一小部分用户受到影响。

基本的互联网服务消失了

与上述例子不同,Cloudflare并不属于那些提供云服务的大型企业,但它确实提供了诸如内容分发网络服务、DDoS攻击防御机制以及域名注册等功能,这些都属于互联网基础设施服务的重要组成部分。

它本身也并非不会发生故障,其中一些故障与云服务提供商所面临的问题有关,正如上文所提到的。11月18日,由于一次常规的配置更改触发了一个潜在的漏洞,导致包括Spotify、X和ChatGPT在内的多个知名网站出现了故障。这个漏洞使得该公司的网络服务及其他功能在大约两小时内陷入了严重瘫痪状态。

Cloudflare的首席技术官Dane Knecht为这次服务中断表示歉意,并称公司正在采取措施以确保此类事件不再发生。他承认,这次服务中断“确实给用户带来了不便”。
鲁ICP备18054969号-19
ZSITE8.6