关于1月2日系统故障复盘

2021年1月2日早上6点,我们陆续收到大量服务器异常报警及会员对接口异常的反馈,但由于正值假期且发生时间较早,直到8点,运维人员才看到报警信息,并联合技术进行紧急处理,于9点50分,开始陆续恢复,并于9点58分全部恢复正常。

以下为本次故障复盘。

  • 现象:
    • 客户视角:接口无法正常调用,网站无法正常登录。
    • 开发视角:接口响应超时。
    • 运维视角:所有服务器CPU使用率高达100%,TCP连接数爆涨400%~500%,服务器读写爆涨300%,后端服务器及容器全部离线超时。
  • 分析:
    • 第一时间进行了TCP排查,发现有大量无效请求,同时IP为港澳台及海外的居多。在将IP进行了动态拉黑后请求依然超时。
    • 排查系统日志,发现某会员接口调用量激增,且多为无效请求,对该会员进行了封禁并做服务器IP拉黑处理,TCP连接数下降了300%,接口仍超时。
    • 排查缓存数据库,发现数据库使用率高达110%,紧急对数据库进行升级后,服务器恢复正常。
    • 分析整理:某会员存在恶意接口调用,在恶意调用期间,发起DDOS及泛洪攻击,攻击流量高达1TB,造成TCP连接数爆涨,缓存数据库击穿。
  • 反思:
    • 报警通知:我们将在现有短信+邮件通知的基础中,增加电话通知来进行报警通知,确保第一时间接收通知报警。
    • 提早防范:每日发送接口稳定性及服务器稳定性报告给运维,及早发现问题。
    • 安全防护:在现有防火墙基础中增加DDOS防火墙,全力保障安全
    • 服务器:在现有20台服务器基础上,增设自动扩容机制。

一次事故,一次深度的反思。感谢亲们不离不弃的支持,也很抱歉给亲们带来的不便。2021,我们将崇心出发,打造zui好用的API接口平台!

云商数据(喵有券团队)

2021年1月2日

点赞

发表评论

邮箱地址不会被公开。 必填项已用*标注