2021年1月2日早上6点,我们陆续收到大量服务器异常报警及会员对接口异常的反馈,但由于正值假期且发生时间较早,直到8点,运维人员才看到报警信息,并联合技术进行紧急处理,于9点50分,开始陆续恢复,并于9点58分全部恢复正常。
以下为本次故障复盘。
- 现象:
- 客户视角:接口无法正常调用,网站无法正常登录。
- 开发视角:接口响应超时。
- 运维视角:所有服务器CPU使用率高达100%,TCP连接数爆涨400%~500%,服务器读写爆涨300%,后端服务器及容器全部离线超时。
- 分析:
- 第一时间进行了TCP排查,发现有大量无效请求,同时IP为港澳台及海外的居多。在将IP进行了动态拉黑后请求依然超时。
- 排查系统日志,发现某会员接口调用量激增,且多为无效请求,对该会员进行了封禁并做服务器IP拉黑处理,TCP连接数下降了300%,接口仍超时。
- 排查缓存数据库,发现数据库使用率高达110%,紧急对数据库进行升级后,服务器恢复正常。
- 分析整理:某会员存在恶意接口调用,在恶意调用期间,发起DDOS及泛洪攻击,攻击流量高达1TB,造成TCP连接数爆涨,缓存数据库击穿。
- 反思:
- 报警通知:我们将在现有短信+邮件通知的基础中,增加电话通知来进行报警通知,确保第一时间接收通知报警。
- 提早防范:每日发送接口稳定性及服务器稳定性报告给运维,及早发现问题。
- 安全防护:在现有防火墙基础中增加DDOS防火墙,全力保障安全
- 服务器:在现有20台服务器基础上,增设自动扩容机制。
一次事故,一次深度的反思。感谢亲们不离不弃的支持,也很抱歉给亲们带来的不便。2021,我们将崇心出发,打造zui好用的API接口平台!
云商数据(喵有券团队)
2021年1月2日