使用阿里云后的第一次故障

昨天,显示申请了一个200G 的磁盘,然后想了想,好像也用不了,就又把这个磁盘删除了。

然后总觉得1核的2G 作为 linux 主机,内存占用比较厉害,虽然只是一个 wordpress,于是升级到了4G,想以后还可以挂点小应用。

问题来了,当我重启实例之后,网站无法访问了。于是用了几周阿里云,碰到了问题。

对于 linux 的很多磁盘操作并不熟悉,不敢乱来。wordpress 的 jetpack 挺好,一直在提醒我网站不能访问了,于是提交了工单,阿里云的客服问我要了 root 密码之后,一会也就修复了。

原因是:

“您的/etc/fstab中有数据盘的挂载设置,但是服务器没有数据盘,系统启动时找不到数据盘所以出现问题,我们将这个配置注释掉重启服务器后测试正常”

看来用现在的云服务的确和之前玩虚拟主机不一样,灵活度大大增强,有些操作还是要小心一些的。

阿里云的工单体系做的非常好,设计的很人性化,值得学习。

2017.8.21 由微信部分功能故障所想

像微信这样的程序以及背后的架构,是非常复杂,也非常牛 x 的,春节这么发红包都不会弄垮它。可惜,只要是人写的系统,总是会有意外发生。下午,有同事说微信不能转账了,后来看到新闻说下午微信部分功能不能使用,包括支付、公众号、分享等。下午四点十分左右,据说所有功能恢复。

作为信息中心的一员,每次遇到故障总是最令人揪心的,这也是最近几个月工作强度非常大的原因之一,为了让系统稳定健壮。

现在想起来,技术发展的空间的确还很大,服务器、数据库等技术这些年已经经历了几百倍甚至更多的性能的增加,而系统的复杂度也是大大增加了,记得以前 CS 架构、三层架构,基本就可以解决问题了。现在我们研究的是 micro service、serviceless、灰度、内存数据库、流式计算等等。有趣而烧脑。