联通网络无法正常提供web服务

先说下公司的网络背景,公司总共有三条专线,电信两条、联通一条,DMZ区域(业务网)使用电信联通两条线路保证公司整体业务的稳定性,平时公司的所有业务都解析到电信的IP地址,联通线路作为备用,借调给办公网络的使用一部分(策略路由);另外一条电信承载办公网的主要网络流量(默认路由),大概的网络拓扑如下:

接下来就说下问题的开始吧,从上周开始说起吧,问题时间节点我分几段开始说起吧!
2017年7月17号下午
公司的联通线路不间断断开,造成办公网一部分解析到联通地址的用户,好多上不了网,没办法我又给把策略路由给停掉,让所有内网都使用电信的网络去上网。
2017年7月18日
第二天,然后我测联通的线路又恢复正常了,然后又给把联通的线加进来,结果没多久到了中午11点的时候,又开始断了结果一直持续到下午下班恢复了,链接10分钟又断开了,一直断断续续就没怎么连上,庆幸的是DMZ区域电信的线路一直没断,中途我给联通打了数次电话,给得到的结果是同一地区其他用户被攻击了。

下班前恢复了,然后我问部门领导是否把联通线路加回去,他的意思是观察一段时间,等稳定了在加回去,然后周五周末了,我就下班蹭同事的车回家了,路上同事告诉我新来的财务小姑娘(长得还不错),出去办事的时候把公司营业执照副本和公章给丢了,当时我很惊讶我们还多说了几句。

2017年7月21日
周一一早来了,联通的线路恢复正常了,也没发现出现什么问题,我又给把线路加进来,结果说什么来什么,电信的线路在中午11点左右的时候开始丢包,一直断断续续,不过比联通好点的是间断的时间不长最多就丢六七个包又连上了,当时部门领导给电信打电话,问电信的意思你们是不是也遭到攻击了,因为联通的线路刚遭受完攻击恢复,他认为可能是我们望京这边区域网络因为攻击都有波动,电信的人回复说没有,看到我们的出口还有流量。
然后领导怀疑到因为之前去年天融信负载设备,上线的时候出了好多问题,他觉得还是我们内网的问题,又是给天融信的厂家技术打电话让他们来,结果说之前部署的工程师离职了,曾经来了一个二把刀技术也不怎么行。
到了这会我给他出了一个主意,我说咱们单独弄一台PC机,直接接到公网配置公网IP,长ping电信的网关,这样就可以判断到底是我们内网的问题还是电信的问题了,结果问题测出来了是公网有问题电信的故障。下图就是21-22日的网络断开图,跳起来的全是断开的时间。

然后他又给电信打电话说明我们测试的结果,说明是他们的问题,他们的人说晚上过来检查线路,原本说是切换到联通的线路,但是由于是下午六七点钟,线上业务访问量还挺大(P2P行业),所以说等电信技术来看,实在不行就先切换到联通的线路上去,他和另外一个同事(Linux运维)留下来加班,所以让我就先回家了。

2017年7月22日 凌晨
夜里11点我都准备睡觉了,结果我一研发的同事告诉我业务全断了,他要开车去公司最好也带上我,说电信的那条线彻底断了,我一听这情况那就走吧。
等我我们俩到公司的时候刚好0点,我看见我经理正在满脸着急,脸上也不少汗,在调试天融信的负载设备,刚好电信的技术人员也刚到不久,光纤猫也换了问题还是依旧,说我们这栋大厦电信机房晚上进不去,只能明天一早找人拿钥匙进去,然后就把电信的人送走了,告诉他明天一早来。
接着我经理告诉我,他前天就睡得晚,太累了脑子乱了、已经没思路了,他已经把业务切到联通的线路上去了,让我看看看哪里还有问题,他又把之前调过负载设备的我另外一个同事,又给连夜叫过来了,让后就先睡觉了。
过了一会我们部门这位同事来了,看了半天负载设备,也没有觉得那里不妥,就说我们多添加了几个映射,其他的也没看出来有什么问题。然后我就开始分析了:
先查阿里云域名解析的地址是否有误,再查看负载均衡内网和公网IP的映射关系,地址都对了一遍也没有问题,然后ping、tracert、nslookup解析对外的域名都没有问题,不管是服务还是链路都可以,我也是没招了,但是在这时候我忽然间想到一件事:
我从上家单位离职的时候,公司正好搬家新开的电信的专线,然后技术人员开通我测速完事之后,送他们走的时候,我随口问了一句你们的线路我以后使用需要注意什么吗?然后他告诉我专线80端口需要在电信备案才能使用。
随后我告诉了我们当时在场运维和研发的同事,我的想法跟备案有关系,他们都觉得我的想法太荒谬了,怎么会跟联通有关系,都一脸不相信,但是我还是拿起了手机拨通了10019,联通企业服务电话,最后的结果请看下面。

已经凌晨3点多了,研发看完这个结果在后台那边改了个端口,验证了一下这个结果,果然前台APP的页面刷出来了,到了这会了他们都无话可说了,过了一会经理醒来了,问搞定了没我告诉了他根本原因,他一看也只能切回电信刚好这会电信的线路又恢复了,联通备案来不及啊,夜里联通备案的业务部门不上班啊,再一个就算要备案公司的营业执照副本、公章全丢了,给联通提交不了备案资料(丢营业执照副本、公章的姑娘已经被开除了,虽然她长得还不错),公司在补办。
这会大家都轻松了,以为电信的线路恢复了都休息了,我在工位继续盯着,结果不出一个小时电信的线又断了,我趴桌子上睡到6点,我研发的哪位同事叫我一起回家,我就跟着一起回家了,遇到这事真也是无解了,只能祈祷原电信的线路恢复。
回家之后我8点多刷了一次网页,上面研发已经重新挂页面显示停机维护,然后到了11点左右电信终于恢复了。
2017年8月23日
昨天晚上白天在家里睡觉,今天早上到了公司,上午问了下部门经理,他告诉我说是昨天他跟着电信的人一起进机房了,然后就把连接我们公司的网线重新插拔了下然后网络恢复了,据说机房温度有点高,好像说空调有问题,事情到这里也就算结束了。
我想这个结果对所有人来说都挺无语的,问题的根本就是插拔网线这事就解决了?但是对这个问题我有点个人想法。网线的问题,一般就是直接上不了网,怎么会一会丢几个包,一会又能连上。还有一种情况是延迟特别大,我曾经在以前的工作单位见过,然后给那台主机换了条网线就正常了;光纤的问题,大家都知道竖井里面一般都是穿光缆,然后两头再使用尾纤进行熔接,再通过光电转换器转换成电口插到相应的设备上,如果当初尾纤熔纤的时候,使用酒精对玻璃丝没有擦拭干净,里面有灰尘的话,会不会也造成有丢包这种现象,我个人更倾向后者。
总结一下,我觉得不管任何时候处理计算机故障的时候,一定不要让你的思路被别人带着走,如果你会这个东西,一定要有自己的思路,其二在判断问题的时候要综合多方面考虑,除了对主观因素的肯定,也要排除掉所有客观因素的影响。

感谢群里9哥的来稿,感谢提供给我们的甲方排障思维,有时候确实能一针见血。

原创文章,转载请注明: 转载自笛声

本文链接地址: 联通网络无法正常提供web服务

9 条评论

  • 姜辰 2017年8月24日 回复

    看了半天,感觉是大佬们需要解决的。

  • 苏格 2017年8月30日 回复

    我看了半天还是不太懂

    • dige 2017年9月10日 回复 作者

      网站初驰于电信之上,电信崩,上联通,联通80没备案,把流量断。

  • 瑞尔思 2017年9月10日 回复

    没事多备案几个域名备用,备案的时候时候还要备注开放端口啊?这真无语了

    • dige 2017年9月10日 回复 作者

      评论实名认证,今后博客若不想唱独角戏的话,域名迁出去,空间也用外面的,不然就想办法转成静态博客。

  • 雨巷博客 2017年9月14日 回复

    我来转悠转悠

    • dige 2017年9月15日 回复 作者

      你达达的马蹄是个美丽的错误,你不是归人,是个打酱油的。

  • 邹振忠 2017年10月23日 回复

    辛苦了。

  • 迎風别葉index 2018年2月10日 回复

    备案是肯定要的,不然不可能给开80的。现在都开始封443了,很多客户的sslvpn都断了,蛋疼。然后你这种情况,插拔一下就可以,可能是光收发器有点问题。

发表评论

电子邮件地址不会被公开。 必填项已用*标注