对于自下而上的网络故障修复,首先要检查网线,接着是协议堆栈。当有一个用户出现故障时,我们可以很容易地从物理层开始,然后一直往上修复。当EMI和/或环境相关的错误引发问题时,可以研究一下习惯性的问题。比如,我曾经有一个客户,有一次,有那么几天他的线路天天在3:00时出现问题。而问题在第二天早上时消失了。在查看了趋势分析报告之后,我发现流量在某个相同时间出现增长。不管电子器件中的连接如何移动,总是发生同样的事情。对问题的跟踪对我来说是一个噩梦。结果显示,在那几天喷水设备总是打开的并且室外电缆没有保护膜而是安装在建筑的地基下(还被草坪覆盖着)。当水分蒸发了,问题也就不复存在了。
如果错误的出现要么是连续的要么是间歇性的,那么检查一下物理层是一个不错的做法。区域结束的接插线是一个特别常见的问题原因,但是其它的环境条件也可能造成问题。当移动墙壁时,以前安装在远离日光灯支架的电线可能不再处于在可接受范围之外的,新的电源抛插线板可能安装得太靠近等等。非常值得关注的是,我们不能通过查看交换机端口上的连接信号灯来确定线路的好坏。正如电子设备一样,连接是需要一定条件的,但是如从发送者到接收者之间的信号是递降的,那么数据包就是没有用的。记住这样一种说法“灯是亮着的,但是家里没人”。这对于铜线或者光纤而言都是正确的。
如果我们安装的是Gigabit以太网,并且在采用信道性能的新参数之前安装了电缆,那么同样需要重新验证电缆的新参数。我们必须注意到,当测试设备的任何物理层媒介操作时,往往这种做法是在原始的实验室环境中进行的。而实际的安装可能要根据大量的外部因素来改变。如果我们使用自下而上的方法,那么需要检查所有的物理媒介,并且这个步骤是不可以跳过的,因为我们可以ping一下设备或者查看连接信号灯。另外一方面,如果我们没有看到连接信号灯亮——那问题就很明显了。
这样,我们可以继续我们的检查步骤——检查网卡诊断、交换机端口统计,然后到应用。如果只有一种应用不再工作,那么我们必须从上面开始检查。如果几个应用都不工作或者一个工作站上的所有的应用都不工作了,那么我们必须从下面往上开始检查。同时,记住,有时问题会出现在中间层,那么这个规则会反向进行。