EMC DataDomain的离线故障诊断方法

发布时间:2017-04-11 09:07:02

 

如果DataDomain存储系统可以正常开机登录的情况下,可以使用DD OS的命令行进行很多的故障排查和诊断,如system statusenclosure show all等。同时系统也定期自动进行这方面的检查,如果发现问题,及时发出Autosupport告警信息。

但如果DD OS系统彻底不能启动的时候,或者被人拔了盘和卡等的情况下,该如何进行系统的故障诊断呢?本文就是介绍在DD OS系统不能正常启动情况下的故障诊断方法,也叫做offline diagnostics

那么什么时候使用offline的故障诊断方法?主要是下面几种情况下,需要使用offline的故障诊断:

  • 系统不能正常启动,也就是起不到DD OS了。
  • 系统经常出现hung死现象或者严重的性能问题,offline的故障诊断可以有效的分离出性能问题和特定的硬件故障。
  • 在线故障诊断发现问题,使用离线故障诊断进一步隔离故障点。
  • 在线故障诊断仅仅能够识别到系统可以访问到的部件,但离线故障诊断可以对所有的部件进行诊断分析。
  • 一些备件供应商已经拆掉了一部分备件,系统无法正常运行。可以使用离线故障诊断来对其他部件的运行状况进行分析。

下面我们看看可以对DataDomain存储系统的那些部件进行离线检查:

 

FRU

测试名称

 

System inventory

System Controller Boot Disk

HDD Quick Test

System Controller Disks (all)

HDD Comprehensive Test

Fibre Channel HBA Card, Cable

Gateway Diagnostic

Memory (DIMMs)

Memory Diagnostics

Motherboard

CPU Test

CPU MCE Test

CPU SSE Test

Motherboard PCIe Topology Test

SAS HU Diagnostics Test

SATA HU Diagnostics Test

Ethernet Network Interface

Card (NIC)

Network Internal Loopback Test

Network External Loopback Test

NVRAM Card

NVRAM Card Test

Serial Attached SCSI (SAS)

Daughter and HBA

Expansion Cards

SAS Diagnostics Test

VTL HBA Card, Cable

VTL Diagnostic

Battery Backup Unit

BBU Diagnostic

 

要运行离线故障诊断,必须满足下面两个条件:

  • DD OS的版本必须是5.5以上
  • USB可启动的,安装5.5版本以上的大于2GB以上的U盘,插入DD控制器USB口中

下面我们以第一种方式为例来做个简单介绍。

连接consoleDD系统,如果控制器已经不能启动,直接通过按电源按钮或者插拔电源的方式来重新reboot,如果DD系统还正常启动,登录到系统后,运行system reboot, DD系统重新启动。

Reboot过程中,让系统进入GRUB菜单,如下图所示:

选择offline Diagnostics (Serial Console),系统进入离线故障账单子菜单,如下图所示:

可以选择对系统进行全部功能诊断,也可以仅仅选择对所关心的部件进行离线故障诊断。如果对整个系统进行自动故障诊断,所花费的时间会比较长,一般会有3-4个小时,取决于系统配置。下面我们仅仅选择对Fibre Channel、磁盘和SAS接口进行离线诊断,如下图所示:

选择Run selected Diagnostics, 系统会显示一个汇总窗口以及需要花多少时间的汇总。系统在完成诊断后,会给出一个问题汇总和建议,如下图:

本案例中,VTLFC HBA卡有问题,需要进行进一步的诊断分析。其他类似这里不在详细叙述。



中网通技术

北京 010-82538861

上海 021-68910296

广州 020-82038127

杭州 571-86799303

......

扫一扫