SAN可能十分复杂且不稳定。尤其是管理不善的时候更是如此。解决这一问题并非易事,因为良好的设计并不总能轻易达成,而且FC标准松懈,使互操作性也成为一个问题。本文首先回顾常见的SAN问题,阐述如何诊断这些问题,并且针对如何在第一时间防止这些问题,给出一些建议。
>一个复杂的存储网络可能出现大量问题。根据问题征兆,将问题范围缩小为下述某个问题,可以更快地发现并解决问题。所有的故障可以归类为以下某个问题:
>兼容性问题
>尽管FC SAN已经存在15年甚至更长时间了,但并非所有的设备都能彼此兼容。许多SAN问题通常由组件互不兼容引起。所有的存储供应商都会发布一定格式的支持模式,记录已经测试并支持的配置选项,包括存储阵列微代码、SAN交换机固件和主机硬件/软件的配置选项。
>超过容量极限
>显而易见,饱和的SAN端口会引起各种问题,这些问题可能转化为晦涩难懂的应用程序问题。通常,很容易检查SAN中的主机或存储端口,也很容易判断端口是否处于100%忙碌状态,但是很难判断负载过重的交换机内链路(ISL)是否为罪魁祸首。有时候I/O本身不是问题,相反,网络中的扇出率(分配给存储端口的HBA数量)、交换机数量等超过限制时,可能引起连接问题。
>配置或分区错误
>分区不佳或不当可能是最常见的SAN问题之一。这可能是因为我们经常更改SAN分区。也可能是因为分区包括16位十六进制的全域名(WWN)。
>怪异的连接和电缆
>网络电缆发生故障时,似乎不会完全失效。相反,只是缓慢地、间断性地失效。在慢慢失效的过程中,它们令应用程序和管理员非常恼怒。
>存储阵列配置问题
>每种存储阵列的管理方式都有一定差异,但是具有一些共同的基本概念。例如,必须通过前端SAN端口,为主机HBA创建和分配逻辑单元数(LUN)。这类问题通常是由于存储管理员在配置阵列时出现打字排版错误。
>主机配置问题
>服务器可能出现许多问题。大部分SAN组件都可能如此,包括卷管理器、操作系统、多路径软件、HBA驱动器、HBA固件和HBA硬件。这些组件必须根据存储供应商的说明书加以配置,否则你就可能遇到麻烦。
>SAN硬件故障
>我有意将硬件故障放在常见SAN问题清单的最后,因为我们通常会最先检查硬件,硬件很少会成为问题。目前,SAN硬件已经相当可靠,不过还是会偶尔出错。影响主机访问的常见故障为SPF端口故障、端口卡故障以及交换机故障。
>判断问题
>发现并解决SAN问题需要明确了解自己想要什么样的配置,以及期待系统具有什么样的行为。发生问题时,排除功能正常的组件,将问题范围缩小到基本领域:SAN、主机和存储。问自己这些问题:
>是SAN的问题吗?
>SAN近期是否发生了变化?询问一下,检查SAN日志,将正在运行的配置选项与文档记录相比较。问题是否为相关的SAN报告事件或错误?查找发生故障的端口、最近的端口注销情况或网络重建情况。
>是主机的问题吗?
>其它主机能否明白我们所讨论的存储?本台主机能否明白其它存储?HBA是否登录网络?最近,主机是否曾发生变化?主机系统消息日志中是否有和SAN相关的消息?
>是存储的问题吗?
>其它主机明白所讨论的存储吗?存储端口是否登录网络中?最近存储阵列有没有发生变化?存储阵列日志是否报告错误?
>检查支持模式
>定期审核存储模式,检查你的配置情况及所支持的内容。生产商通常会发现新的错误,并采用新代码加以修改。让你的软件处于最新版本,这样可以避免许多问题。
>记录SAN
>为了发现并解决问题,了解设计意图,这项工作很麻烦,也很重要。确保文档记录了主机、HBA、WWN和连接状况。应该包括存储、存储端口及其WWN。最后,SAN文档应该描述网络、ISL、域组、域和域数。