造价通

反馈
取消

热门搜词

造价通

取消 发送 反馈意见

分享那些在磁带库上爬过的坑

2018/09/06102 作者:佚名
导读:来自社区会员分享案例 5 则,均是磁带库日常运维中的典型故障。 在STK L180磁带库上爬过的坑 故事发生在几年前,在更换机房的一组光纤交换机的实施过程中,原光纤交换机因使用超限,决定将其更换为博科DS5100。交换机下联设备有存储、小型

来自社区会员分享案例 5 则,均是磁带库日常运维中的典型故障。

在STK L180磁带库上爬过的坑

故事发生在几年前,在更换机房的一组光纤交换机的实施过程中,原光纤交换机因使用超限,决定将其更换为博科DS5100。交换机下联设备有存储、小型机、磁带库。光纤交换机使用端口zone,并反复确认了zone配置信息。切换当天,按照计划顺利实施。验证小型机和存储链路均正常。但业务验证时发现,NBU备份软件中,手动执行备份任务,有部分失败。

故障现象:

查看NBU备份软件中日志,关于执行备份任务的报错,发现在STK L180磁带库上执行的备份任务均失败。

检查过程:

首先,查看光纤链路标签,确认实施前后一致。接着,确认DS5100光纤交换机与L180磁带库的端口和ZONE划分也配置正确。然后,详细分析了交换机log信息,发现连接磁带机光纤卡的两个端口,只有FX流,没有RX数据流。

根据,以上故障现象及检查方式,基本上先排除光纤交换机和光纤链路的问题。问题聚焦在STK L180磁带库上。因平时很少出现问题,面对这台老古董,确实无从下手。

L180磁带库有3块光纤卡,其中一块为机械臂的光纤卡,另两块为磁带机的光纤卡。重新手动发起备份任务,观察老古董的工作,发现其机械臂可将磁带抓入磁带机,但两个磁带机均无法进行正常读写。备份任务无法正常执行。初步怀疑是两台磁带机的光纤卡有问题,可是磁带机上的光纤卡上连指示灯都没有,继续崩溃中。。。

硬着头皮在L180磁带机的面板中翻看信息,状态显示都正常无报错信息。继续仔细检查,发现两个磁带机的光纤卡速率speed仅为1 GBIT。 显示信息:speed : 1GBIT

1GBIT?会不会是跟新更换光纤交换机的端口速率不匹配呢?可是怎么修改磁带库的光纤卡速率呢?在面板上把所有选项翻个遍,根本没有更改端口速率的选项。心想,先不在这台老古董上浪费时间吧,去光纤交换机上改下吧。

紧接着登录到DS5100光纤交换机上,查看磁带机连接的端口模式为自适应,会不会是无法自适应1GBIT呢?决定将光纤交换机的该端口速率强制为1GBIT,修改后,重新执行备份任务,老古董的机械臂将磁带抓入磁带机中,然后就没有声音了。。。还是之前的故障现象。。。

马上跟光纤交换机厂商工程师确认,该型号交换机端口虽然可以强制1 GBIT,但硬件只能支持2 GBIT和4 GBIT以上。

看来,只能寄希望于修改这台老古董身上了,翻出已经落了灰的产品手册,看了2个多小时,终于发现了线索,L180磁带库在前面板上没有配置选项可以直接更改磁带机的光纤卡速率,只能通过修改LOOP ID值。LOOP ID 值为80,磁带机光纤卡速率为1 GBIT。Loop ID值 为126,磁带机光纤卡变为自适应。放下产品手册,赶紧跑到面板前,找到Loop ID的修改位置,将ID值改为126,磁带机的光纤卡速率变为自适应, 显示信息:speed : auto。

重新再NBU中发起备份任务,磁带机终于转动了。

(社区会员qq373793057分享)

AIX 7.1环境NBU备份Oracle rac数据库,磁带库驱动器故障导致备份失败案例

故障现象:

AIX 7.1环境下 NBU 备份oracle rac数据库时,磁带库驱动器故障导致备份失败。

报错提示为 driver load tape error。

故障原因:

根据报错信息定位由于带库驱动器无法正常装载磁带导致备份失败,通过WEB登录带库管理界面查看驱动器状态,发现带库驱动器offline状态。可以判断带库驱动器故障,同时log显示有驱动器error信息,确认驱动器故障后,在nbu Device Monitor界面禁用故障的驱动器,防止备份作业再次调起故障的驱动器,同时将驱动器里的磁带手工弹出,此时联系厂家更换驱动器,更换完成后再NBU上启用驱动器,进行作业备份,测试驱动器工作正常。

更换驱动器后备份恢复正常。

(社区会员qb306分享)

昆腾QUANTUM i40 物理带库备份失败案例

带库描述:QUANTUM i40 –HP LTO4 tape drive-head

故障现象:

win2003+NBU+昆腾i40物理带库,突然无法备份,系统能识别到带库驱动器,NBU软件也正常识别到磁带,但是无法备份。

检查过程:

1、将带库下架,拆除顶板,进行带库抓取,拿出,清洗,驱动器、机械臂、磁带物理状态检查,正常!

2、带库-SAN交换机-服务器,之间的链路状态检测,端口替换,光纤模块替换检查,正常!

3、NBU重新配置,驱动重打,还是无法备份。

最后联系昆腾原厂,现场诊断,原厂说可能是驱动器磁头磨损,带库管理界面无任何报错,最后将驱动器寄回原厂更换磁头,恢复正常!!!!

(社区会员ACDante分享)

TSM+昆腾磁带库的小案例

TSM6.3.4 +昆腾i500 环境。

故障现象:

由于带库使用昆腾i500,不属于ibm的嫡系部队,所以只能使用tsm 自动驱动程序进行驱动,开始的时候一直使用没有问题,直到有一天,其中的两个个驱动器读写报错,后来检查确认是磁带的问题,拿掉故障磁带后就好了,这时使用tsmdlst

重新使用识别扫描不好使,重启os和带库均不好使。

后来来个干脆的:

TSM服务器关闭,带库断电 10分钟,重新启动带库,服务器验证。

正常了。

再不行,我就准备杀招了(删除drive,path的定义)

这个问题啊,有可能还是tsm和带库版本兼容不太好的一面吧。

(社区会员董志卫分享)

TS3200卡带故障解决案例

机器:TS3200

管理系统:TSM

报错如下:

连接磁带库管理口状态如下:

控制器状态:

控制器1报错,显示超时查看磁带仓库分配状态:

从图中看出:控制器正在读写11仓磁带“W00007L5,且该磁带出现故障,原因应该为损坏磁带引起控制器卡带。

界面进行移动磁带,重新分配磁带,损坏磁带无法转入I/O仓

解决:

断电拆开控制器:

卡带

拔出损坏磁带后安装回控制器

重新上电,初始化需要时间

拔除损坏磁带后进行备份

2016-10-10-09.48.53

ANR0944E

QUERY PROCESS:找不到活动的进程。 (会话: 21)

2016-10-10-09.52.29

ANR2034E

QUERY EVENT:使用此条件时找不到匹配的项。 (会话: 23)

2016-10-10-09.52.29

ANR2034E

QUERY EVENT:使用此条件时找不到匹配的项。 (会话: 23)

2016-10-10-10.00.12

ANR2034E

SELECT:使用此条件时找不到匹配的项。 (会话: 21)

2016-10-10-10.00.13

ANR0944E

QUERY PROCESS:找不到活动的进程。 (会话: 21)

2016-10-10-10.09.43

ANR7808W

Sun Microsystems 库连接模块 libacs.dll 在该系统上不可用。

2016-10-10-10.09.45

ANR8470W

库 LB0.1.0.4 中驱动器 MT0.0.0.4 初试化错误。

2016-10-10-10.09.45

ANR8470W

库 LB0.1.0.4 中驱动器 MT1.0.0.4 初试化错误。

2016-10-10-10.10.00

ANR1414W

由于以前的写错误,卷 W00041L5 的访问方式是“只读的”。

2016-10-10-10.10.00

ANR1412W

卷 W00014L5 的访问方式是“unavailable”。

2016-10-10-10.10.00

ANR1412W

卷 892AABL5 的访问方式是“unavailable”。

2016-10-10-10.10.00

ANR1412W

卷 W00043L5 的访问方式是“unavailable”。

2016-10-10-10.10.00

ANR1412W

卷 W00009L5 的访问方式是“unavailable”。

2016-10-10-10.12.29

ANR0535W

节点 ORA_PRD(TDP Oracle AIX)的会话 1 的事务已失败 - 没有足够的安装点可用,不能满足请求。 (会话: 1)

2016-10-10-10.12.47

ANE4994S

TDP Oracle AIX ANU0599 TDP for Oracle: (25297138): =>(ora_prd) ANU2602E The object /adsmorc//arch_PRD_924861811_35538_1_20161010 was not found on the TSM Server (会话: 2)

2016-10-10-10.20.12

ANR2034E

SELECT:使用此条件时找不到匹配的项。 (会话: 4)

2016-10-10-10.20.14

ANR0944E

QUERY PROCESS:找不到活动的进程。 (会话: 4)

2016-10-10-10.20.26

ANR2034E

SELECT:使用此条件时找不到匹配的项。 (会话: 4)

2016-10-10-10.20.27

ANR0944E

QUERY PROCESS:找不到活动的进程。 (会话: 4)

显示失败

原因为拔插控制器之后,TSM无法直接online起控制器需要进入命令行手工执行命令online起

命令:q drvie 查看库转台

q path 路径状态

q libary

online起驱动器:update path tsmserver server1 srctype=server desttype=drive library=LB0.1.0.4 device=MT0.0.0.4 online=yes

最后TSM备份成功

(社区会员Diness分享)

*文章为作者独立观点,不代表造价通立场,除来源是“造价通”外。
关注微信公众号造价通(zjtcn_Largedata),获取建设行业第一手资讯

热门推荐

相关阅读