百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

IBM服务器raid5崩溃数据恢复方案及过程

ahcoder 2025-05-22 08:57 10 浏览

IBM X3850服务器,5块SAS硬盘,其中4块组成一个RAID5,另一块作为热备盘(Hot-Spare),3号盘早已经离线,但热备盘未自动激活rebuild(原因不明),之后2号盘离线,RAID崩溃。操作系统为linux redhat 5.3,应用系统为构架于oracle的一个oa,数据重要,时间很急,用户要求尽可能数据恢复+操作系统复原。

经工程师分析检测发现热备盘完全无启用,硬盘无明显物理故障,无明显同步表现。这种情况数据通常可恢复。以下是工程师给出的恢复方案:

【恢复方案】

保护原环境,关闭服务器,确保在恢复过程中不再开启服务器。将故障硬盘标好序号,确保在拿出槽位后可以完全复原。将故障硬盘挂载至北亚数据恢复备份服务器环境下,对所有故障硬盘做完全镜像。备份完成后交回原故障盘,之后的恢复操作直到数据确认无误前不再涉及原故障盘。

对备份盘进行RAID结构分析,得到其原来的RAID级别,条带规则,条带大小,校验方向,META区域等。根据得到的RAID信息搭建一组虚拟的RAID5环境。进行虚拟磁盘及文件系统解释。检测虚拟结构是否正确,如不正确,重复上述过程。

确定数据无误后,按用户要求回迁数据。如果仍然使用原盘,需确定已经完全对原盘做过备份后,重建RAID,再做回迁。可以在故障服务器上用另外硬盘安装一个回迁用的操作系统,再进行扇区级别的回迁。

【数据恢复操作过程】

1、对原硬盘进行完整镜像,镜像后发现2号盘有10-20个坏扇区,其余磁盘,均无坏道。

2、分析结构:得到的最佳结构为0,1,2,3盘序,缺3号盘,块大小512扇区,backward parity(Adaptec)。

3、组好后数据验证,200M以上的最新压缩包解压无报错,确定结构正确。

4、直接按此结构生成虚拟RAID到一块单硬盘上,打开文件系统无明显报错。

5、确定备份包安全的情况下,经客户同意后,对原盘重建RAID,重建时已经用全新硬盘更换损坏的2号盘。将恢复好的单盘用USB方式接入故障服务器,再用linux SystemRescueCd启动故障服务器,之后通过dd命令进行全盘回写。

【系统复原过程】

dd所有数据后,启动操作系统,无法进入,报错信息为:/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied

怀疑此文件权限有问题,用SystemRescueCd重启后检查,此文件时间,权限,大小均有明显错误,显然节点损坏。

重新分析重组数据中的根分区,定位出错的/sbin/pidof/datahf.net,发现问题因2号盘坏道引起。

使用0,1,3这3块盘,针对2号盘的损坏区域进行xor补齐。补齐后重新校验文件系统,依然有错误,再次检查inode表,发现2号盘损坏区域有部分节点表现为(图中的55 55 55部分):

很明显,虽然节点中描述的uid还正常存在,但属性,大小,以最初的分配块全部是错误的。按照所有可能进行分析,确定无任何办法找回此损坏节点。只能希望修复此节点,或复制一个相同的文件过来。

对所有可能有错的文件,均通过日志确定原节点块的节点信息,再做修正。

修正后重新dd根分区,执行fsck -fn /dev/sda5/datahf.net,进行检测,依然有报错,如下图:

根据提示,在系统中发现有多个节点共用同样的数据块。按此提示进行底层分析,发现,因3号盘早掉线,不存在节点信息的新旧交集。

按节点所属的文件进行区别,清除错误节点后,再次执行fsck -fn /dev/sda5,依然有报错信息,但已经很少。根据提示,发现这些节点多位于doc目录下,不影响系统启动,于是直接fsck -fy /dev/sda5/datahf.net强行修复。修复后,重启系统,成功进入桌面。启动数据库服务,启动应用软件,一切正常,无报错。到此,数据恢复及系统回迁工作完成。

相关推荐

Linux抓包工具tcpdump安装和使用,监视网络接口小工具大用途

Tcpdump工具是一个抓包工具也是一个协议分析软件。强大的功能和灵活的截取策略,使它成为Linux统下网络分析和问题排查的首选工具。tcpdump可以将网络中传送的数据包的头截获下来做分析。它支持...

linux安装lnmp一键安装包

一般企业正式服环境用的lnmp.org一键安装包,下面做下简单介绍:官网:https://lnmp.org1.安装(官网上有详细的安装步骤)screen-Slnmp是为了在安装的过程中,断线的后台...

Linux 安装Oracle11.2.0.4 (静默安装法)

一、环境准备1下载安装包已上传至对象存储,一共两个包#oracle11.2.0.4_1of7.zipwgethttps://oss-cn-north-1.unicloudsrv.com/sc-...

Ubuntu入门使用之 24.04 如何安装命令工具(或软件包)

如果你是初学者,在Ubuntu24.04上运行命令时遇到错误,这意味着运行该特定命令所需的软件包在你的系统中不可用。无论你是刚开始探索Linux世界,还是从旧版本升级而来,你可能会想知道如何...

Linux 安装代理 实现Windows Proxifier 功能

场景:linux上的应用---------->代理服务器(socket5)--------------------目标服务实现方案通过ProxyChains+Socat这2个工具来实现,具体...

Python保姆级安装教程(CPU+GPU)

以下是为您整理的2024年Python保姆级安装教程(CPU+GPU详细版),涵盖Windows、macOS和Linux系统,并详细说明GPU环境的配置(如CUDA、cuDNN等...

linux安装oracle

需要安装oracledataguard,所以先要安装单台oracle11g,下面是单台oracle11g的详细安装过程。1,安装环境硬件环境:2台linux虚拟机,Centos6.4,4G,4核...

Linux安装Nginx详细教程

Nginx是一款高性能的开源Web服务器软件,它被广泛应用于构建高性能的网站和应用程序。本文将向您介绍如何在Linux操作系统上安装和配置Nginx服务器。一、下载nginx1.1、手动下载进入ngi...

选择LINUX安装平台

您已经选择了Linux发行版,并准备开始安装过程,但您需要确定您的硬件选项。以下是从哪里开始。译自Linux:ChooseanInstallationPlatform,作者Damon...

用Linux“还原”Win11,AnduinOS创始人公布1.4/1.5版本更新计划

IT之家5月24日消息,据外媒Neowin今日报道,AnduinOS的唯一开发者AnduinXue近日公布了“类Windows风格”Linux系统未来的版本规划。他表示,A...

Linux lsof命令使用小结

推荐理由lsof(listopenfiles)是一个列出当前系统打开文件的工具。在Linux环境下,任何事物都是以文件的形式存在,通过文件不仅可以访问常规数据,还可以访问网络连接和硬件。所以,如传...

Linux进程管理—信号、定时器使用详解

信号:1.信号的作用:背景:进程之间通信比较麻烦。但进程之间又必须通信,比如父子进程之间。作用:通知其他进程响应。进程之间的一种通信机制。信号:接受信号的进程马上停止,调用信号处理函数...

Nexus 3 本地搭建与使用实战指南(适用于 Linux 与 Win11)

一、背景与介绍在DevOps流程中,本地镜像仓库能显著提升镜像下载速度、增强安全性并保障离线可用性。本文将手把手教你在Linux和Win11上分别部署并使用Nexus3搭建Dock...

字节跳动介绍使用AI优化Linux内核成果,可减少30%内存用量

IT之家11月23日消息,据外媒zdnet报道,字节跳动日前在LinuxPlumbersConference上介绍了通过使用AI优化Linux内核的成果,号称可以取得“显著...

一文带你了解 Linux 文件权限,从基础到高级

在Linux中,每个文件和目录都关联了一组权限,定义了不同用户对其的访问能力。权限分为三类:读取(read,r)、写入(write,w)和执行(execute,x),分别用字母r、w、x...