본문 바로가기
★━Server OS〃/3. HW 관리

[Server]Oracle ILOM Fault clear and SP reset

by Raynee 2021. 12. 31.
반응형

Oracle Server의 ILOM에서 Fautly 메시지를 지우는 방법과 SP(ILOM)을 reset 하는 방법.

 

SP(ILOM) Reset은 OS영역이 아니기때문에 운영과 상관이 없다. 서버 관리 목적을 위한 별도의 OS가 있다고 보면 된다. 

 

ILOM에서 서버를 기동 및 중기도 할 수 있고 cosole접속도 가능하다. 

 

ILOM Faulty 메시지 확인 및 삭제

Webpage에서 하고 웹페이지 접속이 안되면 ssh에 접속하여 remote console에서 확인 가능하다.

 

## Webpage ##

 

 

## ILOM CLI ##

SSH를 통해 ILOM에 접속한다. IP셋팅이 되어 있고 RJ45케이블이 연결 되어 있으면 SSH를 통해 접속. 

[root@msddbadm02 ~]# ssh 192.168.63.34
The authenticity of host '192.168.63.34 (192.168.63.34)' can't be established.
RSA key fingerprint is 09:9f:f2:d0:b8:ae:80:fb:7f:0c:a6:97:b2:5d:62:b1.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added '192.168.63.34' (RSA) to the list of known hosts.
Password:

Oracle(R) Integrated Lights Out Manager

Version 3.2.6.24.a r109321

Copyright (c) 2016, Oracle and/or its affiliates. All rights reserved.

Warning: HTTPS certificate is set to factory default.

Hostname: msddbadm02-ilom

->

 

CLI에서 통해 메모리 Faulty 메시지 확인

-> show /SP/faultmgmt

/SP/faultmgmt
Targets:
shell
0 (/SYS/MB/P1/D11)      -> faulty가 메시지가 발생

Properties:

Commands:
cd
show

 

Faulty 가 발생한 곳으로 이동 하여 상태 확인 

-> show /SYS/MB/P1/D11

/SYS/MB/P1/D11
Targets:
PRSNT
SERVICE

Properties:
type = DIMM
ipmi_name = MB/P1/D11
fru_name = 32768MB DDR4 SDRAM DIMM
fru_manufacturer = Samsung
fru_part_number = 07075400,M393A4K40BB1-CRC
fru_rev_level = 01
fru_serial_number = 00CE021607319E123B
fault_state = Faulted         ->   상태가 Faulted 확인
clear_fault_action = (none)

Commands:
cd
set
show

 

Faulty 메시지를 클리어 해준다. 만약 해당 명령어를 통해 지워지지 않는다면 HW Faulty로 메모리를 교체 해줘야 한다. 

-> set /SYS/MB/P1/D11 clear_fault_action=true
Are you sure you want to clear /SYS/MB/P1/D11 (y/n)? y
Set 'clear_fault_action' to 'true'

->

 

Faulty 메시지가 클리어된 걸 확인

-> show /SYS/MB/P1/D11

/SYS/MB/P1/D11
Targets:
PRSNT
SERVICE

Properties:
type = DIMM
ipmi_name = MB/P1/D11
fru_name = 32768MB DDR4 SDRAM DIMM
fru_manufacturer = Samsung
fru_part_number = 07075400,M393A4K40BB1-CRC
fru_rev_level = 01
fru_serial_number = 00CE021607319E123B
fault_state = OK
clear_fault_action = (none)

Commands:
cd
set
show

 

SP(ILOM) re-booting

SP(ILOM)을 re-booting은 online 중에 가능하며 OS영역과 별개이기 때문에 영향도는 없다. 

 

->  reset /SP

 

 

 

수동으로  결함 메시지 지우기

-> start /SP/faultmgmt/shell

faultmgmtsp>
faultmgmtsp> fmadm faulty

 

  • fmadm repaired /SYS/MB/FM0
  • fmadm repaired /SYS/PS1
  • fmadm replaced /SYS/MB/FM0
  • fmadm replaced /SYS/PS1

 

반응형

'★━Server OS〃 > 3. HW 관리' 카테고리의 다른 글

dell server와 storage 제품 라인업  (0) 2023.12.25
[Oracle H/W] XSCF command  (0) 2020.09.03

댓글