Oracle

게시글 보기
작성자 유건데이타 등록일 2015-05-16
제목 ORACLE8 OPS BACKUP & RECOVERY
ORACLE8 OPS BACKUP & RECOVERY
=============================



SCOPE
-----
Standard Edition 에서는 Real Application Clusters 기능이 10g(10.1.0) 이상 부터 지원이 됩니다.


Explanation
-----------
OPS에서의 database backup & recovery 방법은 single instance의 backup 방법과
비슷하다. 즉, Single instance에서의 모든 backup 방법은 ops에서도 지원된다.

1. Backup 방법

다음의 backup 방법 모두 사용이 가능하다. 여기서는 2)의 os 명령을 이용한
backup 방법에 대해 기술합니다.

1) Recovery Manager (RMAN) : 참고
2) OS 명령을 활용한 백업
Noarchive log mode : full offline backup only
Archive log mode : full or partial, offline or online backup
3) export : 참고 : ORACLE 7 BACKUP 및 RECOVERY 방법


2. backup 정책 수립 시 고려 사항

1) disk crash나 user error 등으로 말미암은 손실을 허용하지 않는다면 ARCHIVE
LOG MODE를 사용해야 한다.
2) 대부분 모든 instance는 자동 archiving을 사용한다.
3) 모든 data backup 작업이 어떤 instance 건 가능하다.
4) media recovery 시 모든 thread의 archive file이 사용된다.
5) Instance recovery 시 살아있는 instance의 smon에 의해 자동으로 recovery된다.


3. Noarchive log mode : Full offline backup

1) 다음의 view들을 query하여 backup이 필요한 file을 알아낸다.
V$DATAFILE or DBA_DATA_FILES
V$LOGFILE
V$CONTROLFILE
2) 모든 instance를 shutdown한다.
3) 확인된 file을 backup destination으로 copy한다.


4. Archive log mode : Partial or Full Online Backup

1) 백업을 수행하기 전에 ALTER SYSTEM ARCHIVE LOG CURRENT 명령 실행(이 명령을
실행하여 현재 운영되지 않는 데이터베이스를 포함한 모든 노드의 current redo
log에 대한 로그 스위치와 그에 따른 아카이브를 모든 인스턴스에서 실행시킨다.)
2) ALTER TABLESPACE tablespace BEGIN BACKUP 명령 실행
3) ALTER TABLESPACE 명령이 성공적을 실행될 때까지 대기
4) OS에서 적절한 명령어를 활용하여 테이블스페이스에 속하는 데이터파일들을 백업
(tar, cpio, cp 등)
5) OS 명령을 활용한 백업이 다 끝날 때까지 대기
6) ALTER TABLESPACE tablespace END BACKUP 명령 수행
7) ALTER DATABASE BACKUP CONTROLFILE TO filename 이나
ALTER DATABASE BACKUP CONTROLFILE TO TRACE
명령을 수행시켜 컨트롤 파일을 백업.

만약 아카이브 로그 파일을 백업받는다면 END BACKUP 명령을 실행시킨 이후
ALTER SYSTEM ARCHIVE LOG CURRENT 명령을 실행시켜 END BACKUP 시점까지의
모든 리두 로그 파일들을 확보한다.


5. Import Parameter

1) Controlfile 내의 Redo Log History (MAXLOGHISTORY )

CREATE DATABASE 명령이나 CREATE CONTROLFILE 명령에서 MAXLOGHISTORY 값을
지정하여 parallel server에서 다 채워진 리두 로그 파일에 대한 history를
컨트롤 파일이 저장하도록 할 수 있다. 이미 데이터베이스를 생성한 후라면
log history 값을 증가시키거나 감소시키기 위해서는 컨트롤 파일을 재생성
하여야만 한다.
MAXLOGHISTORY는 컨트롤 파일 내의 archive history를 얼마나 저장할 수
있는지를 지정하며, 기본값은 플랫폼 별로 다르다. 이 값이 0이 아닌 다른
값으로 지정된다면 log switch가 발생할 때마다 LGWR 프로세스에서는 컨트롤
파일에 다음 정보를 기록한다.
thread number, log sequence number, low SCN, low SCN timestamp, next SCN
(next log의 가장 낮은 SCN값)
(이 정보는 리두 로그 파일이 archive된 후가 아니라 log switch가 발생할 때
컨트롤 파일에 저장된다.)
MAXLOGHISTORY 값에서 지정한 값을 넘어서 log history가 저장되어야 할 경우
가장 오래된 history를 overwrite하는 방식으로 저장된다. Log history 정보는
OPS에서 자동 media recovery 시 SCN, thread number를 기준으로 적절한
아카이브 로그 파일을 찾아 재구성하는 데 사용된다. 데이터베이스를 exclusive
모드에서 한개의 쓰레드만 사용하는 환경에서는 log history 정보가 필요하지 않다.
Log history 관련 정보는 V$LOG_HISTORY를 이용해 조회해 볼 수 있다.
서버 관리자에서 V$RECOVERY_LOG를 조회하면 media recovery에 필요한 아카이브
로그에 대한 정보를 얻을 수 있다.
Multiplex된 리두 로그 파일에 대해서, log history 내에서 여러개의 entry가
사용되지 않는다. 각각의 entry는 개개의 파일에 대한 정보가 아니라, multiplex
된 log 파일의 그룹에 대한 정보를 가지고 있다.

2) Archive Log Mode 시 Parameter

OPS에서 archive log mode로 변경 시 exclusive mode로 db mount 후에 변경한다.

a. LOG_ARCHIVE_FORMAT

파라미터 설명 예
%T thread number, left-zero-padded arch0000000001
%t thread number, not padded arch1
%S log sequence number, left-zero-padded arch0000000251
%s log sequence number, not padded arch251

이 가운데 %T와 %t는 OPS에서만 유효한 파라미터이다.
모든 instance의 format은 같아야 하며 OPS 환경에서는 반드시 thread 번호를
포함시켜야 한다.

예) log_archive_format = %t_%s.arc

b. LOG_ARCHIVE_START

- 자동 archiving : TRUE로 지정한 후 인스턴스를 구동시키면 background process
인 ARCH에서 자동 archiving을 수행한다. Closed Thread의 경우에는 실행 중인
thread에서 closed thread를 대신해 log switch와 archiving을 수행한다.
이것은 모든 노드에서 비슷한 SCN을 유지하도록 하기 위해 강제적으로 log switch
가 발생할 때 일어난다

- 수동 Archiving : FALSE이면 archive를 시작하도록 지시하는 명령을 명시적으로
내리지 않는 이상 동작을 멈추고 대기한다. OPS에서는 각각의 인스턴스에서 서로
다른 LOG_ARCHIVE_START 값을 사용할 수 있다.

다음과 같은 방법으로 수동 archiving을 수행할 수 있다.
ALTER SYSTEM ARCHIVE LOG SQL 명령을 실행
ALTER SYSTEM ARCHIVE LOG START 명령을 실행하여 자동 archiving을 실행하도록
지정.
수동 archiving은 명령을 실행시킨 노드에서만 실행 되며, 이 때 archiving
작업을 ARCH 프로세스가 처리하지 않는다.

c. LOG_ARCHIVE_DEST

archive log file이 만들어질 directory를 지정한다.
예) log_archive_dest = /arch2/arc


6. OPS Recovery

1) Instance Failure 시

Instance failure는 S/W나 H/W 상의 문제, 정전이나 background process에서
fail이 발생하거나, shutdown abort를 시키거나 OS crash 등 여러가지 이유로
인해 instance가 더 이상 작업을 진행할 수 없을 때 발생할 수 있다.
Single instance 환경에서는 instance failure는 instance를 restart 시키고
database를 open하여 해결된다. Mount 상태에서 open 되는 중간 단계에서 SMON은
online redo log 파일을 읽어 instance recovery 작업을 수행한다.

OPS에서는 instance failure가 발생 했을 경우 다른 방식으로 instance
recovery가 수행된다. OPS에서는 한 노드에서 fail이 발생했다고 하더라도
다른 노드의 인스턴스는 계속 운영될 수 있기 때문에 instance failure는
database가 가용하지 않다는 것을 의미하지는 않는다.
Instance recovery는 dead instance를 처음으로 발견한 SMON 프로세스에서
수행한다. Recovery가 수행되는 동안 다음과 같은 작업이 일어난다.

- Fail이 발생하지 않은 다른 인스턴스에서는 fail이 발생한 인스턴스의
redo log 파일을 읽어 들여 데이터파일에 그 내용을 적용시킨다.
- 이 기간 동안 fail이 발생하지 않은 다른 노드에서도 buffer cache 영역의
내용을 write 하지는 못한다.
- DBWR disk I/O가 일어나지 못한다.
- DML 사용자에 의해 lock request를 할 수 없다.

a. Single-node Failure

한 인스턴스에서 fail이 난 다른 인스턴스에 대한 recovery를 수행하는 동안,
정상적으로 운영 중인 인스턴스는 fail이 난 인스턴스의 redo log entry를
읽어 들어 commit이 된 트랜잭션의 결과치를 데이터베이스에 반영시킨다.
따라서 commit 된 데이터에 대한 손실은 일어나지 않으며, fail이 난
인스턴스에서 commit 시키지 않은 트랜잭션에 대해서는 rollback을 수행하고,
트랜잭션에서 사용 중이던 자원을 release시킨다.

b. Multiple-node Failure

만약 OPS의 모든 인스턴스에서 fail이 발생했을 경우, 인스턴스 recovery는
어느 한 인스턴스라도 open이 될 때 자동으로 수행된다. 이 때 open되는 인스턴스는
fail이 발생한 인스턴스가 아니라도 상관 없으며, OPS에서 shared 모드
혹은 execlusive 모드에서 데이터베이스를 mount 하더라도 상관 없이 수행된다.
오라클이 shared 모드에서 수행되던, execlusive 모드에서 수행되건,
recovery 절차는 하나의 인스턴스에서, fail이 난 모든 인스턴스에 대한
recovery를 수행하는지 여부를 제외하고는 동일하다.

2) Media Failure 시

Oracle에서 사용하는 file을 저장하는 storage media에 문제가 발생했을 경우
발생한다. 이와 같은 상황에서는 일반적으로 data에 대한 read/write가 불가능하다.
Media failure가 발생했을 경우 recovery는 single instance의 경우와
마찬가지로 recovery가 수행되어야 한다. 두 경우 모드 archive log 파일을
이용해서 transaction recovery를 수행하여야 한다.

3) Node Failure 시

OPS 환경에서, 한 노드 전체에 fail이 발생했을 때, 해당 노드에서 동작하던
instance와 IDLM 컴포넌트에서도 fail이 발생한다. 이 경우 instance recovery를
하기 위해서는 IDLM은 lock에 대한 remaster를 시키기 위해 그 자신을
reconfigure시켜야 한다.
한 노드에서 fail이 발생했을 때 Cluster Manager 또는 다른 GMS product에서는
failure를 알리고, reconfiguration을 수행하여야만 한다. 이 작업이 수행되어야만
다른 노드에서 운영 중인 LMD0 프로세스와의 통신이 가능하다.
오라클에서는 fail이 발생한 노드에서 잡고 있는 lock 정보를 access할 경우나,
LMON 프로세스에서 heartbeat을 이용해서 fail이 발생한 노드가 더 이상
가용하지 않다는 것을 감지할 때 failure가 발생한 것을 알게 된다.
IDLM에서 reconfigure가 일어나면 instance recovery가 수행된다.
Instance recovery는 recovery를 수행하는 동안 자원에 대한 contention을
피하기 위해 전체 데이터베이스의 작업을 일시 중지시킬 수 있다.
FREEZE_DB_FOR_FAST_INSTANCE_RECOVERY initialization parameter 값을
TRUE로 지정하며 전체 데이터베이스가 일시적으로 작업을 멈추게 된다.
데이터 화일에서 fine-grain lock을 사용할 경우 기본값은 TRUE이다.
이 값을 FALSE로 지정할 경우 recovery가 필요한 데이터만이 일시적으로 작업이
멈춰진다. 데이터 화일이 hash lock을 사용할 경우 FALSE가 기본 값이다.

4) IDLM failure 시

한 노드에서 다른 연관된 프로세스의 fail이나 memory fault 등의 이유로 인해
IDLM 프로세스만 fail이 발생했다면 다른 노드의 LMON에서는 이 문제를 감지하여
lock reconfiguration process를 시작한다.
이 작업이 진행 중인 동안 lock 관련 작업은 처리가 정지되고 PCM lock 또는
다른 resource를 획득하기 위해 일부 사용자들은 대기 상태로 들어간다.

5) Interconnect Failure ( GMS failure ) 시

노드 간의 interconnect에서 fail이 발생하면 각각의 노드에서는 서로 다른
노드의 IDLM과 GMS에서 fail 이 발생했다고 간주하게 된다. GMS에서는 quorum
disk나 node에 pinging 등을 수행하는 다른 방법을 통해 시스템의 상태를 확인한다.
이 경우 Fail이 발생한 connection에 대해 두 노드 혹은 한쪽 노드에서
shutdown 이 일어난다.
Oracle 8 recovery mechanism에서는 노드 혹은 인스턴스에서 강제로 fail이
발생했을 경우 IDLM이나 instance가 startup 될 수 없게 된다. 경우에 따라서는
노드 간의 IDLM communication이 가용한지 여부를 확인하기 위해 cluster
validation code를 직접 작성하여 사용할 수도 있다. 이 방법을 사용하여
GMS에서 제공하지는 않지만, 문제를 진단한 후 shutdown을 수행하도록 할 수 있다.
이같은 code를 작성하기 위해서는 단일 PCM lock에서 처리되는 단일 data block에
대해 계속해서 update 를 수행해 보는 루틴이 들어가면 된다. 서로 연결된
두 노드에서 이 프로그램을 실행시키게 될 경우 interconnect에서 fail이
난 상황을 진단할 수 있게 된다.
만약 여러개의 노드가 cluster를 구성할 경우에는 매 interconnect 마다
다른 PCM lock에 의해 처리되는 data block을 update 함으로써, 어떤 노드와의
interconnect에 문제가 발생했는지를 알아낼 수 있다.


7. Parallel Recovery

Parallel Recovery의 목표는 compute와 I/O parallelism을 사용해서 crash
recovery, single-instance recovery, media recovery 시 소요되는 시간을 줄이는
데 있다.
Parallel recovery는 여러 디스크에 걸쳐 몇 개의 데이터파일에 대해 동시에
recovery를 수행할 때 가장 효율적이다
다음과 같이 2가지 방식으로 병렬화시킬 수 있다.

- RECOVERY_PARALLELISM 파라미터 지정
- RECOVER 명령의 옵션에 지정

오라클 서버는 하나의 프로세스에서 log file을 순차적으로 읽어들이고, redo
정보를 여러 개의 recovery 프로세스에 전달해, log file에 기록된 변동 사항을
데이터파일에 적용시킬 수 있다.
Recovery Process는 오라클에서 자동적으로 구동되므로, recovery를 수행할 경우
한 개 이상의 session을 사용할 필요가 없다.
RECOVERY_PARALLELISM의 최대값은 PARALLEL_MAX_SERVERS 파라미터에 지정된 값을
초과할 수 없다.


Reference Ducumment
---------------------
Oracle8 ops manual
Comment
등록된 코멘트가 없습니다.