본문 바로가기
3. 데이터관리

OCI Data Integration 활용 - Data Pipeline Task 생성 및 Schedule 지정

by 에너자이죠 2024. 5. 22.

이전 Post에서는 Data Loader Task, Data Integration Task를 구성해 보았습니다. 

이번 Post에서는 이전에 생성한 Data Loader Task와 Data Integration Task를 이용하여 Data Pipeline Task를 생성하고 schedule을 지정해 보겠습니다. 

 

Data Pipeline Task는 Integration Task와는 달리 Data Source와 Target이 없이 이미 생성된 Task 들을 하나의 Pipeline으로 구성된 Task를 의미 합니다.

 

미리 생성된 Customer Data와 Revenue Data를 Loading 하는 Data Loader Task와 Loading된 Customer Data와 Revenue Data를 Join 하는 Data Integration Task를 이용하여 Pipeline Task를 구성해보겠습니다. 이 세개의 Task는 Workshop_application Application에 publish 되어 있는 상태 입니다. 

 

 

Pipeline Task를 생성하기 위해 DI_Workshop이라는 이름으로 지정된 Project로 이동하겠습니다. 좌측 메뉴의 Pipelines로 이동해 Create Pipeline을 클릭합니다. 아래 보는바와 같이 Pipeline을 구성할 canvas가 보여집니다. 이름을 Load DWH Pipeline으로 입력합니다. 

 

Canvas 좌측의 Operations에서 DI Task/Data Loader를 drag-drop으로 canvas에 위치 시킵니다. 새로 생성된 Data Loader Operation에 이전에 생성한 Customer 데이터 Loader Task를 선택합니다.  

 

동일한 과정으로 Revenue 데이터 Loader Task를 구성하고 연결합니다. 

 

두개의 Loader Task 작업 이후 두개의 테이블을 Join 하는 Integration Task를 구성합니다. 구성된 Integration Task를 아래와 같이 연결하여 Pipeline 구성을 완료합니다. 

 

Pipeline 구성이 완료되면 Project의 Task로 이동하여 Pipeline Task를 생성합니다. Pipeline task에 앞서 생성한 Pipeline을 지정하고 저장합니다. 저장 이후 생성된 Pipeline Task를 Application에 Publish 합니다. 

Application에 정상적으로 Task가 publish 되었는지 확인하고 수행 합니다. 

 

수행 이후 Application의 Runs에서 수행 결과를 확인 합니다. 

 

이제 만들어진 Pipeline Task에 Schedule을 지정하여 특정 시점에 수행하도록 설정하겠습니다. 

Application의 Schedules로 이동하여 Task가 수행될 시간을 설정합니다. 아래 예제는 한국 시간에 맞춰 매일 00시에 수행하는 설정입니다. 

 

Application에서 schedule을 지정할 Task에 대해 다음과 같이 schedule을 선택하고 이전에 생성한 schedule을 지정합니다. Configure Task Schedule은 앞서 지정된 반복 시간 이외에 해당 Task를 시작/끝 시점, Task의 Run Limit 등의 추가 설정이 가능합니다. schedule과 configure task schedule 설정이 완료되면 create를 수행합니다. 

 

Schedule이 지정된 Task는 Application의 Task Schedules에서 확인 가능합니다. 

 

작성자: 조용훈  
개인 시간을 투자하여 작성된 글로서, 글의 내용에 오류가 있을 수 있으며, 글 속의 의견은 개인적인 의견입니다.

댓글