Jurnal Teknologi Informasi dan Ilmu Komputer (Dec 2022)

Sistem Propagasi Anotasi pada Metadata Lineage untuk Manajemen Data Warehouse

  • Dion Ricky Saputra,
  • Welly Purnomo,
  • Nanang Yudi Setiawan

DOI
https://doi.org/10.25126/jtiik.2022976833
Journal volume & issue
Vol. 9, no. 7

Abstract

Read online

ETL (extract, transform, dan load) merupakan proses yang dilibatkan dalam pembuatan dan manajemen data warehouse. Desain ETL dibuat menyesuaikan struktur sumber data dan data warehouse. Dengan adanya ketergantungan tersebut maka perubahan di sumber data bisa berdampak besar terhadap desain ETL. Ketika perubahan tersebut terjadi, pengelola ETL akan berkomunikasi dengan pemilik data untuk mengetahui rincian perubahan struktur data dalam rangka memperbaiki desain ETL. Aliran komunikasi ini akan semakin meningkat sejalan dengan jumlah sumber data yang digunakan. Semakin banyak sumber data yang diproses maka komunikasi tersebut berpotensi menjadi bottleneck. Informasi perubahan struktur data ini dapat dikomunikasikan melalui anotasi yang dilekatkan pada sumber data. Anotasi tersebut kemudian dipropagasikan sehingga dapat digunakan untuk memperbaiki rancangan ETL. Dengan menggunakan anotasi, harapannya aliran komunikasi antara pengelola ETL dengan pemilik data dapat berkurang. Permasalahan tersebut menunjukkan seberapa penting dikembangkannya sistem propagasi anotasi. Sistem propagasi anotasi tersusun atas tiga komponen yaitu ekstraksi metadata, propagasi anotasi, dan adapter. Pengujian sistem dilakukan menggunakan teknik blackbox dan user acceptance testing bersama pengguna akhir. Pengujian blackbox menghasilkan 30 kasus uji yang hasilnya valid. Hasil evaluasi user acceptance testing menunjukkan bahwa rata-rata pengguna menyatakan sangat setuju dengan sistem yang dikembangkan. Abstract ETL is a process of extracting, transforming, and loading data that is involved in creation and management of a data warehouse. Since ETL is deeply connected to the structure of the source data, if a small changes happens to that structure then the whole workflow might stop. Because one data source can be used by more than one ETL workflow, the impact of schema changes to the ETL design are enormous. When such incident happens, the ETL designer will ask the data owner for the details of the schema changes. The communication traffic between the ETL designer and the data owner will increase as the number of sources that are being used is increasing. Therefore potentially becoming a bottleneck. Information regarding schema changes of a data source can be attached as an annotation. This annotation will be then propagated so that the ETL manager can update the workflow according to the recorded changes.Using this technique, the communication traffic between the ETL designer and the data owner can be minimized. This problem highlights the need of an annotation propagation system. The system itself consists of three components: metadata extraction, adapter, and annotation propagation. To test the system, blackbox and user acceptance testing is used. The blackbox testing resulting with 30 test case which are all valid. The user acceptance testing is done with the end-user directly operating the system, and after analyzing the results it shows that on average the user is accepting the system.