10 Pengertian Data Warehouse Menurut Para Ahli – Gudang Data (bahasa Inggris: data warehouse)
adalah sebuah sistem komputer untuk mengarsipkan dan menganalisis data
historis suatu organisasi seperti data penjualan, gaji, dan informasi
lain dari operasi sehari-hari. Secara umum, sebuah organisasi menyalin
informasi dari sistem operasional seperti penjualan dan SDM ke gudang
data menurut jadwal teratur, misalnya setiap malam atau setiap akhir
pekan.
http://www.dosenpendidikan.com
Setelah itu, manajemen dapat melakukan query kompleks dan analisis
(misalnya, penambangan data, data mining) terhadap informasi tersebut
tanpa membebani sistem operasional.
Pengertian Data Warehouse Menurut Para Ahli
Memahami Data Warehouse dapat bervariasi tetapi memiliki inti yang sama, beberapa pengertian dari para ahli berikut :
- Menurut W.H. Inmon dan Richard DH, data warehouse adalah kumpulan data yang memiliki sifat subjek berorientasi, terpadu, waktu-varian, dan tetap pada pengumpulan data untuk mendukung proses pengambilan keputusan manajemen .
- Menurut Vidette Poe, data warehouse adalah database yang read-only analisis dan digunakan sebagai dasar sistem pendukung keputusan.
- Menurut Paul Lane, data warehouse merupakan database relasional yang dirancang lebih untuk query dan analisis proses transaksi, biasanya mengandung sejarah data transaksi dan mungkin juga data dari sumber lain. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi untuk menggabungkan / konsolidasi data dari berbagai sumber.
Dengan demikian, data warehouse
merupakan metode dalam perancangan database, yang menunjang DSS
(KEPUTUSAN Sistem Support) dan EIS (Executive Information System).
Secara fisik, data warehouse adalah database, tapi perancangan data
warehouse dan database sangat berbeda. Dalam desain database tradisional
menggunakan normalisasi, sedangkan data warehouse normalisasi bukanlah
cara terbaik.
Data warehouse memisahkan beban kerja analisis dari beban kerja
transaksi dan memungkinkan organisasi untuk menggabungkan / konsolidasi
data dari berbagai sumber. Dengan demikian, data warehouse merupakan
metode dalam perancangan database, yang Mengacu DSS (Decission Support
System) dan EIS (Executive Information System).
Secara fisik, data warehouse adalah
database, akan tetapi deasin data warehouse dan database sangat berbeda.
Dalam desain database tradisional menggunakan normalisasi, sedangkan
data warehouse normalisasi bukanlah cara terbaik.
A. Karakteristik Data Warehouse
Sistem basis data ini memiliki
karakteristik yang membuatnya berbeda dari database lain. Ada empat
karakteristik yang menjadi ciri khas database ini, yaitu:
- Berorientasi kepada subjek (subjek-oriented)
- Data yang dimiliki terintegrasi (Data Integrated)
- Dibuat dalam rentang waktu tertentu (Timeline)
- Data yang disimpan bersifat tetap (Non-Volatile)
a. Berorientasi kepada subjek (subjek-oriented)
Artinya data warehouse berorientasi subjek dirancang untuk
menganalisis data berdasarkan subjek-subjek tertentu dalam organisasi,
bukan pada proses atau fungsi aplikasi tertentu. Data warehouse
diorganisasikan disekitar subjek-subjek utama dari perusahaan seperti
(pelanggan, produk dan penjualan) dan tidak terorganisir dalam area
aplikasi utama (customer faktur, kontrol stok dan penjualan produk).
Hal ini karena kebutuhan data warehouse
untuk menyimpan data yang mendukung keputusan, daripada aplikasi
berorientasi data. Jadi dengan kata lain, data yang disimpan tidak
berorientasi pada subjek proses.
b. Data yang dimiliki terintegrasi (Data Integrated)
Data Warehouse dapat menyimpan data dari sumber yang terpisah ke
dalam format yang konsisten dan terintegrasi satu sama lain. Dengan
demikian, data tidak dapat rusak karena data merupakan entitas yang
mendukung konsep keseluruhan data warehouse itu sendiri.
Syarat integrasi sumber data dapat
dipenuhi dengan berbagai cara peti konsisten dalam penamaan variabel,
konsisten dalam variabel ukuran, konsisten dalam coding dan struktur
yang konsisten dalam atribut fisik dari data.
Contoh lingkungan operasional ada banyak
aplikasi yang juga dapat dilakukan oleh pengembang yang berbeda. Oleh
karena itu, mungkin dalam aplikasi ini terdapat variabel yang memiliki
tujuan yang sama tetapi nama dan format yang berbeda.
Variabel ini harus dikonversi ke nama
yang sama dan format yang telah disepakati. Dengan demikian tidak ada
kebingungan karena perbedaan nama, format, dan sebagainya. Kemudian data
dapat dikategorikan sebagai data yang terintegrasi karena
kekonsistenannya.
c. Dibuat dalam rentang waktu tertentu (Timeline)Semua data dalam data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan untuk mengukur keakuratan data warehouse, kita dapat menggunakan cara berikut :
- Cara termudah adalah untuk menyajikan data warehouse pada rentang waktu tertentu, misalnya, antara 5 sampai 10 tahun ke depan.
- Cara kedua, dengan menggunakan variasi perbedaan waktu / disajikan dalam data warehouse adalah baik secara implisit maupun eksplisit, eksplisit dengan unsur waktu dalam sehari, seminggu, sebulan dll Secara implisit misalnya, saat data diduplikasi pada setiap akhir bulan, atau kuartalan. Unsur waktu akan tetap tersirat dalam data.
- Cara ketiga, variasi waktu dari data warehouse yang disajikan melalui serangkaian foto-foto yang lama. Snapshot adalah pandangan sebagian besar data yang spesifik yang sesuai keinginan pengguna dari semua data yang ada adalah read-only.
d. Data yang disimpan bersifat tetap (Non-Volatile)
Karakteristik keempat dari data warehouse adalah non-volatile,
artinya data dalam gudang data tidak diperbarui secara real time tetapi
dalam refresh sistem operasi secara teratur. Data baru yang ditambahkan
sebagai suplemen untuk database itu sendiri bukan sebagai perubahan.
Database ini terus menyerap data baru,
maka secara bertahap bersama-sama dengan data sebelumnya. Berbeda dengan
database operasional yang dapat melakukan update, insert, dan menghapus
data yang mengubah isi dari database data warehouse, sementara hanya
ada dua peristiwa untuk memanipulasi data yang memuat data (mengambil
data) dan akses data (akses ke gudang data seperti melakukan query atau
menampilkan laporan yang diperlukan, tidak ada aktivitas memperbarui
data).
Data warehouse merupakan pendekatan untuk menyimpan data dimana
sumber data yang heterogen (yang biasanya tersebar di beberapa basis
data OLTP) bermigrasi ke penyimpanan data dan terpisah homogen.
Keuntungan yang diperoleh dengan menggunakan data warehouse berikut
(Ramelho).Sedangkan kombinasi data mining dan verifikasi penemuan adalah pengembangan dari data mining di masa depan akan menggabungkan hipotesis dan penemuan pendekatan.
Perkembangan ini menggunakan alasan yang
sama yang mendasari konsep Sistem Pendukung Keputusan (Decision Support
System – DSS). Konsep ini memungkinkan pengguna dan komputer bekerja
sama untuk memecahkan masalah.
Pengguna menerapkan keahliannya dalam
hal masalah, dan komputer melakukan analisis data yang canggih untuk
memilih data yang tepat dan menempatkannya dalam format yang sesuai
untuk pengambilan keputusan. Menurut Usama Fayyad (1996),
Proses KDD (Knowledge Discovery in Database) dapat secara luas digambarkan sebagai berikut :1. Data Selection
Kumpulan data operasional Seleksi
(Selection) Data darurat perlu dilakukan sebelum langkah penggalian
informasi di KDD dimulai. Hasil seleksi data yang akan digunakan untuk
proses data mining, disimpan dalam file terpisah dari database
operasional.
2. Pre-processing / Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan pada proses pembersihan data menjadi fokus KDD.
Proses pembersihan meliputi, antara lain, menghilangkan duplikasi
data, memeriksa inkonsistensi data, dan memperbaiki kesalahan pada data,
seperti kesalahan cetak (tipografi).Juga membuat proses pengayaan, yaitu proses “memperkaya” data dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal yang ada.
3. Transformation
Coding adalah proses transformasi data
yang telah, sehingga data tersebut sesuai untuk proses data mining.
Coding dalam proses KDD merupakan proses kreatif dan sangat tergantung
pada jenis atau pola informasi yang akan dicari dalam database
4. Data mining
Data mining adalah proses mencari pola
atau informasi menarik dalam data terpilih dengan menggunakan teknik
atau metode. Teknik, metode, algoritma didalam sebuah data mining sangat
varian. Pemilihan metode atau algoritma yang tepat sangat bergantung
pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/ Evaluation
Informasi Pola yang dihasilkan dari
proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti
oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses
KDD yang disebut interpretasi. Fase ini termasuk memeriksa apakah pola
atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis
yang ada.
KDD proses garis terdiri dari lima tahap seperti yang dijelaskan
sebelumnya. Namun, dalam proses KDD nyata, hanya dapat terjadi iterasi
atau pengulangan pada tahap tahap. Pada setiap langkah dalam proses KDD,
seorang analis dapat kembali ke tahap sebelumnya.
Sebagai contoh, pada saat proses coding
atau data mining, analis menyadari pembersihan tidak dilakukan dengan
sempurna, atau mungkin analis menemukan data atau informasi baru untuk
“memperkaya” data yang sudah ada.
KDD mencakup seluruh proses mencari pola
atau informasi dalam database, mulai dari pemilihan dan penyusunan data
ke representasi pola yang ditemukan dalam bentuk yang mudah dimengerti
oleh pihak yang berkepentingan. Data mining merupakan salah satu
komponen dalam KDD difokuskan pada penggalian pola tersembunyi dalam
data base.
Tidak ada komentar:
Posting Komentar