Rabu, 02 Desember 2015

Pengertian Data Warehouse

10 Pengertian Data Warehouse Menurut Para Ahli – Gudang Data (bahasa Inggris: data warehouse) adalah sebuah sistem komputer untuk mengarsipkan dan menganalisis data historis suatu organisasi seperti data penjualan, gaji, dan informasi lain dari operasi sehari-hari. Secara umum, sebuah organisasi menyalin informasi dari sistem operasional seperti penjualan dan SDM ke gudang data menurut jadwal teratur, misalnya setiap malam atau setiap akhir pekan.

Data Warehouse

Data Warehouse
 http://www.dosenpendidikan.com Setelah itu, manajemen dapat melakukan query kompleks dan analisis (misalnya, penambangan data, data mining) terhadap informasi tersebut tanpa membebani sistem operasional.

Pengertian Data Warehouse Menurut Para Ahli

Memahami Data Warehouse dapat bervariasi tetapi memiliki inti yang sama, beberapa pengertian dari para ahli berikut :
  • Menurut W.H. Inmon dan Richard DH, data warehouse adalah kumpulan data yang memiliki sifat subjek berorientasi, terpadu, waktu-varian, dan tetap pada pengumpulan data untuk mendukung proses pengambilan keputusan manajemen .
  • Menurut Vidette Poe, data warehouse adalah database yang read-only analisis dan digunakan sebagai dasar sistem pendukung keputusan.
  • Menurut Paul Lane, data warehouse merupakan database relasional yang dirancang lebih untuk query dan analisis proses transaksi, biasanya mengandung sejarah data transaksi dan mungkin juga data dari sumber lain. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi untuk menggabungkan / konsolidasi data dari berbagai sumber.
Dengan demikian, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS (KEPUTUSAN Sistem Support) dan EIS (Executive Information System). Secara fisik, data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam desain database tradisional menggunakan normalisasi, sedangkan data warehouse normalisasi bukanlah cara terbaik.
Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi untuk menggabungkan / konsolidasi data dari berbagai sumber. Dengan demikian, data warehouse merupakan metode dalam perancangan database, yang Mengacu DSS (Decission Support System) dan EIS (Executive Information System).
Secara fisik, data warehouse adalah database, akan tetapi deasin data warehouse dan database sangat berbeda. Dalam desain database tradisional menggunakan normalisasi, sedangkan data warehouse normalisasi bukanlah cara terbaik.

A. Karakteristik Data Warehouse

Sistem basis data ini memiliki karakteristik yang membuatnya berbeda dari database lain. Ada empat karakteristik yang menjadi ciri khas database ini, yaitu:
  1. Berorientasi kepada subjek (subjek-oriented)
  2. Data yang dimiliki terintegrasi (Data Integrated)
  3. Dibuat dalam rentang waktu tertentu (Timeline)
  4. Data yang disimpan bersifat tetap (Non-Volatile)
a. Berorientasi kepada subjek (subjek-oriented)
Artinya data warehouse berorientasi subjek  dirancang untuk menganalisis data berdasarkan subjek-subjek tertentu dalam organisasi, bukan pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan seperti (pelanggan, produk dan penjualan) dan tidak terorganisir dalam area aplikasi utama (customer faktur, kontrol stok dan penjualan produk).
Hal ini karena kebutuhan data warehouse untuk menyimpan data yang mendukung keputusan, daripada aplikasi berorientasi data. Jadi dengan kata lain, data yang disimpan tidak berorientasi pada subjek proses.
b. Data yang dimiliki terintegrasi (Data Integrated)
 
Data Warehouse dapat menyimpan data dari sumber yang terpisah ke dalam format yang konsisten dan terintegrasi satu sama lain. Dengan demikian, data tidak dapat rusak karena data merupakan entitas yang mendukung konsep keseluruhan data warehouse itu sendiri.
Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara peti konsisten dalam penamaan variabel, konsisten dalam variabel ukuran, konsisten dalam coding dan struktur yang konsisten dalam atribut fisik dari data.
Contoh lingkungan operasional ada banyak aplikasi yang juga dapat dilakukan oleh pengembang yang berbeda. Oleh karena itu, mungkin dalam aplikasi ini terdapat variabel yang memiliki tujuan yang sama tetapi nama dan format yang berbeda.
Variabel ini harus dikonversi ke nama yang sama dan format yang telah disepakati. Dengan demikian tidak ada kebingungan karena perbedaan nama, format, dan sebagainya. Kemudian data dapat dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.
c. Dibuat dalam rentang waktu tertentu (Timeline)
Semua data dalam data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan untuk mengukur keakuratan data warehouse, kita dapat menggunakan cara berikut :
  • Cara termudah adalah untuk menyajikan data warehouse pada rentang waktu tertentu, misalnya, antara 5 sampai 10 tahun ke depan.
  • Cara kedua, dengan menggunakan variasi perbedaan waktu / disajikan dalam data warehouse adalah baik secara implisit maupun eksplisit, eksplisit dengan unsur waktu dalam sehari, seminggu, sebulan dll Secara implisit misalnya, saat data diduplikasi pada setiap akhir bulan, atau kuartalan. Unsur waktu akan tetap tersirat dalam data.
  • Cara ketiga, variasi waktu dari data warehouse yang disajikan melalui serangkaian foto-foto yang lama. Snapshot adalah pandangan sebagian besar data yang spesifik yang sesuai keinginan pengguna dari semua data yang ada adalah read-only.
d. Data yang disimpan bersifat tetap (Non-Volatile)
Karakteristik keempat dari data warehouse adalah non-volatile, artinya data dalam gudang data tidak diperbarui secara real time tetapi dalam refresh sistem operasi secara teratur. Data baru yang ditambahkan sebagai suplemen untuk database itu sendiri bukan sebagai perubahan.
Database ini terus menyerap data baru, maka secara bertahap bersama-sama dengan data sebelumnya. Berbeda dengan database operasional yang dapat melakukan update, insert, dan menghapus data yang mengubah isi dari database data warehouse, sementara hanya ada dua peristiwa untuk memanipulasi data yang memuat data (mengambil data) dan akses data (akses ke gudang data seperti melakukan query atau menampilkan laporan yang diperlukan, tidak ada aktivitas memperbarui data).
Data warehouse merupakan pendekatan untuk menyimpan data dimana sumber data yang heterogen (yang biasanya tersebar di beberapa basis data OLTP) bermigrasi ke penyimpanan data dan terpisah homogen. Keuntungan yang diperoleh dengan menggunakan data warehouse berikut (Ramelho).
Sedangkan kombinasi data mining dan verifikasi penemuan adalah pengembangan dari data mining di masa depan akan menggabungkan hipotesis dan penemuan pendekatan.
Perkembangan ini menggunakan alasan yang sama yang mendasari konsep Sistem Pendukung Keputusan (Decision Support System – DSS). Konsep ini memungkinkan pengguna dan komputer bekerja sama untuk memecahkan masalah.
Pengguna menerapkan keahliannya dalam hal masalah, dan komputer melakukan analisis data yang canggih untuk memilih data yang tepat dan menempatkannya dalam format yang sesuai untuk pengambilan keputusan. Menurut Usama Fayyad (1996),
Proses KDD (Knowledge Discovery in Database) dapat secara luas digambarkan sebagai berikut :
1. Data Selection
Kumpulan data operasional Seleksi (Selection) Data darurat perlu dilakukan sebelum langkah penggalian informasi di KDD dimulai. Hasil seleksi data yang akan digunakan untuk proses data mining, disimpan dalam file terpisah dari database operasional.
2. Pre-processing / Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan pada proses pembersihan data menjadi fokus KDD.
Proses pembersihan meliputi, antara lain, menghilangkan duplikasi data, memeriksa inkonsistensi data, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
Juga membuat proses pengayaan, yaitu proses “memperkaya” data dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal yang ada.
3. Transformation
Coding adalah proses transformasi data yang telah, sehingga data tersebut sesuai untuk proses data mining. Coding dalam proses KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode. Teknik, metode, algoritma didalam sebuah data mining sangat varian. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/ Evaluation
Informasi Pola yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretasi. Fase ini termasuk memeriksa apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada.
KDD proses garis terdiri dari lima tahap seperti yang dijelaskan sebelumnya. Namun, dalam proses KDD nyata, hanya dapat terjadi iterasi atau pengulangan pada tahap tahap. Pada setiap langkah dalam proses KDD, seorang analis dapat kembali ke tahap sebelumnya.
Sebagai contoh, pada saat proses coding atau data mining, analis menyadari pembersihan tidak dilakukan dengan sempurna, atau mungkin analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.
KDD mencakup seluruh proses mencari pola atau informasi dalam database, mulai dari pemilihan dan penyusunan data ke representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD difokuskan pada penggalian pola tersembunyi dalam data base.

Tidak ada komentar:

Posting Komentar