Data Mining

Definisi Data Mining

Data mining (Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting.

Data mining (Segall et.all, 2008) biasa juga disebut dengan “Data atau knowledge discovery” atau menemukan pola tersembunyi pada data. Data mining adalah proses dari menganalisa data dari prespektif yang berbeda dan menyimpulkannya ke dalam informasi yang berguna.

Data mining (Han dan Kamber, 2006 : 5) didefinisikan sebagai proses mengekstrak atau menambang pengetahuan yang dibutuhkan dari sejumlah data besar.

Pada prosesnya data mining akan mengekstrak informasi yang berharga dengan cara menganalisis adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti Database System, Data Warehousing, Statistic, Machine Learning, Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data mining didukung oleh ilmu lain seperti Neural Network, Pengenalan Pola, Spatial Data Analysis, Image Database, Signal Processing.

Beberapa survey tentang proses pemodelan dan metodologi menyatakan bahwa, “Data mining digunakan sebagai penunjuk, dimana data mining menyajikan intisari atas sejarah, deskripsi dan sebagai standar petunjuk mengenai masa depan dari sebuah proses model data mining”(Mariscal, Marba’n dan Ferna’ndes, 2010)

Karakteristik data mining sebagai berikut:

a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.

b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dapat dipercaya.

c. Data mining berguna untuk membuat keputusan kritis.

Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa Data Mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui.

Fungsi Data Mining

Teknik – teknik data mining telah digunakan untuk menemukan pola yang tersembunyi dan meprediksi tren masa depan. Dan keuntungan kompetitif dari data mining termasuk dengan meningkatnya pendapatan, berkurangnya pengeluaran, dan kemampuan pemasaran yang meningkat. (Pujari et. All, 2012)

Data mining dibagi menjadi dua kategori utama (Han dan Kamber, 2006 : 21- 29) yaitu:

A. Prediktif

Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable bebas.

B. Deskriptif

Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil.

Fungsi dari data mining juga ada dalam dunia kesehatan, dimana data mining telah digunakan untuk untuk meningkatkan diagnosis dan pengobatan atau lebih mengerti perilaku dari pasien. (Sandra et all, 2009)

Data mining juga memiliki beberapa fungsionalitas yaitu Concept/Class Description: Characterization and Discrimination, Mining Frequent Patterns, Associations, and Correlations, Classification and Prediction, Cluster Analysis, Outlier analysis, dan Evolution analysis. (Han dan Kamber, 2006 : 21 – 27)

Berikut adalah penjelasan dari masing-masing fungsi diatas:

1. Concept/Class Description: Characterization and Discrimination

Data characterization adalah ringkasan dari semua karakteristik atau fitur dari data yang telah diperoleh dari target kelas. Data yang sesuai dengan kelas yang telah ditentukan oleh pengguna biasanya dikumpulkan di dalam database. Misalnya, untuk mempelajari karakteristik produk perangkat lunak dimana pada tahun lalu seluruh penjualan telah meningkat sebesar 10%, data yang terkait dengan produk-produk tersebut dapat dikumpulkan dengan menjalankan sebuah query SQL. Sedangkan, data discrimination adalah perbandingan antara fitur umum objek data target kelas dengan fitur umum objek dari satu atau satu set kelas lainnya. target diambil melalui query database. Misalnya, pengguna mungkin ingin membandingkan fitur umum dari produk perangkat lunak yang pada tahun lalu penjualannya meningkat sebesar 10% tetapi selama periode yang sama seluruh penjualan juga menurun setidaknya 30%.

2. Mining Frequent Patterns, Associations, and Correlations

Frequent Patterns adalah pola yang sering terjadi di dalam data. Ada banyak jenis dari frequent patterns, termasuk di dalamnya pola, sekelompok item set, sub-sequence, dan sub-struktur. Sebuah frequent patterns biasanya mengacu pada satu set item yang sering muncul bersama-sama dalam suatu kumpulan data transaksional, misalnya seperti susu dan roti.

Associations Analysis adalah pencarian aturan-aturan asosiasi yang menunjukan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa Market Basket Analysis dan data transaksi.

3. Classification and Prediction

Klasifikasi adalah proses untuk menemukan model atau fungsi yang menggambarkan dan membedakan kelas data atau konsep dengan tujuan memprediksikan kelas untuk data yang tidak diketahui kelasnya. Model yang diturunkan didasarkan pada analisis dari training data (yaitu objek data yang memiliki label kelas yang diketahui). Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti If-then klasifikasi, decision tree, dan sebagainya.

Teknik classification bekerja dengan mengelompokkan data berdasarkan data training dan nilai atribut klasifikasi. Aturan pengelompokan tersebut akan digunakan untuk klasifikasi data baru ke dalam kelompok yang ada. Classification dapat direpresentasikan dalam bentuk pohon keputusan (decision tree). Setiap node dalam pohon keputusan menyatakan suatu tes terhadap atribut dataset, sedangkan setiap cabang menyatakan hasil dari tes tersebut. Pohon keputusan yang terbentuk dapat diterjemahkan menjadi sekumpulan aturan dalam bentuk IF condition THEN outcome. (Mewati Ayub, 2007 : 7).

Dalam banyak kasus, pengguna ingin memprediksikan nilai-nilai data yang tidak tersedia atau hilang (bukan label dari kelas). Dalam kasus ini nilai data yang akan diprediksi merupakan data numeric. Disamping itu, prediksi lebih menekankan pada identifikasi trend dari distribusi berdasarkan data yang tersedia.

4. Cluster Analysis

Cluster adalah kumpulan objek data yang mirip satu sama lain dalam kelompok yang sama dan berbeda dengan objek data di kelompok lain. Sedangkan, Clustering atau Analisis Custer adalah proses pengelompokkan satu set benda-benda fisik atau abstrak kedalam kelas objek yang sama. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik.

5. Outlier analysis

Outlier merupakan objek data yang tidak mengikuti perilaku umum dari data. Outlier dianggap sebagai noise atau pengecualian. Analisis data outlier dapat dianggap sebagai noise atau pengecualian. Analisis data outlier dinamakan Outlier Mining. Teknik ini berguna dalam fraud detection dan rare events analysis.

5. Evolution analysis

Analisis evolusi data menjelaskan dan memodelkan trend dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu.

Tujuan Data Mining

Tujuan dari data mining (Hoffer, Prescott, dan McFadden, 2007) adalah:

1. Explanatory

Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick-up meningkat di Colorado.

2. Confirmatory

Untuk mempertegas hipotesis, seperti halnya dua kali pendapatan keluarga lebih suka dipakai untuk membeli peralatan keluarga dibandingkan dengan satu kali pendapatan keluarga.

3. Exploratory

Untuk menganalisa data yang memiliki hubungan yang baru. Misalnya, pola apa yang cocok untuk kasus penggelapan kartu kredit.

Proses Data Mining

1) Data cleaning

Data cleaning merupakan proses membuang duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan penulisan. Pada umumnya data yang diperoleh baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isi yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data cleaning juga akan mempengaruhi hasil informasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

2) Data integration

Proses menambah data yang sudah ada dengan data atau informasi lain yang relevan atau bisa disebut juga merupakan penggabungan data dari berbagai database kedalam satu database baru yang dibutuhkan oleh KDD.

Tahapan cleaning dan integration pada KDD mengasumsikan bahwa integrator data harus menghapus noise dari data awal secara paralel dengan mengintegrasikan beberapa data set. (M. Brian Blake, 2009)

Gambar Data mining sebagai tahapan dalam proses KDD

3) Data selection

Pemilihan data yang relevan dan dapat dilakukan analisis dari data operasional. Data hasil pemilihan disimpan dalam database yang terpisah.

4) Data transformation

Proses tranformasi data kedalam bentuk format tertentu sehingga data tersebut sesuai untuk proses data mining. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal.

5) Data mining

Proses mencari pola atau informasi menarik dengan menggunakan teknik, metode atau algoritma tertentu.

6) Pattern evaluation

Mengidentifikasi pola-pola yang benar-benar menarik dari hasil data mining. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai atau tidak.

7) Knowledge presentation

Menampilkan pola informasi yang dihasilkan dari proses data mining, visualisasi ini membantu mengkomunikasikan hasil data mining dalam bentuk yang mudah dimengerti.

Implementasi Data Mining

Data mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki komponen-komponen utama (Han dan Kamber, 2006) yaitu:

a. Database, data warehouse, World Wide Web, atau tempat penyimpanan informasi lainnya: bisa berbentuk satu atau banyak database, data warehouse, spreadsheet, ataupun tempat penyimpanan informasi lainnya. Data Cleaning, Data Integration dan Data Selection dapat dijalankan pada data tersebut.

b. Database dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan data yang relevan, berdasarkan permintaan pengguna.

c. Knowledge Based. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliput hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut kedalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh.

d. Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri dari modul-modul fungsional seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.

e. Ghrapical user interface (GUI). Modul ini berkomunikasi dengan pengguna dan data mining. Melalui komponen ini, pengguna berinteraksi dengan sistem menggunakan query.

Data Mining (Han dan Kamber, 2006 : 29) merupakan suatu pendekatan dalam pemecahan masalah dengan menggunakan tinjauan berbagai sudut pandang ilmu secara terpadu yaitu, database system, statistics, machine learning, visualization, dan information system.