Data Mining
Definisi Data Mining
Data mining
(Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau penggalian data
yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database
yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat
penting.
Data mining
(Segall et.all, 2008) biasa juga disebut dengan “Data atau knowledge discovery”
atau menemukan pola tersembunyi pada data. Data mining adalah proses dari
menganalisa data dari prespektif yang berbeda dan menyimpulkannya ke dalam
informasi yang berguna.
Data mining (Han
dan Kamber, 2006 : 5) didefinisikan sebagai proses mengekstrak atau menambang
pengetahuan yang dibutuhkan dari sejumlah data besar.
Pada prosesnya
data mining akan mengekstrak informasi yang berharga dengan cara menganalisis
adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang
berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti
Database System, Data Warehousing, Statistic, Machine Learning, Information
Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data mining didukung oleh
ilmu lain seperti Neural Network, Pengenalan Pola, Spatial Data Analysis, Image
Database, Signal Processing.
Beberapa survey
tentang proses pemodelan dan metodologi menyatakan bahwa, “Data mining
digunakan sebagai penunjuk, dimana data mining menyajikan intisari atas
sejarah, deskripsi dan sebagai standar petunjuk mengenai masa depan dari sebuah
proses model data mining”(Mariscal, Marba’n dan Ferna’ndes, 2010)
Karakteristik data
mining sebagai berikut:
a. Data mining
berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu
yang tidak diketahui sebelumnya.
b. Data mining
biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan
untuk membuat hasil lebih dapat dipercaya.
c. Data mining
berguna untuk membuat keputusan kritis.
Berdasarkan
beberapa pengertian tersebut dapat ditarik kesimpulan bahwa Data Mining adalah
suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada
suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola
yang menarik yang sebelumnya tidak diketahui.
Fungsi Data Mining
Teknik – teknik
data mining telah digunakan untuk menemukan pola yang tersembunyi dan
meprediksi tren masa depan. Dan keuntungan kompetitif dari data mining termasuk
dengan meningkatnya pendapatan, berkurangnya pengeluaran, dan kemampuan
pemasaran yang meningkat. (Pujari et. All, 2012)
Data mining dibagi
menjadi dua kategori utama (Han dan Kamber, 2006 : 21- 29) yaitu:
A. Prediktif
Tujuan dari tugas
prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada
nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai
target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk
membuat prediksi dikenal sebagai explanatory atau variable bebas.
B. Deskriptif
Tujuan dari tugas
deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster,
teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas
data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan
teknik post-processing untuk validasi dan penjelasan hasil.
Fungsi dari data
mining juga ada dalam dunia kesehatan, dimana data mining telah digunakan untuk
untuk meningkatkan diagnosis dan pengobatan atau lebih mengerti perilaku dari
pasien. (Sandra et all, 2009)
Data mining juga
memiliki beberapa fungsionalitas yaitu Concept/Class Description:
Characterization and Discrimination, Mining Frequent Patterns, Associations,
and Correlations, Classification and Prediction, Cluster Analysis, Outlier
analysis, dan Evolution analysis. (Han dan Kamber, 2006 : 21 – 27)
Berikut adalah
penjelasan dari masing-masing fungsi diatas:
1. Concept/Class
Description: Characterization and Discrimination
Data
characterization adalah ringkasan dari semua karakteristik atau fitur dari data
yang telah diperoleh dari target kelas. Data yang sesuai dengan kelas yang
telah ditentukan oleh pengguna biasanya dikumpulkan di dalam database.
Misalnya, untuk mempelajari karakteristik produk perangkat lunak dimana pada
tahun lalu seluruh penjualan telah meningkat sebesar 10%, data yang terkait
dengan produk-produk tersebut dapat dikumpulkan dengan menjalankan sebuah query
SQL. Sedangkan, data discrimination adalah perbandingan antara fitur umum objek
data target kelas dengan fitur umum objek dari satu atau satu set kelas
lainnya. target diambil melalui query database. Misalnya, pengguna mungkin
ingin membandingkan fitur umum dari produk perangkat lunak yang pada tahun lalu
penjualannya meningkat sebesar 10% tetapi selama periode yang sama seluruh penjualan
juga menurun setidaknya 30%.
2. Mining Frequent
Patterns, Associations, and Correlations
Frequent Patterns
adalah pola yang sering terjadi di dalam data. Ada banyak jenis dari frequent
patterns, termasuk di dalamnya pola, sekelompok item set, sub-sequence, dan
sub-struktur. Sebuah frequent patterns biasanya mengacu pada satu set item yang
sering muncul bersama-sama dalam suatu kumpulan data transaksional, misalnya
seperti susu dan roti.
Associations
Analysis adalah pencarian aturan-aturan asosiasi yang menunjukan
kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan
data. Analisis asosiasi sering digunakan untuk menganalisa Market Basket
Analysis dan data transaksi.
3. Classification
and Prediction
Klasifikasi adalah
proses untuk menemukan model atau fungsi yang menggambarkan dan membedakan
kelas data atau konsep dengan tujuan memprediksikan kelas untuk data yang tidak
diketahui kelasnya. Model yang diturunkan didasarkan pada analisis dari
training data (yaitu objek data yang memiliki label kelas yang diketahui).
Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti
If-then klasifikasi, decision tree, dan sebagainya.
Teknik
classification bekerja dengan mengelompokkan data berdasarkan data training dan
nilai atribut klasifikasi. Aturan pengelompokan tersebut akan digunakan untuk
klasifikasi data baru ke dalam kelompok yang ada. Classification dapat
direpresentasikan dalam bentuk pohon keputusan (decision tree). Setiap node
dalam pohon keputusan menyatakan suatu tes terhadap atribut dataset, sedangkan
setiap cabang menyatakan hasil dari tes tersebut. Pohon keputusan yang
terbentuk dapat diterjemahkan menjadi sekumpulan aturan dalam bentuk IF
condition THEN outcome. (Mewati Ayub, 2007 : 7).
Dalam banyak
kasus, pengguna ingin memprediksikan nilai-nilai data yang tidak tersedia atau
hilang (bukan label dari kelas). Dalam kasus ini nilai data yang akan
diprediksi merupakan data numeric. Disamping itu, prediksi lebih menekankan
pada identifikasi trend dari distribusi berdasarkan data yang tersedia.
4. Cluster
Analysis
Cluster adalah
kumpulan objek data yang mirip satu sama lain dalam kelompok yang sama dan
berbeda dengan objek data di kelompok lain. Sedangkan, Clustering atau Analisis
Custer adalah proses pengelompokkan satu set benda-benda fisik atau abstrak
kedalam kelas objek yang sama. Tujuannya adalah untuk menghasilkan
pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin
besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap
cluster maka kualitas analisis cluster semakin baik.
5. Outlier
analysis
Outlier merupakan
objek data yang tidak mengikuti perilaku umum dari data. Outlier dianggap
sebagai noise atau pengecualian. Analisis data outlier dapat dianggap sebagai
noise atau pengecualian. Analisis data outlier dinamakan Outlier Mining. Teknik
ini berguna dalam fraud detection dan rare events analysis.
5. Evolution
analysis
Analisis evolusi
data menjelaskan dan memodelkan trend dari objek yang memiliki perilaku yang
berubah setiap waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi,
asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu.
Tujuan Data Mining
Tujuan dari data mining (Hoffer, Prescott, dan McFadden, 2007) adalah:
1. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan
truk pick-up meningkat di Colorado.
2. Confirmatory
Untuk mempertegas hipotesis, seperti halnya dua kali pendapatan keluarga
lebih suka dipakai untuk membeli peralatan keluarga dibandingkan dengan satu
kali pendapatan keluarga.
3. Exploratory
Untuk menganalisa data yang memiliki hubungan yang baru. Misalnya, pola
apa yang cocok untuk kasus penggelapan kartu kredit.
Proses Data Mining
1) Data cleaning
Data cleaning
merupakan proses membuang duplikasi data, memeriksa data yang tidak konsisten,
dan memperbaiki kesalahan pada data, seperti kesalahan penulisan. Pada umumnya
data yang diperoleh baik dari database suatu perusahaan maupun hasil
eksperimen, memiliki isi yang tidak sempurna seperti data yang hilang, data
yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang
dimiliki. Data cleaning juga akan mempengaruhi hasil informasi dari teknik data
mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2) Data
integration
Proses menambah
data yang sudah ada dengan data atau informasi lain yang relevan atau bisa
disebut juga merupakan penggabungan data dari berbagai database kedalam satu
database baru yang dibutuhkan oleh KDD.
Tahapan cleaning
dan integration pada KDD mengasumsikan bahwa integrator data harus menghapus
noise dari data awal secara paralel dengan mengintegrasikan beberapa data set.
(M. Brian Blake, 2009)
Gambar Data
mining sebagai tahapan dalam proses KDD
3) Data selection
Pemilihan data
yang relevan dan dapat dilakukan analisis dari data operasional. Data hasil
pemilihan disimpan dalam database yang terpisah.
4) Data
transformation
Proses tranformasi
data kedalam bentuk format tertentu sehingga data tersebut sesuai untuk proses
data mining. Sebagai contoh beberapa metode standar seperti analisis asosiasi
dan clustering hanya bisa menerima input data kategorikal.
5) Data mining
Proses mencari
pola atau informasi menarik dengan menggunakan teknik, metode atau algoritma
tertentu.
6) Pattern
evaluation
Mengidentifikasi
pola-pola yang benar-benar menarik dari hasil data mining. Dalam tahap ini
hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai atau tidak.
7) Knowledge
presentation
Menampilkan pola
informasi yang dihasilkan dari proses data mining, visualisasi ini membantu
mengkomunikasikan hasil data mining dalam bentuk yang mudah dimengerti.
Implementasi Data Mining
Data mining merupakan proses pencarian
pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis
data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian
arsitektur sistem data mining memiliki komponen-komponen utama (Han dan Kamber,
2006) yaitu:
a. Database, data warehouse, World Wide
Web, atau tempat penyimpanan informasi lainnya: bisa berbentuk satu atau banyak
database, data warehouse, spreadsheet, ataupun tempat penyimpanan informasi
lainnya. Data Cleaning, Data Integration dan Data Selection dapat dijalankan
pada data tersebut.
b. Database dan data warehouse server.
Komponen ini bertanggung jawab dalam pengambilan data yang relevan, berdasarkan
permintaan pengguna.
c. Knowledge Based. Komponen ini merupakan
domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi
pola-pola yang dihasilkan. Pengetahuan tersebut meliput hirarki konsep yang
digunakan untuk mengorganisasikan atribut atau nilai atribut kedalam level
abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan
pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola
yang diperoleh.
d. Data mining engine. Bagian ini merupakan
komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri dari
modul-modul fungsional seperti karakterisasi, asosiasi, klasifikasi, dan
analisis cluster.
e. Ghrapical user interface (GUI). Modul
ini berkomunikasi dengan pengguna dan data mining. Melalui komponen ini,
pengguna berinteraksi dengan sistem menggunakan query.
Data Mining (Han
dan Kamber, 2006 : 29) merupakan suatu pendekatan dalam pemecahan masalah
dengan menggunakan tinjauan berbagai sudut pandang ilmu secara terpadu yaitu,
database system, statistics, machine learning, visualization, dan information
system.
Tugas Softskill : Arbi Pramana
Nama : Mohammad Harun Al Rosyid
NPM : 17115594
Kelas : 2KA30
Data Mining
Reviewed by M. Harun
on
Sabtu, Desember 24, 2016
Rating:

Tidak ada komentar