Penambangan data (data mining)

 

Aplikasi penambangan data untuk menemukan Pengetahuan dalam Basis Data (KDD).

Artikel ini tentang penambangan data (data mining). Ini adalah proses menemukan pola yang menarik dan mengekstrak informasi yang berguna dari sejumlah besar data menggunakan berbagai teknik. Artikel ini berisi informasi tentang penambangan data, penemuan pengetahuan dalam basis data (KDD), dan berbagai aplikasi penambangan data. Selain artikel ini memberikan rincian lebih lanjut tentang kemungkinan penggunaan aplikasi ini dalam pemrosesan data.

Kata Kunci – Penambangan Data, ETL, Integrasi, KDD, Pra-pemrosesan, Transformasi.

LATAR BELAKANG

Masalah yang dibahas dalam proposal tesis ini adalah penambangan data. Penambangan data adalah proses menemukan pola yang berguna dalam sejumlah besar data[3]. Penambangan data adalah proses menganalisis data dari berbagai perspektif dan mensintesisnya menjadi informasi yang berguna, juga dikenal sebagai penemuan pengetahuan dalam basis data (KDD).

Penemuan Pengetahuan dalam Basis Data (KDD) – KDD didefinisikan sebagai proses kompleks untuk mengidentifikasi pola yang berguna dalam data dan dapat digunakan dalam pembelajaran mesin, kecerdasan buatan, manajemen basis data, dan pengenalan pola. Pertama, kumpulkan data operasional di satu tempat, seperti yang ditunjukkan pada Gambar 1 di bawah. Lokasi pusat (DB) tempat semua data gabungan dari beberapa lokasi disimpan juga disebut gudang data atau data mart. Data pengoperasian diperbarui sekali per detik. Sebelum kita memasukkan data ke gudang data, kita perlu melakukan proses ETL (Ekstrak, Transformasi, Muat). Selama KDD diperlukan, operasi pemrosesan analitis daring dapat dilakukan pada data tersebut. Ini adalah contoh hebat analisis data.

Gambar 1. Menemukan pengetahuan dalam basis data.

Prapemrosesan Data – Ini adalah proses pertama di mana kita perlu menyiapkan dan menyaring data. Untuk kumpulan data besar, sekumpulan objek/catatan data dapat digunakan. Datanya tidak lengkap, membingungkan, tidak konsisten dan kualitasnya tidak memadai. Oleh karena praproses data diperlukan. Gudang data menyimpan data yang terperinci dan ringkas. Data terperinci digunakan untuk analisis pola, sedangkan data ringkasan dapat menyimpan hasil analisis sebelumnya. Gudang data juga berisi data historis, sedangkan data operasional biasanya merupakan data terkini[5].

Objek data dan atribut: Objek data dijelaskan berdasarkan atributnya. Terdapat berbagai jenis atribut seperti atribut nominal, atribut biner, atribut ordinal, dan atribut numerik: interval dan rasio, atribut diskrit, dan atribut kontinu, dsb. Deskripsi statistik dasar dari data meliputi data simetris dan data miring. Gunakan mean, median, dan modus untuk mengidentifikasi data yang condong positif dan negatif. Jika mean = median = modus, maka datanya simetris. Bila sebagian besar data berada pada sisi kanan, datanya positif/condong ke kanan, dan bila sebagian besar data berada pada sisi kiri, datanya positif/condong ke kiri.

Pembersihan data – Menangani data yang hilang dan berisik menggunakan teknik penghalusan, metode pengelompokan, pengelompokan, regresi, dll.

Transformasi Data – Untuk mengatur data dengan cara yang lebih baik, transformasi data digunakan. Dalam kasus ini, kita perlu mengubah data tidak terstruktur menjadi data terstruktur. Proses penghalusan menggunakan agregasi untuk menghilangkan gangguan dari data.

Penambangan Data – Penambangan data adalah ekstraksi pengetahuan yang menarik (non-sepele, implisit, sebelumnya tidak diketahui dan berpotensi berguna) melalui deteksi algoritmik terhadap pola, tren, dan aturan (asosiasi antara data yang tampaknya tidak terkait) dalam data. [1] Penambangan data dan KDD sering digunakan secara sinonim karena penambangan data merupakan bagian penting dari proses KDD. [2]

Integrasi Data – Integrasikan semua data dari berbagai sumber dan simpan di satu tempat. Integrasi data digunakan untuk menangani data yang berlebihan. Integrasi skema digunakan untuk mengintegrasikan metadata dari berbagai sumber. Integrasi skema juga menimbulkan masalah pengenalan entitas. Perataan dapat menghilangkan gangguan dari data dan mencapai agregasi.

Konstruksi kubus data meliputi generalisasi: konsep hierarki pengikatan, normalisasi data: ada tiga jenis – minimum dan maksimum.

Reduksi Data – Teknik ini digunakan untuk mengurangi representasi kumpulan data ke ukuran yang lebih kecil dan menghasilkan hasil analitis. Strategi reduksi data dalam penambangan data meliputi agregasi kubus data, reduksi dimensionalitas (misalnya, pemilihan fitur), kompresi data, reduksi numerik untuk mengurangi jumlah data, dan diskritisasi (membagi rentang atribut kontinu menjadi interval). Metode kompresi data yang dapat digunakan untuk reduksi data meliputi transformasi wavelet dan analisis komponen utama. Histogram digunakan untuk membagi data ke dalam kelompok dan menyimpan informasi di dalamnya. Algoritma pengelompokan juga dapat digunakan untuk memisahkan data ke dalam pengelompokan.

Interpretasi/Evaluasi – Menjelaskan pola pengetahuan dengan menghilangkan pola yang berlebihan atau tidak relevan; menerjemahkan pola yang berguna ke dalam istilah yang dapat dipahami manusia [6].

Proses KDD bertujuan untuk menghasilkan pengetahuan dalam data setelah melakukan semua operasi dan mencari pola menggunakan berbagai algoritma dan teknik penambangan data seperti klasifikasi, pengelompokan, pohon keputusan, algoritma genetik, metode tetangga terdekat, regresi, aturan asosiasi, dll.

2. Penerapan penambangan data.

Teknologi data mining telah diterapkan di berbagai bidang karena kemampuannya untuk memperoleh data dengan cepat dan mengekstrak informasi berharga dari sejumlah besar data [2].

Aplikasi penambangan data ada di hampir semua bidang. Namun, para peneliti dalam makalah ini hanya fokus pada beberapa aplikasi utama, yaitu

Aplikasi penambangan data dalam perawatan kesehatan.

Aplikasi penambangan data dalam perawatan kesehatan meliputi

Penambangan data digunakan untuk analisis keranjang pasar.

Teknik ini dapat digunakan ketika pelanggan ingin membeli produk apa pun.

Dalam kasus ini, teknik ini membantu kami menemukan hubungan antara berbagai item yang dimasukkan pelanggan ke keranjang belanjanya. Pengecer dapat menggunakan teknik penggalian data ini untuk mengidentifikasi pola pembelian pelanggan. Teknologi ini akan membantu meningkatkan margin keuntungan bagi bisnis dan memudahkan mereka untuk mendapatkan barang yang relevan.

Penambangan data dalam sistem pendidikan.

Menerapkan penambangan data ke sistem pendidikan dapat membantu mengisi kesenjangan pengetahuan dalam sistem ini. Penambangan data dikenal untuk menemukan pola, korelasi, dan anomali tersembunyi. Menerapkan data pendidikan ke sistem pendidikan dapat meningkatkan pengambilan keputusan. Perbaikan ini pada akhirnya membantu membuat sistem pendidikan lebih efisien dan meningkatkan tingkat kelulusan dan retensi siswa. Hal ini juga memfasilitasi keberhasilan akademis, pencapaian hasil belajar, dan banyak proses lainnya.

Penambangan data dalam manufaktur.

Pelanggan dapat menggunakan data yang dikumpulkan oleh sistem manufaktur untuk berbagai keperluan, seperti mendeteksi cacat, menghasilkan data kualitas, mendukung pengambilan keputusan, dll. Namun, dalam sebagian besar kasus, data dapat dianalisis untuk menemukan pola tersembunyi yang mengendalikan proses manufaktur dan dengan demikian meningkatkan kualitas produk.

Kami menyebut bagian selanjutnya “Tinjauan Literatur”. Pada Bab 2, kami menjelaskan semua teori, peneliti, contoh, dan pengamatan teoritis yang penting. Jelas, penambangan data menjadi semakin penting di sektor manufaktur.

Bisnis, jasa, keuangan, standar, kehidupan, saling mendukung.

Mengembangkan model pembiayaan kembali (tersedia di situs web Grup) untuk mempelajari profitabilitas bisnis hipotek yang diterima berdasarkan LifeBank Standar III. Kesimpulan dan cakupan masa depan.

Dalam makalah ini, para peneliti membahas Penemuan Pengetahuan dalam Basis Data (KDD). Dengan menerapkan teknik penambangan data, para pemangku kepentingan dapat mengekstrak informasi yang bermakna dari data yang terintegrasi secara virtual yang disimpan di berbagai lokasi.

 

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *