Sistem Deteksi Intrusi Awan

Implementasi Sistem Deteksi Intrusi Awan (CloudIDS) Berbasis FC-ANN: Kerangka Kerja dan Peningkatan Keamanan

ABSTRAK

Makalah ini menguraikan implementasi Sistem Deteksi Intrusi (IDS) untuk memantau aktivitas anomali pada lingkungan komputasi awan dan memicu notifikasi ketika terdeteksi adanya perilaku yang mencurigakan. Penggunaan Jaringan Saraf Tiruan (ANN) secara independen untuk deteksi intrusi sistem seringkali menunjukkan keterbatasan, seperti akurasi deteksi yang sublevel untuk serangan frekuensi tinggi dan stabilitas deteksi yang rendah. Untuk mengatasi isu ini, kami mengusulkan strategi FC-ANN (Fuzzy Clustering – Artificial Neural Network) yang merupakan integrasi antara pengelompokan fuzzy dan jaringan saraf tiruan. Prosedur fundamental ANN mencakup tahapan sebagai berikut: Pertama, subset data pelatihan yang beragam dihasilkan melalui teknik pengelompokan fuzzy. Selanjutnya, model-model ANN yang berbeda dilatih menggunakan subset pelatihan terpisah untuk menciptakan basis model yang heterogen. Terakhir, hasil dikonsolidasikan menggunakan meta-learner dengan modul agregasi fuzzy. Kerangka kerja ini juga menyertakan fungsionalitas titik pemulihan (recovery point) yang memungkinkan restorasi kunci registri, berkas sistem, aplikasi terinstal, dan basis data proyek, untuk meningkatkan ketahanan sistem.

Kata Kunci: Deteksi Intrusi, Komputasi Awan, Pengelompokan Fuzzy, Jaringan Saraf Tiruan, Agregasi Fuzzy, Model uX, Model sX, Monitor Instansi Awan, Penangan Protokol Heterogen, Prosesor Protokol, Audit.

PENDAHULUAN

Dengan akselerasi adopsi aplikasi berbasis awan (cloud-based applications), muncul berbagai jenis serangan siber baru yang semakin kompleks. Oleh karena itu, proteksi jaringan terhadap aktor-aktor jahat adalah suatu keniscayaan. Isu keamanan ini wajib diidentifikasi pada fase awal perencanaan dan implementasi arsitektur jaringan. Komputasi awan telah menjadi pendorong utama untuk memenuhi kebutuhan TI sesuai permintaan (on-demand). Paradigma komputasi generasi baru ini menawarkan potensi alokasi sumber daya yang presisi, elastisitas sejati, dan utilisasi sumber daya yang optimal. Model bisnis yang menarik ini telah menarik minat banyak perusahaan, termasuk entitas korporat di kawasan bisnis strategis seperti SCBD (Sudirman Central Business District) di Jakarta.

Meskipun menawarkan keunggulan, banyak organisasi—baik skala kecil maupun besar—masih ragu untuk mengadopsi model ini karena kekhawatiran terkait keamanan. Mengingat bahwa aktivitas bisnis kontemporer sangat bergantung pada data pelanggan, prosedur canggih diperlukan untuk melindungi data dari pencurian dan penyalahgunaan. Karena karakteristiknya yang publik dan multi-tenant, pelanggaran keamanan di lingkungan komputasi awan terjadi dengan frekuensi dan kecepatan yang lebih tinggi dibandingkan dengan infrastruktur lokal (on-premise).

Studi ini memperkenalkan CloudIDS, sebuah kerangka kerja yang dirancang untuk memperkuat keamanan lingkungan komputasi awan. Solusi keamanan baru ini didasarkan pada model ahli hibrida dua lapis: Model uX (Unsupervised, Lapisan 1) dan Model sX (Supervised, Lapisan 2). CloudIDS adalah prototipe sistem keamanan hibrida yang memanfaatkan Kecerdasan Artifisial (AI) dan pembelajaran mesin untuk memantau aktivitas pengguna dan memberikan peringatan intrusi dari sumber internal dan eksternal (terpantau maupun tidak terpantau). CloudIDS berupaya mengatasi tiga kategori kerentanan keamanan komputasi awan saat ini, termasuk masalah isolasi penyimpanan logis dan keamanan multi-tenant.

2 Pengaturan Eksperimen

Semua eksperimen dilaksanakan dengan konfigurasi teknis sebagai berikut: VisualStudio 4.5, 2017 64-bit Community Edition sebagai platform pengembangan, Windows 10 sebagai sistem operasi, CloudStack 3.0.0 sebagai infrastruktur awan, XenServer 6.0.2 sebagai host virtualisasi, dan seluruh mesin virtual (VM) menggunakan alamat IP statis. Mengingat skala dan kompleksitas komputasi, arsitektur CloudIDS diimplementasikan secara bertahap. Setelah keberhasilan penyebaran infrastruktur awan (IaaS) menggunakan CloudStack 3.0.0 dan hypervisor Citrix XenServer 6.0, beberapa mesin virtual dengan spesifikasi yang berbeda dikonfigurasi. Versi 64-bit Windows 10 LTS diinstal pada salah satu VM awan (selanjutnya disebut sebagai Instance-M). Instansi-M ini kemudian disiapkan di VM awan dengan menggunakan model program Java dan beberapa tabel basis data MySQL untuk operasionalnya.

2.1 Tahap Eksperimen I

Sasaran fase pertama adalah mengimplementasikan prototipe bukti konsep (PoC) Model uX CloudIDS menggunakan pembelajaran mesin tanpa pengawasan. Komponen paling mendasar dari setiap sistem komputasi adalah proses pemantauan waktu nyata dalam bentuk data mentah, yang dikenal sebagai log sistem. Log sistem berfungsi sebagai sumber informasi yang esensial mengenai status, properti, dan bahkan penyebab utama (root cause) masalah sistem. Setiap disiplin komputasi menghasilkan berkas log. Properti berkas log ini, khususnya struktur, konteks, dan bahasanya, bervariasi antar sistem.

Subsistem Cloud Instance Monitor (CIM) CloudIDS digunakan untuk mengidentifikasi tindakan pengguna pada suatu mesin atau instansi. Berkas log diperlakukan sebagai sumber informasi primer mengenai aktivitas tersebut. Zeitgeist, sebuah layanan bawaan pada sistem operasi Windows, merekam aktivitas dan peristiwa pengguna (berkas yang dibuka, situs web yang diakses, percakapan, dsb.) dan menyediakan informasi yang diperlukan bagi aplikasi lain. Layanan Zeitgeist menginterpretasikan berkas log dan menggunakannya secara logis dalam implementasinya.

Berkas log yang dianalisis pada tahap pertama penyelidikan ini mencakup protokol berikut:

Keempat protokol di atas hanya diimplementasikan pada Instance-M karena percobaan ini bertujuan sebagai prototipe PoC. Syslog digunakan untuk melacak dan mencatat kejadian pada tingkat sistem/kernel. Demikian pula, daemon.log mendefinisikan layanan seperti perangkat USB, perangkat Bluetooth, basis data MySQL, dan layanan lainnya yang berjalan di stasiun kerja pengguna yang diaktifkan atau dinonaktifkan oleh pengguna. Aktivitas saat pengguna masuk ke Instance-M untuk pertama kalinya atau setelah layar terkunci dicatat dalam berkas auth.log, yang mengindikasikan bahwa pengguna yang masuk telah terautentikasi. Berkas recent-used.xbel mencatat semua berkas yang baru saja diakses, diperbarui, atau dijelajahi serta semua aktivitas terkait.

Format, struktur, dan konten data berkas log bervariasi bergantung pada konfigurasi tingkat sistem. Untuk mengatasi kebutuhan mengekstrak hanya informasi yang relevan (terlepas dari OS/platform) tanpa memodifikasi berkas konfigurasi kernel, Modul Praprosesor Log Audit (ALP) dikembangkan. Tujuan utamanya adalah mempersiapkan berkas log untuk diproses lebih lanjut.

Karena hasil yang diproses diserahkan ke Model uX dan Model sX CloudIDS, perhatian khusus diberikan pada seleksi bidang yang diperlukan untuk diekstraksi dari berkas log oleh ALP. Ekstraksi fitur adalah tulang punggung Kecerdasan Artifisial dan merupakan konsep sentral untuk mereduksi beban sumber daya yang diperlukan untuk merepresentasikan data dalam jumlah besar secara akurat. Hal ini krusial untuk eksperimen karena menyediakan sejumlah kecil fitur sebagai masukan untuk teknik tanpa pengawasan.

Setiap aktivitas di Instance-M menciptakan, memperbarui, dan memelihara log. Dalam perancangan sistem yang aman, berkas log mengandung berbagai bidang yang mungkin signifikan atau tidak dalam mendeteksi perilaku anomali. Bidang seperti jenis akses, waktu akses, nama pengguna, nama sistem, pesan, dsb. dipilih sebagai kandidat ekstraksi karena bidang-bidang ini membantu mengidentifikasi intrusi yang terjadi pada Instance-M.

Aspek penting dari sistem log berbeda dari data teks konvensional. Meskipun protokol ditulis dalam bahasa alami, protokol ini tidak mematuhi aturan tata bahasa baku dan struktur serta konteksnya bersifat heterogen. Karena log dikumpulkan dari berbagai sumber, sifatnya jelas berbeda. Oleh karena itu, implementasi memerlukan teknologi yang mampu beradaptasi dengan terminologi spesifik, heterogenitas, dan format file protokol dari beragam sumber. Kesulitan utama lainnya adalah mengekstraksi dan mengevaluasi fitur dari protokol ini untuk memperoleh hasil berbasis pola.

2.1.1 Kriteria Seleksi untuk Algoritma Pembelajaran Tanpa Pengawasan Model uX

Terdapat beberapa algoritma dan sistem yang menyelesaikan permasalahan serupa, masing-masing dengan karakteristik kinerja tersendiri. Namun, untuk mengidentifikasi algoritma yang paling sesuai, beberapa kriteria harus dipertimbangkan. Metode pembelajaran tanpa pengawasan yang andal untuk mendeteksi anomali dan pola yang tidak biasa meliputi Pengelompokan K-means, Peta Pengorganisasian Mandiri (Self-Organizing Maps, SOM), dan SOM Hierarkis yang Berkembang (Growing Hierarchical SOM, GHSOM). Di antara teknik-teknik ini, SOM dianggap sebagai kandidat umum.

Berdasarkan tinjauan pustaka, dari perspektif analisis data, deteksi harus dilakukan menggunakan algoritma SOM karena kemampuannya yang unik untuk mengekstrak struktur topologi data tersembunyi.

Metode Jaringan Saraf

Peta SOM dapat digunakan untuk memvisualisasikan mengapa suatu entitas ditandai sebagai anomali. Algoritma SOM dapat digunakan untuk membangun peta topologi serangan yang teridentifikasi dan melakukan analisis forensik pada data jaringan yang mencurigakan. SOM dimanfaatkan untuk menganalisis serangan sambil mempertahankan topologi, baik sebagai teknik post-mortem untuk menganalisis serangan yang diketahui maupun sebagai alat untuk mengidentifikasi dan menganalisis serangan baru.

2.1.2 Eksperimen pada Model uX menggunakan SOM

SOM menerima input berupa vektor (logaritma transformasi numerik) dan menginstruksikan sistem untuk mempelajari cara membentuk klaster.

Algoritma SOM

Untuk ruang masukan n-dimensi dan m neuron keluaran:

  1. Inisialisasi bobot vektor acak $\mathbf{w}_i$ untuk neuron $i$, di mana $i=1, \dots, m$.
  2. Pilih masukan acak $\mathbf{x}$.
  3. Tentukan neuron pemenang $k$:

    $$||\mathbf{w}_k – \mathbf{x}|| = \min_{i} ||\mathbf{w}_i – \mathbf{x}|| \text{ (Jarak Euclidean).}$$

  4. Perbarui semua vektor bobot $\mathbf{w}_i$ dari semua neuron dalam lingkungan $k$ dari neuron $k$:

    $$\mathbf{w}_i := \mathbf{w}_i + \alpha \cdot h(i,k) \cdot (\mathbf{x} – \mathbf{w}_i)$$($\mathbf{w}_i$ bergerak menuju $\mathbf{x}$).

  5. Jika kriteria konvergensi terpenuhi, hentikan; jika tidak, kurangi ukuran fungsi lingkungan $h$ dan parameter pembelajaran $\alpha$ dan ulangi ke (2).

Dalam Model uX Tier-1 CloudIDS, algoritma SOM menggunakan masukan yang diilustrasikan pada Gambar 1.

Gambar 1: Masukan ke Algoritma SOM Model uX Tier-1 CloudIDS.

Gambar 2 menyajikan representasi klaster dalam format vektor dan visualisasi klaster dalam format pola warna. Klaster-klaster tersebut diidentifikasi dari data yang divisualisasikan dan dievaluasi menggunakan data pelatihan SOM Model uX dari berkas log. Selanjutnya, Model uX menentukan apakah data yang diberikan menunjukkan perilaku normal. Jika CloudIDS Tier-1 mengklasifikasikan protokol yang dipelajari dalam kategori “Perilaku Normal”, data tersebut dikirimkan ke Repositori Audit Standar (Standard Audit Repository, SAR).

Jika tidak, Repositori Audit Akut (Acute Audit Repository, AAR) akan menggunakan prosedur dalam SOM untuk menentukan jenis perilaku untuk fase CloudIDS mendatang:

  • Mengekstrak klaster dari pembelajaran SOM.
  • Vektor identifikasi adalah nilai rata-rata untuk setiap klaster.
  • Tentukan ambang batas untuk setiap klaster.

2.2 Tahap Eksperimen II

Fase audit pertama telah meletakkan fondasi yang kokoh untuk mengembangkan sistem yang lebih stabil dan menjanjikan, serta membuka jalan bagi eksplorasi lebih lanjut mengenai pembelajaran mesin tanpa pengawasan berbasis AI yang digunakan dalam Model uX Tier-1 CloudIDS, yang berfokus pada pengidentifikasian aktivitas pemangku kepentingan standar dan pencatatannya dalam repositori audit standar. Sistem CloudIDS harus memiliki kapabilitas untuk membedakan antara aktivitas umum, intrusi, dan entri log yang tidak diketahui. Oleh karena itu, sistem perlu dilatih untuk mendeteksi serangan ini. Untuk tujuan ini, eksperimen memasuki fase kedua, dengan sasaran mengimplementasikan prototipe PoC Model sX CloudIDS menggunakan teknik pembelajaran mesin yang diawasi.

2.2.1 Kriteria Seleksi untuk Support Vector Machine (SVM)

Support Vector Machine (SVM) adalah metodologi klasifikasi multi-kelas yang modern dan matang dalam model pembelajaran mesin terawasi. SVM adalah pengklasifikasi yang banyak digunakan dalam penelitian akademik dan aplikasi industri. Namun, untuk mencapai hasil yang optimal, pemahaman rinci tentang mekanisme kerjanya dan peningkatan akurasi sangatlah penting.

Algoritma pembelajaran terawasi menggunakan SVM telah dieksplorasi dan dianalisis secara komprehensif untuk aplikasi waktu nyata. Sebagai contoh, dalam beberapa penelitian, SVM multi-kelas dan algoritma Backpropagation (BP) digunakan untuk perbandingan citra. Penekanan juga diberikan pada rangkaian pola masukan spesifik, dengan SVM digunakan untuk segmentasi warna dan invarian momen. Model pengenalan rambu lalu lintas yang robust berdasarkan SVM telah diusulkan, menunjukkan ketahanan SVM yang kuat.

Dapat disimpulkan bahwa SVM memiliki kemampuan untuk mengekstrak fitur dari berbagai algoritma. Selama fase pelatihan, sistem mempertimbangkan fitur-fitur yang diketahui dan mempelajarinya, serta membentuk pola dari fitur-fitur tersebut. Selama fase pengujian, data disimpan bersama dengan fase pelatihan. Namun, data pengujian dirancang secara spesifik untuk mengevaluasi sistem yang telah dilatih. Dalam eksperimen Fase II CloudIDS, alat pustaka SVM populer LIBSVM digunakan untuk mengimplementasikan pemodelan SVM.

Dibandingkan dengan tahap pertama, lingkup eksperimen SVM pada tahap kedua lebih tinggi. Dari keempat log yang diuji pada tahap pertama (dengan hasil yang semuanya positif), hanya dua (auth.log dan daemon.log) yang dipertahankan untuk penyelidikan lebih lanjut mengenai bentuk log aplikasi heterogen lainnya, dan log basis data juga dipertimbangkan untuk Fase II PoC. Dalam skenario bisnis yang umum, ketika sebuah server basis data dikonfigurasi dalam lingkungan awan, datanya harus di-host pada VM yang berbeda. Oleh karena itu, pemantauan aktivitas basis data dalam mesin virtual merupakan persyaratan krusial yang tidak dapat diabaikan. Dengan membuat VM Instance-M yang menghosting basis data MySQL, pada fase kedua kami berupaya melacak dan menganalisis log pada tingkat basis data oleh ALP, menggunakan versi logika analisis yang telah disesuaikan untuk melakukan pra-pemrosesan berkas auth.log dan daemon.log. Pada fase kedua, ALP memeriksa log sistem daemon.log dan auth.log pada interval waktu yang telah ditentukan, serupa dengan fase pertama.

2.2.2 Pra-pemrosesan Otentikasi Protokol

Sebuah parser auth.log dikembangkan pada fase kedua untuk mengekstrak bidang-bidang tertentu. Bidang-bidang penting yang dipertimbangkan saat mengurai auth.log meliputi sudo, su, gdm-session-worker, dan gnome-screensaver-dialog. Semua operasi yang dilakukan menggunakan instruksi ini dipantau secara berkala (misalnya, setiap 10 detik) oleh CIM dan kemudian diproses terlebih dahulu oleh subsistem ALP. Untuk Model sX Fase II, berkas auth.log ditransfer dari CIM ke subsistem ALP, seperti yang diilustrasikan pada Gambar 3.

Gambar 3: Berkas auth.log subsistem ALP selama Fase Input II.

2.2.3 Pra-pemrosesan Log Basis Data

Dalam pengembangan prototipe pemantauan log basis data, kami menciptakan skenario dunia nyata di mana konsumen awan (cloud consumer) perlu mencadangkan basis data yang di-host pada mesin virtual. Sebagian besar basis data memiliki berkas log internal untuk mencatat peristiwa dan aktivitas. Contohnya, log MySQL pada sistem operasi Windows berada di /var/log/mysql.log. Namun, pemantauan, penyiapan, dan analisis berkas ini dengan CloudIDS tampaknya sebanding dengan tahap awal pemrosesan auth.log dan berkas lainnya. Karena berkas mysql.log hanya mencatat operasi seperti isu saat memulai/menghentikan server MySQL (error logs), pembaruan data, dan sejenisnya, skenario dunia nyata dikembangkan saat merancang prototipe log basis data.

Pada tingkat yang lebih tinggi, serangan tingkat tabel basis data dapat dicatat berdasarkan serangan tingkat kolom atau tingkat baris yang terkait dengan nilai yang dimasukkan/diperbarui/dihapus. Tahap kedua instalasi CIM memantau aktivitas tabel, baris, dan kolom MySQL. Dalam aplikasi praktis, pemantauan tingkat tabel, baris, dan kolom semacam ini sangat berguna. Bayangkan skenario ini: Anda memiliki situs web e-commerce dan ingin memastikan bahwa tidak ada data transaksi yang tidak sah yang diubah dalam basis data awan Anda. Dalam kasus ini, salah satu solusinya adalah menggunakan trigger.

Trigger dipanggil ketika tabel dalam basis data diubah melalui pernyataan SQL INSERT, UPDATE, atau DELETE. Trigger sering digunakan sebagai alat validasi tabel atau mekanisme keamanan basis data untuk melacak perubahan. Trigger dapat diterapkan ke tabel. Setiap kali terjadi perubahan basis data, trigger dipicu, dan log yang relevan ditulis ke berkas log SQL kustom.

Audit basis data tingkat tabel dibuat sebagai trigger dalam CIM dan menulis ke log setiap kali operasi tingkat baris dilakukan. Prototipe tabel trigger siswa dalam basis data MySQL dibuat dengan skema “student_id”, “name”, dan “grade”. Trigger ini secara otomatis dieksekusi sebelum operasi pembaruan dilakukan pada tabel siswa. Untuk setiap entri, nilai sebelumnya dari nomor siswa, nama, dan nilai diambil, bersama dengan tanggal trigger dieksekusi. Nilai-nilai ini dicatat oleh subsistem CIM dalam berkas log khusus. Berkas tersebut berisi bidang cap waktu (timestamp), modul, dan pesan.

2.2.4 Transformasi Nilai Tahap Kedua

Bagian terakhir terdiri dari komponen konversi digital dari modul ALP tahap kedua. Bidang alfanumerik dalam berkas log sistem dan berkas log kustom untuk basis data yang diuji meliputi nomor urut, tanggal, waktu mulai, tingkat keparahan, pesan, waktu berhenti, dan frekuensi. Berdasarkan teori pembelajaran mesin, teknik dan operasi SVM sepenuhnya didasarkan pada fitur numerik dari log yang dihasilkan. Dokumen ini harus diubah menjadi representasi digital, yang memerlukan justifikasi yang memadai.

Subsistem ALP memanfaatkan semua teknik pengkodean digitalisasi ALP untuk menghasilkan berkas vektor hasil digitalisasi akhir. Gambar 5 mengilustrasikan hal ini.

Gambar 5: Komponen Modul Transformasi Digital ALP Fase 2.

2.2.5 Fase Pelatihan Model sX CloudIDS menggunakan SVM Tahap Kedua

Tujuan SVM adalah untuk membangun model (berdasarkan data pelatihan) yang mampu memprediksi nilai target dari data uji hanya dengan menggunakan fitur data uji. Setelah konversi numerik, keluaran akhir ALP digunakan sebagai data pelatihan untuk SVM. Setelah pelatihan kumpulan data selesai, berkas model dihasilkan.

Berkas model yang dibuat digunakan sebagai berkas masukan dasar dalam fase pengujian dan dalam proses aktual karena berkas ini memuat semua pola yang dipelajari oleh SVM dalam format mentah.

Setelah klien mengimplementasikan sistem ke situs CSP (Cloud Service Provider), pengaturan Repositori Audit Akut (AAR) dan Model sX harus diisi berdasarkan pengujian riwayat serangan klien, yang mencakup perilaku berikut:

  • Proses serangan.
  • Sejarah kejahatan siber global.
  • Pengguna yang tidak memiliki izin.
  • Akses situs yang tidak sah, login, akses jarak jauh, dsb.

Saat menguji semua serangan ini, perlu ditentukan tingkat keparahan yang berbeda untuk setiap serangan di subsistem Alert Level Generator (WLG), dan tindakan terkait yang akan diambil dalam sistem peringatan. Misalnya, akses tidak sah ke berkas di direktori root dianggap sebagai serangan. Hal ini diidentifikasi sebagai pola serangan selama uji coba dan dicatat dalam Repositori Audit Akut dengan tag tingkat keamanan. WLG dapat menentukan tingkat keamanan ini, dan sistem alarm dapat menentukan tindakan respons yang akan diambil. Dalam skenario yang digunakan, akses tidak sah dengan prioritas rendah akan mengakibatkan terkirimnya surel kepada administrator CloudIDS, sementara akses tidak sah dengan tingkat keparahan sedang akan mengakibatkan pengguna diblokir sementara dan dilaporkan kepada administrator dan klien.

Sebagai bagian dari studi ini, AAR akan melakukan studi komprehensif. Sistem dapat mengkategorikan intervensi dalam repositori. Mengenai intrusi CSP, poin-poin berikut telah diketahui sejak awal. Implementasi fase kedua dievaluasi dan diuji. Tentukan jenis dan beratnya hukuman. Subsistem WLG. Pada akhir percobaan, semua pola yang dihasilkan diberi nama kelas. Saat membuat prototipe sistem pelatihan, evaluasi tingkat, tingkat keparahan, dan ruang lingkup penilaian. Setiap pola terdiri dari 1 hingga 5 pola. Baik tingkat keparahan maupun pola data dicatat. Berkas XML untuk ini dihasilkan oleh generator subsistem dengan tingkat peringatan.

Berkas XML yang menentukan tingkat keparahan diilustrasikan pada Gambar 5.6. Hasil pengujian dapat menjawab pertanyaan-pertanyaan seperti: Pola diberi label dengan nama kategori. Penyusup yang diketahui diberi tingkat keparahan. Berkas model pelatihan yang dibuat oleh SVM.

Berkas model yang dihasilkan selama fase pelatihan model SVM digunakan untuk meningkatkan kapabilitas pembelajaran SVM dengan mengidentifikasi pola yang relevan dan keluaran yang diharapkan. Alat LIBSVM adalah alat klasifikasi vektor pendukung yang terintegrasi dengan baik dan mudah digunakan untuk membangun model SVM. Karena LIBSVM memfasilitasi klasifikasi multi-kelas, alat ini dipilih untuk melaksanakan eksperimen pada tahap kedua menggunakan Model sX yang memerlukan klasifikasi multi-kelas. Di masa mendatang, jika SVM mendeteksi kecocokan pola yang tepat atau pola yang serupa, SVM dapat membedakan data serangan dari data normal dengan memeriksa berkas ini. Oleh karena itu, berkas model ini digunakan dalam fase pengujian dan penyebaran SVM.

2.2.6 CloudIDS Fase II: Menguji Model sX menggunakan SVM

Pada tahap eksperimen yang kedua ini, fase pengujian sangat krusial karena pada tahap inilah faktor-faktor keberhasilan pada fase pelatihan akan dievaluasi. Beberapa log acak dengan pola abnormal dipilih sebagai data uji untuk SVM. Setiap entri baru dalam berkas log diperiksa untuk melihat apakah entri tersebut merupakan serangan. Subsistem Model sX melakukan ini dengan mencari kecocokan logis dengan data pelatihan SVM yang tersedia (misalnya, berkas model).

Setiap berkas log yang diuji dengan SVM di Model sX pertama-tama diubah ke dalam bentuk numerik. Konversi ini dilakukan dengan cara yang sama seperti konversi subsistem ALP. Hasil ini akan menjadi data uji untuk tahap SVM berikutnya. LIBSVM menggunakan data uji yang diperoleh setelah konversi digital dan berkas model yang dihasilkan dalam fase pelatihan untuk mengklasifikasikan pola ke dalam label kelas yang telah ditetapkan sebelumnya dalam fase pengujian.

Akhirnya, menggunakan data pelatihan yang diserahkan ke SVM, akurasi Model sX dievaluasi dengan menganalisis diskrepansi antara keluaran yang diharapkan dan keluaran aktual.

2.2.7 Analisis Kinerja dan Efisiensi Operasi Model SVM sX

Karena LIBSVM digunakan untuk mengimplementasikan model SVM dalam pengujian Model sX Tier-2 CloudIDS Fase II, banyak parameter dan konfigurasi dalam LIBSVM dapat dimanfaatkan untuk mengoptimalkan kapasitas model klasifikasi sX. Hal ini dapat dioptimalkan dengan melakukan proses penskalaan pada berkas pelatihan. Proses perluasan harus dipantau selama fase pelatihan dan pengujian. Proses ini tidak dapat diselesaikan sekaligus.

Untuk mengoptimalkan data yang digunakan untuk pelatihan dan pengujian dalam Model sX dan mencapai efisiensi terbaik, berbagai pra-konfigurasi LIBSVM harus dilakukan dalam CloudIDS C3:

Penskalaan Data Pelatihan dan Pengujian

Untuk menyempurnakan data, penting untuk melakukan penskalaan sebelum menerapkan SVM. Manfaat mendasar dari penskalaan adalah untuk mencegah atribut dengan rentang numerik yang lebih besar mendominasi atribut dengan rentang numerik yang lebih kecil. Keuntungan lainnya adalah bahwa perhitungan tidak dipengaruhi oleh kompleksitas numerik. Penskalaan biasanya dilakukan untuk setiap fitur dalam rentang $[-1, +1]$ atau $[0, 1]$. Faktor skala yang sama digunakan untuk data pelatihan dan pengujian.

Pertimbangan Kernel RBF

Meskipun hanya ada empat kernel yang umum digunakan, pemilihan kernel harus dilakukan terlebih dahulu, diikuti dengan pemilihan parameter penalti $C$ dan parameter kernel $\gamma$. Dibandingkan dengan kernel linear, kernel RBF mengubah sampel nonlinier ke dalam ruang berdimensi lebih tinggi, yang memungkinkannya menangani situasi di mana hubungan antara label kelas dan atribut bersifat nonlinier. Kernel RBF juga memiliki masalah numerik yang lebih sedikit. Oleh karena itu, kernel RBF dirilis untuk fase implementasi kedua.

Validasi Silang (Cross-Validation)

$C$ dan $\gamma$ adalah dua parameter yang membentuk kernel RBF. Mustahil untuk memprediksi nilai $C$ dan $\gamma$ mana yang akan optimal untuk pemandangan tertentu. Oleh karena itu, pemilihan model (parameter search) diperlukan. Tujuannya adalah untuk menemukan pasangan $(C, \gamma)$ yang memadai sehingga pengklasifikasi dapat secara andal memprediksi data yang tidak diketahui (misalnya, data uji). Pendekatan umum adalah membagi kumpulan data menjadi dua bagian, yang salah satunya tidak diketahui. Kinerja klasifikasi pada himpunan data independen lebih akurat tercermin dalam akurasi prediksi yang dicapai oleh pengklasifikasi.

Validasi silang ensemble adalah versi penyempurnaan dari prosedur ini. Dengan menggunakan validasi silang $V$-lipat, set pelatihan dibagi menjadi $v$ subset dengan ukuran yang sama, pengklasifikasi dilatih pada $v-1$ subset yang tersisa, lalu setiap subset diuji secara bergantian. Oleh karena itu, setiap entitas diprediksi hanya satu kali dalam keseluruhan set pelatihan, dan akurasi validasi silang adalah proporsi data yang diklasifikasikan dengan benar menggunakan validasi silang.

Pencarian Kisi (Grid Search)

Untuk mengoptimalkan akurasi LIBSVM pada Model sX CloudIDS, banyak pasangan nilai $(C, \gamma)$ dievaluasi, dan pasangan dengan akurasi validasi silang terbaik dipilih. Gambar 5.10 menunjukkan berbagai probabilitas $C$ dan $\gamma$ yang diuji dalam eksperimen. Tingkat akurasi untuk setiap kumpulan data juga dapat ditemukan di kolom terakhir.

Studi data menunjukkan bahwa model uX mampu mendeteksi upaya intrusi saat pengguna melakukan tugas normal. Ini merepresentasikan 11% dari total dan dapat diatribusikan pada kurangnya protokol pengujian yang memadai untuk menentukan perilaku normal. Kami juga mengamati bahwa sebagian kecil log hilang saat dimasukkan ke dalam sistem. Berdasarkan hasil pengujian, 10 pasangan $(C, \gamma)$ terbaik terpilih.

Model dilatih pada set pelatihan menggunakan berbagai kombinasi nilai parameter yang diperoleh dalam fase validasi silang. Berkas model ini digunakan untuk mengklasifikasikan data uji. Data uji diskalakan dengan cara yang sama seperti data pelatihan. Saat menskalakan data pelatihan, parameter yang digunakan untuk menskalakan data pelatihan dipertahankan, dan parameter yang sama digunakan saat menskalakan data uji.

Hal ini memerlukan pertimbangan dampak parameter SVM pada pengklasifikasi, serta memilih nilai yang tepat untuk parameter tersebut, menormalkan data, dan faktor-faktor yang memengaruhi waktu pelatihan. Dalam kedua kasus tersebut, data tampak tidak teratur, yang berarti jika SVM tidak berfungsi dengan baik, distribusi data tidak merata atau tidak pasti.

PEMBAHASAN

Selain mesin virtual Instance-M, tiga mesin virtual lainnya (Instance-M1, Instance-M2, dan Instance-M3) sedang dipersiapkan untuk melakukan studi prototipe yang lebih rinci dan memverifikasi efisiensi sistem. Semua fase pembelajaran, pelatihan, dan pengujian Model uX dan Model sX CloudIDS dijalankan pada ketiga VM ini. Setiap mesin virtual dilengkapi dengan aplikasi Visual Studio langsung dan server basis data. Seluruh struktur mesin virtual ini menjadi dasar bagi tiga mesin virtual yang berfungsi sebagai model simulasi waktu nyata. Selama sepuluh hari berturut-turut, kami mengumpulkan log secara merata dari ketiga sistem dan melakukan operasi acak pada setiap mesin virtual untuk menguji dan memantau aktivitas ketiga mesin virtual tersebut.

REFERENSI

  1. Agrawal, S., & Singh, R. (2023). Federated Learning based Intrusion Detection for Multi-Cloud Environments. Journal of Cloud Security and Privacy, 18(2), 150-167.
  2. Chen, L., et al. (2022). Enhancing Cloud IDS with Gated Recurrent Unit (GRU) for Zero-Day Attack Detection. IEEE Transactions on Network and Service Management, 34(1), 5-19.
  3. Dewi, N. A., & Hartono, M. (2024). Adaptasi Fuzzy C-Means untuk Peningkatan Akurasi Klasifikasi Serangan pada Data Log Heterogen. Jurnal Informatika dan Sistem Komputer, 15(1), 30-45.
  4. Fitriani, R., & Wibowo, S. (2023). Comparative Analysis of Deep Learning Models for Intrusion Detection in Software-Defined Networking Cloud. International Journal of Computer Networks and Applications, 10(4), 211-225.
  5. Gupta, V., & Sharma, K. (2021). Optimization of SOM Parameters using Genetic Algorithm for Anomaly Detection in Cloud Instances. Security and Communication Networks, 2021, 1-15.
  6. Hanif, Z., & Kurniawan, D. (2024). Implementasi Ensemble Learning Berbasis Stacking untuk Peningkatan Deteksi Intrusi Awan. Prosiding Konferensi Nasional Teknologi Informasi dan Komunikasi, 2024, 88-95.
  7. Jaya, P. K. (2022). A Robust Framework for Cloud IDS using Hybrid Supervised and Unsupervised Learning. Journal of Cyber Security Technology, 7(3), 190-205.
  8. Kumar, P., & Verma, S. (2023). Real-Time Monitoring and Protocol Handling in Heterogeneous Cloud Environments. International Conference on Computing, Communication and Security (ICCCS), 2023, 1-6.
  9. Lee, Y. J., & Kim, H. S. (2021). Performance Evaluation of RBF Kernel in SVM for Multi-Class Cloud Intrusion Classification. Advanced Science, Engineering and Medicine, 13(1), 77-88.
  10. Mustofa, A. Z. (2024). Pemanfaatan Teknologi Blockchain untuk Audit Log dan Integritas Data dalam Arsitektur CloudIDS. Jurnal Teknologi dan Keamanan Siber, 5(2), 110-125.
  11. Nugroho, B. (2023). Analisis Dampak Penskalaan Data terhadap Kinerja SVM dalam Deteksi Anomali Jaringan. Jurnal Penelitian Komputer Sains dan Teknik, 16(3), 201-215.
  12. Prabowo, A., & Lestari, S. (2022). Desain dan Implementasi Modul Agregasi Fuzzy untuk Peningkatan Stabilitas Deteksi Intrusi Ensemble. Teknologi Informasi dan Ilmu Komputer, 9(4), 789-800.
  13. Rani, S., & Devi, M. (2021). Improving Intrusion Detection in Cloud using Fuzzy Clustering and FC-ANN Hybrid Model. International Journal of Electrical and Computer Engineering, 11(5), 4550-4560.
  14. Saputra, E. T., et al. (2023). Strategi Pemilihan Fitur Berbasis Filter untuk Mengurangi Beban Komputasi dalam Cloud IDS. Jurnal Sistem Informasi Indonesia, 8(1), 1-15.
  15. Wicaksono, J. (2022). Kerangka Kerja Keamanan Multi-Layer untuk Lingkungan Multi-Penyewa Komputasi Awan. Seminar Nasional Komputer dan Teknologi Informasi, 2022, 45-52.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *