Saat ini sudah banyak aplikasi data mining mulai dari yang gratis sampai yang berbayar salah satunya adalah WEKA. Weka adalah aplikasi data mining yang simple dengan tampilan yang sederhana dengan berbasis java. Weka memiliki 2 versi yaitu versi GUI dan library. Di dalam aplikasi weka kita dapat melakukan klasifikasi, asosoasi, clustering, decision tree dan sebagainya.
Dalam blog saya kali ini saya akan membahas mengenai decision tree menggunakan aplikasi weka
Apa itu decision tree ?
Salah satu metode yang harus kalian ketahui dari klasifikasi adalah metode Decision Tree, klasifikasi popular yang mudah diinterprestasikan, model prediksi menggunakan struktur pohon atau struktur berhirarki. Konsep yang dimiliki oleh decision tree yaitu mengubah data menjadi pohon keputusan dan dan aturan – aturan keputusan. Decision tree mempunyai kemampuan untuk mem – break down proses pengambilan keputusan yang kompleks menjadi lebih simple sehingga pengambilan keputusan akan lebih menginterprestasikan solusi dari permasalahan. Decision tree adalah sebuah diagram alir yang berbentuk seperti struktur pohon yang mana setiap internal node menyatakan pengujian terhadap suatu atribut, setiap cabang menyatakan output dari pegujian tersebut dan leaf node menyatakan kelas–kelas atau distribusi kelas. Node yang paling atas disebut sebagai root node atau node akar. Sebuah root node akan memiliki beberapa edge keluar tetapi tidak memiliki edge masuk, internal node akan memiliki satu edge masuk dan beberapa edge keluar, sedangkan leaf node hanya akan memiliki satu edge masuk tanpa memiliki edge keluar
Manfaat dari decision tree
Manfaat utama dari penggunaan pohon keputusan (decision tree) adalah kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Selain itu juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.
Pohon keputusan memadukan antara eksplorasi data dan pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sering terjadi tawar menawar antara keakuratan model dengan transparansi model. Dalam beberapa aplikasi, akurasi dari sebuah klasifikasi atau prediksi adalah satu-satunya hal yang ditonjolkan, misalnya sebuah perusahaan direct mail membuat sebuah model yang akurat untuk memprediksi anggota mana yang berpotensi untuk merespon permintaan, tanpa memperhatikan bagaimana atau mengapa model tersebut bekerja.
Kelebihan dan kekurangan decision tree
Kelebihan dari metode pohon keputusan adalah
Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat diubah menjadi lebih simpel dan spesifik.
Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan kriteria atau kelas tertentu.
Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahap yang lebih konvensional
Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan kriteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas keputusan yang dihasilkan.
Kekurangan Pohon Keputusan
Terjadi overlap terutama ketika kelas-kelas dan criteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.
Pengakumulasian jumlah error dari setiap tingkat dalam sebuah pohon keputusan yang besar.
Kesulitan dalam mendesain pohon keputusan yang optimal. Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat tergantung pada bagaimana pohon tersebut didesain
Model Pohon Keputusan
Contoh – contoh dari pohon keputusan dapat dilihat pada gambar berikut ini.
TUTORIAL MENGGUNAKAN WEKA
Berikut ini adalah tutorial klasifikasi data dengan menggunakan metode decision tree dengan menggunakan aplikasi Weka dengan bantuan tools notepad dan Ms. Excel :
1. Jika belum mempunyai aplikasi weka maka sebelumnya kita unduh terlebih dahulu aplikasi weka tool 3.8 disini
3. Terdapat 432 datasets yang tersedia seperti pada gambar. Pilihlah salah satu datasets yang diinginkan (saya menggunakan data lenses)
4. Klik data folder seperti gambar berikut ini
5. Kemudian klik lenses.data seperti pada gambar berikut
6. Copy semua data yang ada
7. Kemudian paste data tersebut ke notepad
8. Ubah data yang ada pada notepad. Pertama hapus data pada kolom pertama paling sebelah kiri. Kedua berikan atribut (age, spectacle-prescription, astigmatic, tear-production-rate, contact-lenses) pada baris pertama. Ketiga hapus semua spasi dan berikan tanda koma (,) untuk setiap data seperti pada gambar berikut ini :
Note : jika tanda koma (,) tidak berhasil ketika dibuka filenya di Ms. Excel maka langkah yang harus kalian ambil adalah dengan mengubah semua tanda koma dengan titik koma (;), karena di setiap versi Ms. Excel berbeda – beda di versi Ms. Excel saya menggunakan tanda koma (,)
9. Kemudian save as data tersebut dengan format .csv seperti pada gambar berikut ini
10. Kemudian buka file lenses.csv yang anda buat tadi. Jika sudah terbuka maka tampilannya akan seperti gambar berikut ini
11. Kemudian ubahlah data – data angka tersebut sesuai keterangan dibawah ini :
Age
|
spectacle-prescription
|
astigmatic
|
tear-production-rate
|
contact-lenses
|
1 = young
|
1 = myope
|
1 = no
|
1 = reduce
|
1 = hard
|
2 = pre- presbyopic
|
2 = hypermetrope
|
2 = yes
|
2 = normal
|
2 = soft
|
3 = presbyopic
|
3 = none
|
Jika sudah maka tampilannya akan menjadi seperti ini
12. Lalu selanjutnya kita akan mengubah data .csv tersebut menjadi .arff dengan menggunakan aplikasi weka. Kita buka terlebih dahulu aplikasi wekanya dengan tampak awalnya seperti ini
13. Kedua klik “Explorer” yang ada pada weka, jika sudah maka tampilan akan seperti gambar dibawah ini
14. Klik “Open File” yang ada pada weka, seperti gambar dibawah ini:
pilih file of types dengan CSV data files (.csv) kemudian pilih data yang tadi telah kalian simpan, lalu buka file tersebut.
15. Jika sudah dibuka filenya, maka tampilan akan seperti gambar dibawah ini
klik “save” yang ada pada weka
16. Buka file .arff tadi dengan menggunakan weka dengan cara klik “open file”, pilih file of types dengan arff, pilih file arff yang tadi dibuat kemudian klik open. Jika sudah maka tampilannya seperti gambar dibawah ini:
17. Langkah selanjutnya melakukan klasifikasi dengan metode trees (j48). Pertama klik “Classify” pada weka, kemudian klik “Choose” seperti gambar dibawah:
18. Kemudian pilih “trees” kemudian klik “j48” seperti gambar berikut
19. Kemudian disini saya mencoba percentage split dengan 80%. Artinya 80% datanya menjadi training set kemudian sisanya yaitu 20% menjadi test set, kemudian klik start. Diperoleh hasil seperti gambar dibawah :
Dapat dilihat tingkat keberhasilan sekitar 100% dan error 0%:
20. Dengan tingkat keberhasilan 100% dan error 0% maka model yang didapat seperti gambar dibawah ini:
Dari model diatas dapat dibaca misal tear production rate nya reduced maka none (artinya pasien tidak harus dilengkapi dengan lensa kontak.) kemudian jika tear production rate nya normal (artinya jika Tingkat produksi air mata normal dalam artian tidak ada perubahan) kemudian dilat jika astigmatic no maka soft (artinya jika astigmatic no maka pasien harus dilengkapi dengan lensa kontak soft) jika astigmatic nya yes maka di liat lagi spectacle prescription (kondisi) jika pasien myope (rabun jauh) berarti pasien harus dilengkapi dengan lensa kontak hard, sedangkan jika pasien hypermetrope (rabun dekat) maka pasien tidak harus dilengkapi dengan lensa kontak.
21. Terakhir kita melihat visualisasi nya dengan cara klik kanan pada trees.j48 yang terakhir (karena yang terakhir tingkat keberhasilan nya 100%) kemudian pilih visualize tree. Seperti gambar dibawah ini:
22. Jika sudah maka akan menampilkan tree seperti gambar dibawah ini
Penjelasan :
Bahwa dari decision tree tersebut maka root node pada tear-production-rate menunjukan cabang sebelah kiri untuk reduce dengan nilai none (artinya pasien tidak harus dilengkapi dengan lensa kontak), sedangkan cabang sebelah kanan menunjukan normal (artinya jika tingkat produksi air mata normal dalam artian tidak ada perubahan) dengan node selanjutnya astigmatic dimana root sebelah kiri untuk no maka soft (artinya pasien harus dilengkapi dengan lensa kontak soft) sedangkan root sebelah kanan untuk yes maka di liat lagi spectacle prescription (kondisi) jika pasien myope (rabun jauh) berarti pasien harus dilengkapi dengan lensa kontak hard, sedangkan jika pasien hypermetrope (rabun dekat) maka pasien tidak harus dilengkapi dengan lensa kontak.
sekian penjelasan dari saya. mohon maaf jika ada kekurangan
TERIMA KASIH
Referensi :
Tidak ada komentar:
Posting Komentar