OPTIMASI KLASIFIKASI DECISION TREE DENGAN TEKNIK PRUNING UNTUK MENGURANGI OVERFITTING

Authors

  • Cindy Novi Syahputri Universitas IsIam Negeri Sumatera Utara
  • Muhammad Siddik Hasibuan Universitas Islam Negeri Sumatera Utara

DOI:

https://doi.org/10.30656/jsii.v11i2.9161

Abstract

Penelitian ini bertujuan untuk mengoptimalkan klasifikasi Decision Tree menggunakan teknik pruning untuk mengurangi overfitting pada dataset penyakit jantung Kaggle. Overfitting adalah masalah umum dalam pembelajaran mesin, ketika model terlalu cocok dengan data pelatihan dan kehilangan kemampuannya untuk menggeneralisasi data baru dengan baik. Teknik pruning, termasuk prepruning dan postpruning, diterapkan untuk membatasi kompleksitas model dan meningkatkan kemampuannya dalam mengklasifikasikan data baru. Hasilnya menunjukkan bahwa model dengan postpruning memiliki performa terbaik, dengan akurasi 0,8841, recall 0,8571, presisi 0,8571, dan skor F1 0,8571. Sebagai perbandingan, model dengan prepruning memiliki akurasi sebesar 0,8333, recall sebesar 0,8304, presisi sebesar 0,8304, dan skor F1 sebesar 0,7434. Peningkatan metrik ini menegaskan bahwa postpruning lebih efektif dalam mengurangi overfitting dan meningkatkan kemampuan generalisasi model. Dengan demikian, teknik postpruning dapat dianggap sebagai metode unggulan dalam mengoptimalkan kinerja Decision Tree Classifier untuk klasifikasi penyakit jantung. Penelitian ini diharapkan dapat berkontribusi pada pengembangan model prediksi yang lebih akurat dalam diagnosis penyakit jantung, sehingga membantu upaya pencegahan dan pengobatan yang lebih baik.

 

Kata Kunci: Decision Tree, Pruning, Prepruning, Postpruning, Overfitting, Heart Disease Dataset, Kaggle, Machine Learning, Classification, Model Optimization.



Downloads

Download data is not yet available.

References

M. Minarni, E. I. Sari, A. Syahrani, and P. Mandarani, “Klasterisasi Penyakit Menggunakan Algoritma K-Medoids pada Dinas Kesehatan Kabupaten Agam,†J. Nas. Pendidik. Tek. Inform., vol. 10, no. 3, p. 137, 2021, doi: 10.23887/janapati.v10i3.34904.

L. Hao, “Research on parallel association rule mining of big data based on an improved K-means clustering algorithm,†Int. J. Auton. Adapt. Commun. Syst., vol. 16, no. 3, pp. 233–247, 2023, doi: 10.1504/IJAACS.2023.131622.

R. R. Damanik and M. H. Poernomo, “Prediksi Pembelian Barang Pada Distributor Lampu Menggunakan Metode Apriori pada PT. XYZ,†JDMIS J. Data Min. …, 2023, [Online]. Available: https://journal.yp3a.org/index.php/jdmis/article/view/1500

A. S. Ritonga and I. Muhandhis, “Teknik Data Mining Untuk Mengklasifikasikan Data Ulasan Destinasi Wisata Menggunakan Reduksi Data Principal Component Analysis (Pca),†Edutic - Sci. J. Informatics Educ., vol. 7, no. 2, 2021, doi: 10.21107/edutic.v7i2.9247.

S. Defit, A. P. Windarto, and P. Alkhairi, “Comparative Analysis of Classification Methods in Sentiment Analysis: The Impact of Feature Selection and Ensemble Techniques Optimization,†Telematika, vol. 17, no. 1, pp. 52–67, 2024.

A. P. Windarto, I. R. Rahadjeng, M. N. H. Siregar, and P. Alkhairi, “Deep Learning to Extract Animal Images With the U-Net Model on the Use of Pet Images,†J. MEDIA Inform. BUDIDARMA, vol. 8, no. 1, pp. 468–476, 2024.

A. Prasetio, “Simulasi Penerapan Metode Decision Tree (C4.5) Pada Penentuan Status Gizi Balita,†J. Nas. Komputasi dan Teknol. Inf., vol. 4, no. 3, pp. 209–214, 2021, doi: 10.32672/jnkti.v4i3.2983.

A. K. Wardhani, E. Nugraha, and ..., “Optimization of the Decision Tree Method using Pruning on Liver Disease Classification,†J. Appl. …, 2022, [Online]. Available: https://jurnal.polibatam.ac.id/index.php/JAIC/article/view/4350

P. Rao, “Weight pruning-UNet: Weight pruning UNet with depth-wise separable convolutions for semantic segmentation of kidney tumors,†J. Med. Signals Sens., vol. 12, no. 2, pp. 108–113, 2022, doi: 10.4103/jmss.jmss_108_21.

M. S. Hasibuan and Suhardi, “Analisis Sentimen Kebijakan Vaksin Covid-19 Menggunakan SVM dan C4.5,†J. Tek. Elektro Dan Komput. TRIAC, pp. 19–21, 2022.

K. F. Irnanda, D. Hartama, and A. P. Windarto, “Analisa Klasifikasi C4.5 Terhadap Faktor Penyebab Menurunnya Prestasi Belajar Mahasiswa Pada Masa Pandemi,†J. Media Inform. Budidarma, vol. 5, no. 1, p. 327, 2021, doi: 10.30865/mib.v5i1.2763.

M. M. Mijwil and R. A. Abttan, “Utilizing the genetic algorithm to pruning the C4. 5 decision tree algorithm,†Asian J. Appl. Sci., 2021, [Online]. Available: https://www.researchgate.net/profile/Maad-Mijwil/publication/349634676_Utilizing_the_Genetic_Algorithm_to_Pruning_the_C45_Decision_Tree_Algorithm/links/6038f64ca6fdcc37a8544bff/Utilizing-the-Genetic-Algorithm-to-Pruning-the-C45-Decision-Tree-Algorithm.pdf

Downloads

Published

2024-09-15

Issue

Section

Articles