KLUSTERISASI PENYEBAB KEMATIAN DI INDONESIA DENGAN PENERAPAN ALGORITMA K-MEANS
DOI:
https://doi.org/10.30656/jsii.v11i2.9276Abstract
Kasus angka kematian yang terjadi di Indonesia dapat di kelompokan dalam beberapa kategori seperti natural disaster, nonnatural disaster, dan social disaster. Pemisahan suatu instans pada dataset sering menjadi hambatan Ketika melibatkan instans yang banyak. Penemuan karakteristik yang serupa akan menjadi tantangan untuk mendapatkan kluster terbaik. Penentuan jumlah kluster yang efektif terhadap dataset yang dimiliki menjadi permasalahan lain Ketika melakukan proses kluster. Berdasarkan permasalahan dan tantangan yang diperoleh, maka untuk menjawab hal ini dilakukanlah pemodelan clustering dengan bantuan algoritma clustering. Metode yang digunakan pada pengklusteran ini adalah K-Means. Metode ini telah menjadi usulan dari berbagai penelitian yang menyatakan sukses dalam melakukan clustring. Penentuan K terbaik yaitu dengan bantuan elbow curve, dengan melihat titik elbow pada hasil generasi kurva dari dataset. Rangkaian penyelesaian penelitian ini adalah dengan mengikuti flow of process datamining yang dimulai dengan Data Preprocessing, Data modeliing, dan visualization hasil. bertujuan untuk mengetahui klusterisasi penyebab kematian di Indonesia berdasarkan kategori yang di sebutkan di atas. Dataset yang digunakan adalah sebanyak 648 instans yang diambil dari rentang 2000 – 2020 mengenai kasus kematian pada 34 provinsi di Indonesia. Data preprocessing adalah melakukan cleansing data, pembersihan outlier, missing value, data transformation. Pembersihan outlier yaitu menggunakan bantuan Box Plot, sedangkan transformation menggunakan fungsi transormasi data diskrit menjadi data numerik. Pada data modelling, algoritma K-means dengan K atau banyaknya diperoleh dari hasil Elbow Curve. Selain proses clustering, penggalian pola juga dilakukan dengan metode classification yang hasilnya ditunjukan dengan akurasi sebesar 63%. Meninjau dari hasil classification, bahwa klasifikasi kematian yang berasal dari sumber sosial, tidak dapat diprediksi dengan akurat. Klasifikasi sumber kematian dari Sosial tidak berhasil dipolakan oleh mesin learning. Matrik konfusi menunjukkan hanya 55 instans yang benar untuk bencana alam, bencana non alam dan penyakit sebesar 353 yang benar, dan untuk bencana sosial tidak berhasil diprediksi. Dari hasil ini, maka dapat diperoleh tantangan baru yaitu memperbaiki akurasi dengan mempertimbangan Imbalance Class, dan Resampling yang belum digunakan pada penelitian ini.
Kata kunci: Unsupervise, clustering, K-Means, euclidean distance, elbow curve,.
References
A. M. Siregar, “Pengelompokan Bidang Laju Pertumbuhan Ekonomi Indonesia Menggunakan Algoritma K-Means,†Jurnal Accounting Information System (Aims), Vol. 2, No. 2, Pp. 140–151, 2019.
F. A. I. S. Aji, S. Achmadi, And F. X. Ariwibisono, “Penerapan Metode Clustering Pada Analisis Realisasi Pendapatan Asli Daerah Dengan Algoritma K-Means,†Jati (Jurnal Mahasiswa Teknik Informatika), Vol. 5, No. 2, Pp. 443–451, 2021.
R. D. Bekti, R. N. Zulfahmi, M. K. Daul, W. J. Pradnyaana, And E. Sutanta, “Sistem Informasi Berbasis Website Untuk Pemetaan Wilayah Berdasarkan Clustering Kerentanan Kriminalitas,†Jurnal Informatika Teknologi Dan Sains (Jinteks), Vol. 6, No. 3, Pp. 620–626, 2024.
J. Li Et Al., “Feature Selection: A Data Perspective,†Acm Computing Surveys (Csur), Vol. 50, No. 6, Pp. 1–45, 2017.
B. Venkatesh And J. Anuradha, “A Review Of Feature Selection And Its Methods,†Cybernetics And Information Technologies, Vol. 19, No. 1, Pp. 3–26, 2019.
F. Juliawati, R. Buaton, And R. Saragih, “Pengelompokan Data Mining Penerimaan Bantuan Pangan Non Tunai (Bpnt) Menggunakan Metode Clustering (Studi Kasus: Kantor Desa Payabakung Hamparan Perak),†Explorer (Hayward), Vol. 3, No. 2, Pp. 69–76, 2023.
S. S. Helma, M. Mustakim, E. Normala, And Others, “Analisis Cluster Menggunakan Algoritma K-Means Pada Data Fasilitas Pelayanan Kesehatan Kota Pekanbaru,†In Seminar Nasional Teknologi Informasi Komunikasi Dan Industri, Pp. 131–137.
J. Li Et Al., “Feature Selection: A Data Perspective,†Acm Computing Surveys (Csur), Vol. 50, No. 6, Pp. 1–45, 2017.
A. Ahmad And L. Dey, “A Feature Selection Technique For Classificatory Analysis,†Pattern Recognit Lett, Vol. 26, No. 1, Pp. 43–56, 2005.
B. Venkatesh And J. Anuradha, “A Review Of Feature Selection And Its Methods,†Cybernetics And Information Technologies, Vol. 19, No. 1, Pp. 3–26, 2019.
A. M. Siregar, “Pengelompokan Bidang Laju Pertumbuhan Ekonomi Indonesia Menggunakan Algoritma K-Means,†Jurnal Accounting Information System (Aims), Vol. 2, No. 2, Pp. 140–151, 2019.
F. A. I. S. Aji, S. Achmadi, And F. X. Ariwibisono, “Penerapan Metode Clustering Pada Analisis Realisasi Pendapatan Asli Daerah Dengan Algoritma K-Means,†Jati (Jurnal Mahasiswa Teknik Informatika), Vol. 5, No. 2, Pp. 443–451, 2021.
B. Ruhiman, A. Ramdan, And C. Juliane, “Algorithm K-Means Clustering Algorithm To Classify The Level Of Legal Information Service Objectives In West Java Province: K-Means Clustering Algorithm To Classify The Level Of Legal Information Service Objectives In West Java Province,†Jurnal Komputer Terapan, Vol. 8, No. 1, Pp. 178–185, 2022.
T. Jelita, R. Buaton, And M. Simanjuntak, “Pengelompokan Bidang Usaha Terhadap Bantuan Produktif Usaha Mikro (Bpum) Berdasarkan Wilayah Deli Serdang Menggunakan Metode Clustering K-Means (Studi Kasus: Dinas Koperasi Dan Umkm Kabupaten Deli Serdang),†Explorer (Hayward), Vol. 3, No. 2, Pp. 50–57, 2023.
H. E. Fischer, W. J. Boone, And K. Neumann, “Quantitative Research Designs And Approaches,†In Handbook Of Research On Science Education, Routledge, 2023, Pp. 28–59.
L. Bode Et Al., “Study Designs For Quantitative Social Science Research Using Social Media,†2020.
L. J. Duckett, “Quantitative Research Excellence: Study Design And Reliable And Valid Measurement Of Variables,†Journal Of Human Lactation, Vol. 37, No. 3, Pp. 456–463, 2021.
J. Bloomfield And M. J. Fisher, “Quantitative Research Design,†Journal Of The Australasian Rehabilitation Nurses Association, Vol. 22, No. 2, Pp. 27–30, 2019.
P. D. Morrell And J. B. Carroll, “Quantitative Study Designs,†In Conducting Educational Research, Brill, 2010, Pp. 175–186.
N. L. Anggreini And Others, “Teknik Clustering Dengan Algoritma K-Medoids Untuk Menangani Strategi Promosi Di Politeknik Tedc Bandung,†Jurnal Teknologi Informasi Dan Pendidikan, Vol. 12, No. 2, Pp. 1–7, 2019.
B. S. Shedthi, S. Shetty, And M. Siddappa, “Implementation And Comparison Of K-Means And Fuzzy C-Means Algorithms For Agricultural Data,†In 2017 International Conference On Inventive Communication And Computational Technologies (Icicct), 2017, Pp. 105–108.
D. Deng, “Dbscan Clustering Algorithm Based On Density,†In 2020 7th International Forum On Electrical Engineering And Automation (Ifeea), 2020, Pp. 949–953.
A. Latifi-Pakdehi And N. Daneshpour, “Dbhc: A Dbscan-Based Hierarchical Clustering Algorithm,†Data Knowl Eng, Vol. 135, P. 101922, 2021.
R. D. Bekti, R. N. Zulfahmi, M. K. Daul, W. J. Pradnyaana, And E. Sutanta, “Sistem Informasi Berbasis Website Untuk Pemetaan Wilayah Berdasarkan Clustering Kerentanan Kriminalitas,†Jurnal Informatika Teknologi Dan Sains (Jinteks), Vol. 6, No. 3, Pp. 620–626, 2024.
T.-H. Huang, M. L. Huang, And K. Zhang, “An Interactive Scatter Plot Metrics Visualization For Decision Trend Analysis,†In 2012 11th International Conference On Machine Learning And Applications, 2012, Pp. 258–264.
R. Ratra And P. Gulia, “Experimental Evaluation Of Open Source Data Mining Tools (Weka And Orange),†International Journal Of Engineering Trends And Technology, Vol. 68, No. 8, Pp. 30–35, 2020.
Z. R. Mohi, “Orange Data Mining As A Tool To Compare Classification Algorithms,†Dijlah Journal Of Sciences And Engineering, Vol. 3, No. 3, Pp. 13–23, 2020.
F. Juliawati, R. Buaton, And R. Saragih, “Pengelompokan Data Mining Penerimaan Bantuan Pangan Non Tunai (Bpnt) Menggunakan Metode Clustering (Studi Kasus: Kantor Desa Payabakung Hamparan Perak),†Explorer (Hayward), Vol. 3, No. 2, Pp. 69–76, 2023.
E. Mardiani Et Al., “Membandingkan Algoritma Data Mining Dengan Tools Orange Untuk Social Economy,†Digital Transformation Technology, Vol. 3, No. 2, Pp. 686–693, 2023.
M. Heydarian, T. E. Doyle, And R. Samavi, “Mlcm: Multi-Label Confusion Matrix,†Ieee Access, Vol. 10, Pp. 19083–19095, 2022.
D. Krstinić, M. Braović, L. Šerić, And D. Božić-Štulić, “Multi-Label Classifier Performance Evaluation with Confusion Matrix,†Computer Science & Information Technology, Vol. 1, Pp. 1–14, 2020.
J. Liang, “Confusion Matrix: Machine Learning,†Pogil Activity Clearinghouse, Vol. 3, No. 4, 2022.
K. Zhou and S. Yang, “Effect Of Cluster Size Distribution On Clustering: A Comparative Study Of K-Means And Fuzzy C-Means Clustering,†Pattern Analysis And Applications, Vol. 23, No. 1, Pp. 455–466, 2020.
Downloads
Published
Issue
Section
License
- This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
-
Author(s)' Warranties
The author warrants that the article is original, written by stated author(s), has not been published before, contains no unlawful statements, does not infringe the rights of others, is subject to copyright that is vested exclusively in the author and free of any third party rights, and that any necessary written permissions to quote from other sources have been obtained by the author(s).
- Information
- Notice about change in the copyright policy of the journal 'Jurnal Sistem Informasi (JSiI)' : "From Vol 1, onwards the copyright of the article published in the journal 'Jurnal Sistem Informasi' will be retained by the author"