TOPIC MODELLING SKRIPSI MENGGUNAKAN METODE LATENT DIRICLHET ALLOCATION
DOI:
https://doi.org/10.30656/jsii.v7i1.2036Abstract
Abstrak - Program Studi Sastra Inggris di Universitas Islam Negeri Sunan Ampel Surabaya (UINSA) telah ditemukan permasalahan bahwa belum ada yang melakukan clustering pada topik skripsi mahasiswa. Clustering tersebut digunakan dalam topic modelling untuk melihat tren dan kesuaian minat pada Program Studi Sastra Inggris UINSA. Metode Latent Dirichlet Allocation (LDA) merupakan salah satu metode topic modelling yang paling populer saat ini. Dalam penelitian ini mengambil sejumlah 584 abstact skirpsi dalam bahasa inggris sebagai dataset. Penggunaan dataset berbahasa inggris dikarenakan pada pre-processing data yang tersedia standartnya baru untuk bahasa inggris. Setelah melewati proses tersebut, setiap kata yang muncul akan dihitung menggunakan metode Bag of Word. Metode LDA mengklusterkan dengan menglihat jumlah kemunculan kata pada Bag of Word, kemudian menentukan jumlah cluster atau jumlah topik dan menentukan jumlah iterasi. LDA menandai setiap kata pada topik secara semi random distribution kemudian menghitung probabilitas topik pada dokumen dan menghitung probabilitas kata pada topik setiap iterasinya. Penelitian ini melakukan percobaan pemodelan topik sebanyak 5 kali uji iterasi dan jumlah topik yang berbeda. Berdasarkan percobaan tersebut telah didapatkan hasil kemudian dianalisis bahwa 3 adalah jumlah topik yang paling fit. Hasil tersebut diujikan secara kualitatif kepada pihak stakeholder Program Studi Sastra Inggris UINSA, dan dinyatakan sesuai dengan tren serta minat pada Program Studi Sastra Inggris UINSA.
Â
Kata kunci : Â Clustering, Iterasi, LDA, Probabilitas, Topic Modelling.
References
Referensi
[1] Albert Verasius Dian Sano, (2019). “Cara Kerja Data Mining – Seri Data Mining For BusinesS Intelligence (3),†Binus University, 2019. [Online]. Available: https://binus.ac.id/malang/2019/01/cara-kerja-data-mining-seri-data-mining-for-business-intelligence-3/. [Accessed: 18-Jan-2020].
[2] E. Turban, J. E. Aronson, and T.-P. Liang, (2004). Decision Support Systems and Intelligent Systems (7th Edition).
[3] R. Diaz, “Pengertian Data Mining,Teks Mining,dan Web Mining.,†(2013). [Online]. Available: http://yosephoriolryandiaz.blogspot.com/2013/03/pengertian-data-miningteks-miningdan.html. [Accessed: 18-Jan-2020].
[4] F. Ronen and J. Sanger, (2007). The Text Mining Handbook: Advance Approaches in Analyzing Unstructured Data. United States of America: Cambridge University Press.
[5] M. I. J. David M. Blei, Andrew Y. Ng, (2003). “Machine Learning Research 3,†Latent Dirichlet Alloc., pp. 993–1022.
[6] A. T. Jaka, (2015). “Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti dalam Proses Text Mining,†J. Inform. UPGRIS.
[7] D. S, P. Raj, and S.Rajaraajeswari, (2016). “A Framework for Text Analytics using the Bag of Words (BoW) Model for Prediction,†Int. J. Adv. Netw. Appl., pp. 320–323.
[8] K. P. Utami, (2017). “Analisis topik data media sosial twitter menggunakan model topik latent dirichlet allocation keke putri utami,†.
[9] J. Kaur and P. K. Buttar, (2018). “A Systematic Review on Stopword Removal Algorithms,†Int. J. Futur. Revolut. Comput. Sci. Commun. Eng., vol. 4, no. 4.
[10] A. K. Ingason, S. Helgadóttir, H. Loftsson, and E. Rögnvaldsson, (2018). “A Mixed Method Lemmatization Algorithm Using a Hierarchy of Linguistic Identities (HOLI),†Lect. Notes Artif. Intell., pp. 205–216.
Downloads
Published
Issue
Section
License
- This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
-
Author(s)' Warranties
The author warrants that the article is original, written by stated author(s), has not been published before, contains no unlawful statements, does not infringe the rights of others, is subject to copyright that is vested exclusively in the author and free of any third party rights, and that any necessary written permissions to quote from other sources have been obtained by the author(s).
- Information
- Notice about change in the copyright policy of the journal 'Jurnal Sistem Informasi (JSiI)' : "From Vol 1, onwards the copyright of the article published in the journal 'Jurnal Sistem Informasi' will be retained by the author"