TOPIC MODELLING SKRIPSI MENGGUNAKAN METODE LATENT DIRICLHET ALLOCATION

Authors

  • Alif Iffan Alfanzar Universitas Islam Negeri Sunan Ampel Surabaya
  • Khalid Khalid
  • Indri Sudanawati Rozas

DOI:

https://doi.org/10.30656/jsii.v7i1.2036

Abstract

Abstrak - Program Studi Sastra Inggris di Universitas Islam Negeri Sunan Ampel Surabaya (UINSA) telah ditemukan permasalahan bahwa belum ada yang melakukan clustering pada topik skripsi mahasiswa. Clustering tersebut digunakan dalam topic modelling untuk melihat tren dan kesuaian minat pada Program Studi Sastra Inggris UINSA. Metode Latent Dirichlet Allocation (LDA) merupakan salah satu metode topic modelling yang paling populer saat ini. Dalam penelitian ini mengambil sejumlah 584 abstact skirpsi dalam bahasa inggris sebagai dataset. Penggunaan dataset berbahasa inggris dikarenakan pada pre-processing data yang tersedia standartnya baru untuk bahasa inggris. Setelah melewati proses tersebut, setiap kata yang muncul akan dihitung menggunakan metode Bag of Word. Metode LDA mengklusterkan dengan menglihat jumlah kemunculan kata pada Bag of Word, kemudian menentukan jumlah cluster atau jumlah topik dan menentukan jumlah iterasi. LDA menandai setiap kata pada topik secara semi random distribution kemudian menghitung probabilitas topik pada dokumen dan menghitung probabilitas kata pada topik setiap iterasinya. Penelitian ini melakukan percobaan pemodelan topik sebanyak 5 kali uji iterasi dan jumlah topik yang berbeda. Berdasarkan percobaan tersebut telah didapatkan hasil kemudian dianalisis bahwa 3 adalah jumlah topik yang paling fit. Hasil tersebut diujikan secara kualitatif kepada pihak stakeholder Program Studi Sastra Inggris UINSA, dan dinyatakan sesuai dengan tren serta minat pada Program Studi Sastra Inggris UINSA.

 

Kata kunci :  Clustering, Iterasi, LDA, Probabilitas, Topic Modelling.

References

Referensi

[1] Albert Verasius Dian Sano, (2019). “Cara Kerja Data Mining – Seri Data Mining For BusinesS Intelligence (3),†Binus University, 2019. [Online]. Available: https://binus.ac.id/malang/2019/01/cara-kerja-data-mining-seri-data-mining-for-business-intelligence-3/. [Accessed: 18-Jan-2020].

[2] E. Turban, J. E. Aronson, and T.-P. Liang, (2004). Decision Support Systems and Intelligent Systems (7th Edition).

[3] R. Diaz, “Pengertian Data Mining,Teks Mining,dan Web Mining.,†(2013). [Online]. Available: http://yosephoriolryandiaz.blogspot.com/2013/03/pengertian-data-miningteks-miningdan.html. [Accessed: 18-Jan-2020].

[4] F. Ronen and J. Sanger, (2007). The Text Mining Handbook: Advance Approaches in Analyzing Unstructured Data. United States of America: Cambridge University Press.

[5] M. I. J. David M. Blei, Andrew Y. Ng, (2003). “Machine Learning Research 3,†Latent Dirichlet Alloc., pp. 993–1022.

[6] A. T. Jaka, (2015). “Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti dalam Proses Text Mining,†J. Inform. UPGRIS.

[7] D. S, P. Raj, and S.Rajaraajeswari, (2016). “A Framework for Text Analytics using the Bag of Words (BoW) Model for Prediction,†Int. J. Adv. Netw. Appl., pp. 320–323.

[8] K. P. Utami, (2017). “Analisis topik data media sosial twitter menggunakan model topik latent dirichlet allocation keke putri utami,†.

[9] J. Kaur and P. K. Buttar, (2018). “A Systematic Review on Stopword Removal Algorithms,†Int. J. Futur. Revolut. Comput. Sci. Commun. Eng., vol. 4, no. 4.

[10] A. K. Ingason, S. Helgadóttir, H. Loftsson, and E. Rögnvaldsson, (2018). “A Mixed Method Lemmatization Algorithm Using a Hierarchy of Linguistic Identities (HOLI),†Lect. Notes Artif. Intell., pp. 205–216.

Downloads

Published

2020-03-06

Issue

Section

Articles