Pemanfaatan Vector Space Model pada Penerapan Algoritma Nazief Adriani, KNN dan Fungsi Similarity Cosine untuk Pembobotan IDF dan WIDF pada Prototipe Sistem Klasifikasi Teks Bahasa Indonesia
Main Article Content
Abstract
Vector space model (VSM) adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Pada model ini, query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana n adalah jumlah dari seluruh term yang ada di dalam daftar. Teknologi informasi khususnya internet sangat mendukung terjadinya pertukaran informasi dengan sangat cepat. Kondisi tersebut memunculkan masalah untuk mengakses informasi yang diinginkan secara akurat dan cepat. Untuk mengatasi masalah tersebut, salah satu teknik yang dapat digunakan adalah dengan mengklasifikasikan teks dokumen tersebut sesuai dengan karakteristik, fitur, maupun kelasnya berdasarkan aturan baku bahasa yang akan diolah. Dalam penelitian ini Bahasa Indonesia adalah bahasa yang digunakan sebagai sumber acuan. Jenis penelitian ini termasuk kepada penelitian terapan (Applied Research). Objek dalam penelitian ini adalah dokumen Teks Berbahasa Indonesia. Tujuan dari penelitian ini menganalisis efektifitas model sistem klasifikasi / kategorisasi dokumen dalam penerapan vector space model berdasarkan pembobotan term dokumen dan query, juga menerapkan metode stemming Bahasa Indonesia dengan algoritma nazief adriani, menghasilkan nilai similarity dengan fungsi cosine yang berpengaruh pada pemeringkatan hasil kategorisasi dokumen yang relevan.
Downloads
Article Details
Agusta, L.2009. Perbandingan Algoritma Stemming Porter Dengan Algoritma Nazief dan Adriani Untuk Stemming Dokumen Teks Bahasa Indonesia. Universitas Kristen Satya Wacana.Bali.2009
Christopher, D. Manning, Prabhakar Raghavan, Hinrich Schütze. 2009]. An Introduction to Information Retrieval. Cambrigde: Cambridge UP.
Diah Pudi Langgeni, ZK.Abdurahman Baizal dan Yanuar Firdaus A.W. Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection. Institut Teknologi Telkom : Bandung.2010
Hamzah A., F.Soesianto, Adhi Susanto & Jazi Eko Istiyanto. Studi Kinerja Fungsi-fungsi Jarak dan Similaritas Dalam Clustering Dokumen Teks Berbahasa Indonesia. Seminar UPN Veteran. Yogyakarta.2008
Han, J., Kamber, M. 2006. Data Mining Concept and Tehniques. San Fransisco: Morgan Kauffman.
Henny Leidiyana. 2013. Penerapan Algoritma K-Nearest Neighbor Untuk Penentuan Resiko Kredit Kepemilikan Kendaraan Bermotor. STMIK Nusa Mandiri: Jakarta
Lasarus, P. Malese. 2015. Model Mesin Pencari Dokumen Bahasa Indonesia Studi Efektifitas pada Vektor Space Model Algoritma Stemming Poter Pembobotan Frekuensi Term Berbanding Frekuensi Term Dalam Pencarian dan Fungsi Kesamaan Cosine. Magister Komputer, Universitas Budi Luhur Jakarta
Marlinda, Linda dan Rianto, Harsih. Pembelajaran Bahasa Indonesia Berbasis Web Menggunakan Metode Maximum Marginal Relevance. Jurnal Seminar Nasional. AMIK Bina Sarana Informatika.Jakarta Pusat.2013
Salton, G., 1989, Automatic Text Processing: The Transformation, Analysis, And Retrieval Information by Computer, Massachusetts, Addison-Wesley.
Soesianto F., Adhi Susanto & Jazi Eko Istiyanto. Studi Kinerja Fungsi-fungsi Jarak dan Similaritas Dalam Clustering Dokumen Teks Berbahasa Indonesia. Seminar UPN Veteran. Yogyakarta.2008
Tala, F. Z. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Amsterdam: Universitet van Amsterdam.2003
Tokunaga, Takenobu & Iwayana, Makoto. Text Categorization Based On Weighted Inverse Document Frequency. Tokyo: Department Of Computer Science Tokyo Institute Of Technology.1994
Triawati, Candra. 2009. Metode Pembobotan Statistical Concept Based untuk Klastering dan Kategorisasi Dokumen Berbahasa Indonesia. IT TELKOM Bandung.
ProtekInfo : (Jurnal Pengembangan Riset dan Observasi Teknik Informatika) http://e-jurnal.lppmunsera.org/index.php/ProTekInfo is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.