IMPLEMENTASI JACCARD INDEX DAN N-GRAM PADA REKAYASA APLIKASI KOREKSI KATA BERBAHASA INDONESIA

Authors

  • Aida Indriani Teknik Informatika, STMIK PPKIA Tarakanita Rahmawati
  • Muhammad Muhammad Sistem Informasi, STMIK PPKIA Tarakanita Rahmawati
  • Suprianto Suprianto Magister Teknik Informatika, Universitas Ahmad Dahlan
  • Hadriansa Hadriansa Teknik Informatika, STMIK PPKIA Tarakanita Rahmawati

DOI:

https://doi.org/10.46984/sebatik.v22i2.314

Keywords:

Koreksi kata, Text mining, Jaccard index, Fitur N-gram

Abstract

Banyaknya informasi diberbagai media, membuat pengguna harus jeli dalam mencari informasi yang benar. Informasi yang dikatakan benar bukan hanya dilihat dari sumber terpercaya, tetapi dalam penulisan tidak boleh terjadi kesalahan ejaan kata (typo) yang dapat mengakibatkan kesalahpahaman makna informasi yang dibaca. Untuk meminimalkan kesalahan ejaan kata dibutuhkan peran editor dengan melakukan koreksi kata secara satu per satu. Tujuan dari penelitian ini adalah untuk membuat aplikasi koreksi kata secara otomatis, dengan memanfaatkan teknik text mining yaitu set based similarity measure. Teknik yang digunakan yaitu jaccard index dan menggunakan bantuan fitur N-gram sebanyak 3 yaitu Bi-gram, Tri-gram dan Quad-gram. Selain itu, penelitian ini bertujuan untuk menentukan fitur N-gram yang tepat dalam melakukan koreksi kata. Dengan adanya aplikasi koreksi kata ini diharapkan dapat membantu tim editor dalam melakukan pengecekan kata sebelum dipubikasikan ke umum. Untuk analisa fitur N-gram yang tepat untuk melakukan koreksi kata adalah fitur Bi-gram.

References

Fahma, A.I., Cholissodin, M., & Perdana, R.S., 2018, Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia menggunakan Metode N-gram dan Levensthein Distance. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, Vol. 2 No. 1, e-ISSN: 2548-964X, 53-62.
Indriani, Aida, 2014, Maximum Marginel Relevance untuk Peringkasan Teks Otomatis Sinopsis Buku Berbahasa Indonesia. Seminar Nasional Teknologi Informasi dan Multimedia, ISSN: 2302-3805, 28-34, Yogyakarta.
Kurniawan, B., Effendi, S., & Sitompul, O.S., 2012, Klasifikasi Konten Berita dengan Metode Text Mining. Jurnal Dunia Teknologi Informasi, Vol. 1 No. 1, 14-19.
Lisangan, E.A., 2015, Implementasi n-Gram Technique dalam Deteksi Plagiarisme pada Tugas Mahasiswa. Jurnal Tematika, Vol. 1 No. 2, ISSN: 2303-387824-30.
Mumu, J., & Tanujaya, B., 2018, Desain Pembelajaran Materi Operasi pada Himpunan menggunakan Permainan “Lemon Nipis”. Journal of Honai Math, Vol. 1 No. 1, p-ISSN: 2615-2185 e-ISSN: 2615-2193, 14-23.
Nugraheny, D., 2015, Metode Nilai Jarak guna Kesamaan atau Kemiripan Ciri suatu Citra (kasus deteksi awan cumulonimbus menggunakan principal component analysis). Jurnal Angkasa, Vol. VII,21-30.
Prakasa, S.A., 2016, Text Mining. Sekolah Tinggi Teknologi Telematika Telkom Purwokerto.
Praseptian, M.D., & Indriani, A., 2014, Implementasi Text Mining dalam Klasifikasi Buku dengan Metode Naïve Bayes Classifier Studi Kasus pada Perpustakaan STMIK PPKIA Tarakanita Rahmawati. Seminar Nasional Inovasi dan Tren, 243-247.
Pusat Bahasa Departemen Pendidikan Nasional, 2008, Kamus Bahasa Indonesia. ISBN: 978-979-689-779-1.
Rinartha, K., 2017, Simple Query Suggestion untuk Pencarian Artikel menggunakan Jaccard Similarity. Jurnal Ilmiah Rekayasa dan Manajemen Sistem Informasi, Vol. 3 No. 1, e-ISSN: 2502-8995 p-ISSN: 2460-8181, 30-34.
Setiawati, S., 2016, Penggunaan Kamus Besar Bahasa Indonesia (KBBI) dalam Pembelajaran Kosakata Baku dan Tidak Baku pada Siswa Kelas IV SD. Jurnal Gramatika, Vol. 2 No.1, ISSN: 2442-8485 e-ISSN: 2460-6319, 44-48.
Yusnita, A., & Yunita, 2018, Penelusuran Katalog Perpustakaan pada SMA IT Yabis Bontang dengan Algoritma Boyer-Moore. Sebatik STMIK WICIDA, ISSN: 1410-3737 e-ISSN: 2621-069X, 15-21, Samarinda.

Downloads

Published

2018-12-04

How to Cite

Indriani, A., Muhammad, M., Suprianto, S. and Hadriansa, H. (2018) “IMPLEMENTASI JACCARD INDEX DAN N-GRAM PADA REKAYASA APLIKASI KOREKSI KATA BERBAHASA INDONESIA”, Sebatik, 22(2), pp. 95–101. doi: 10.46984/sebatik.v22i2.314.