Text
Pengukuran tingkat Kemiripan dokumen Bahasa Indonesia menggunakan algoritmamin-Hash dan Synonymrecognition
Pendeteksian plagiat menjadi sangat penting karena dapat digunakan untuk menghindari prilaku plagiat. Pendeteksian plagiat dapat dilakukan secara otomatis menggunakan algoritma min-hash. Pra-pengolahan dilakukan pengolahan dokumen bahasa Indonesia yaitu, tokenizing, stopword removal, stemming dan synonym recognition (SYR). Algoritma min-hashmelakukan pencocokan string dan menghitung kesamaan pada fingerprint dokumen . Uji coba perangkat lunak dilakukan dengan membandingkan dokumen yang diduga plagiat dan dokumen asli. Pengujian dilakukan dengan membandingkan akurasi dari nilai kemiripan kedua dokumen dan lama prosesyang dilakukanmenggunakan algoritma min-hash digabungkan dengan pra-pengolahan SYR dan tanpa menggabungkan pra-pengolahan SYR. Dari hasil pengujian, hasil akurasi yang diperoleh dari algoritma min-hash digabungkan dengan SYR berbanding lurus dengan jumlah token pada dokumen. Semakin besar token dokumen maka semakin baik hasil akurasi dalam mengukur kemiripan dokumen denganselisih waktu yang konstan.
No copy data
No other version available