Skripsi
KERANGKA KERJA TOKENISASI BERDASARKAN STRUKTUR KALIMAT BAHASA INDONESIA
Penelitian ini bertujuan untuk membangun sebuah kerangka kerja tokenisasi berdasarkan struktur kalimat bahasa Indonesia. Tokenisasi akan menghasilkan token baik berupa kata tunggal maupun multi kata, yang berbeda dengan konsep tokenisasi umum yang hanya menghasilkan token kata tunggal saja. Untuk menghasilkan token seperti diatas, Penelitian Disertasi ini menggunakan metode ekstraksi struktur kalimat yang menghasilkan fungsi-fungsi kalimat sebagai sebuah token. Metode ini merupakan hal yang baru karena sejauh yang penulis ketahui proses ekspresi multi kata (multi word expression) menggunakan metode statistik, linguistik, kamus dan jaringan neural. Hasil ekstraksi struktur kalimat berupa unsur fungsi kalimat seperti Subjek, Predikat, Objek, Pelengkap dan Keterangan. Sebuah kalimat minimal terdiri dari Subjek dan Predikat. Masing-masing fungsi kalimat dapat berupa sebuah kata atau gabungan beberapa kata. Gabungan beberapa kata tersebut dapat menjadi token multi kata Penelitian ini menerapkan pembelajaran mesin untuk melakukan ekstraksi struktur kalimat, dengan terlebih dahulu membangun sebuah dataset struktur kalimat bahasa Indonesia. Ekstraksi struktur kalimat dalam penelitian ini hanya dilakukan terhadap kalimat tunggal dan berjenis kalimat aktif. Dalam percobaan mengekstrak struktur dari 100 kalimat dan membandingkan token yang diprediksi dengan token yang seharusnya, diperoleh nilai Precision sebesar 0,92 dan nilai Recall sebesar 0,86. Kata Kunci : Kerangka Kerja, Multi Kata, Segmentasi Kalimat, Struktur Kalimat, Token.
Inventory Code | Barcode | Call Number | Location | Status |
---|---|---|---|---|
2307005254 | T126809 | T1268092023 | Central Library (Referens) | Available but not for loan - Not for Loan |
No other version available