Text Preprocessing and Text Transformation

2.4.1 Pra-proses (Text Preprocessing ) Proses text mining dapat kita lihat pada gambar 2.2 berikut ; Gambar 2.2 Proses Text Mining (Sumber : Chyntia, 2015) Data yang diinput terlebih dahulu akan melewati tahapan preprocessing untuk dapat dimengerti oleh sistem pengolahan text mining dengan baik. Tujuan utama tahapan preprocessing adalah untuk mendapatkan bentuk data siap oleh untuk diproses oleh sistem dari data awal berupa data tekstual. Gambar 2.2 diatas merupakan tahapan-tahapan preprocessing. 1. Tokenizing Tokenizing adalah proses pemotongan string input berdasarkan kata yang menyusunnya. 2. Case Folding Proses penyeragaman bentuk huruf dengan mengubah semua huruf menjadi huruf kecil, dan juga menghilangkan tanda baca dan angka, dalam hal ini hanya menggunakan huruf antara a sampai z. 3. Spelling Normalization Merupakan perbaikan dan subtitusi kata-kata yang salah eja ataupun disingkat dengan bentuk tertentu. Subtitusi kata dilakukan untuk menghindari jumlah perhitungan dimensi kata yang melebar. Perhitungan dimensi kata akan melebar jika kata yang salah eja atau disingkat tidak diubah karena kata tersebut sebenarnya memiliki kontribusi dalam merepresentasikan dokumen tetapi akan dianggap sebagai entitas yang berbeda proses penyusunan matriks. 4. Filtering Filtering adalah tahap mengambil kata-kata penting dari hasil token. Biasanya tahap ini menggunakan algoritma stop-list (membuang kata-kata kurang penting) atau word-list (menyimpan kata penting). 5. Stemming Stemming adalah tahapan mencari kata root / kata dasar dari setiap kata hasil dari proses filtering. Karena data komentar yang akan diklasifikasi menggunakan bahasa indonesia maka algoritma stemming untuk berbahasa indonesia yang mempunyai tingkat keakuratan yang lebih baik dibanding algoritma lainnya adalah algoritma Nazief & Andriani (Agusta, 2009 yang dikutip oleh Rosdiansyah, 2014). Proses stemming menggunakan Algoritma Nazief dan Adriani dapat dilihat pada gambar 2.5 diatas. Proses Steaming pada teks bahasa indonesia lebih rumit karena terdapat variasi imbuhan yang harus dibuang untuk mendapat root word (kata dasar) dari sebuah kata. Algoritma ini mengacu pada aturan KBBI (Kamus besar bahasa Indonesia) yang mengelompokan imbuhan yang diperbolehkan atau imbuhan yang tidak diperbolehkan. Berikut merupakan langkah-langkah yang dilakukan oleh algoritma Nazief dan Adriani ( Agusta, 2009 yang dikutip oleh Rosdiansya 2014). 1. Kata yang belum di stemming dicari pada KBBI. Apabila kata langsung ditemukan, berarti kata tersebut adalah kata dasar, kata dikembalikan dan algoritma dihentikan. 2. Hilangkan inflectional suffixes terlebih dahulu, jika ini berhasil dan suffix adalah pertikel (“lah” atau “kah”), langkah ini dilakukan lagi untuk menghilangkan inflectional possesive pronoun suffixes (“ku”, “mu” atau “nya”). 3. Partikel Derivational suffix (“i”,”-an”,”-kan”) kemudian dihilangkan, langkah dilanjutkan lagi untuk mengecek apakah masih ada derivational suffix yang tersisa, jika ada maka akan dihilangkan. Apabila tidak ada lagi maka lakuan langkah selanjutnya. 4. Derivational prefix (“di-”, “ke-”, “se-”, “te-”, “me-”, “be-”, “pe-”) dihilangkan, kemudian langkah dilanjutkan lagi untuk mengecek apakah masih ada derivational prefix yang tersisa, jika ada maka akan dihilangkan. Apabila tidak ada lagi maka lakukan langkah selanjutnya. 5. Setelah tidak ada lagi imbuhan yang tersisa, maka algoritma ini dihentikan kemudian kata dasar tersebut di cari pada KBBI, jika kata ditemukan berarti algoritma ini berhasil tapi jika kata dasar tidak ditemukan maka dilakukan recoding. 6. Jika semua langkah telah dilakukan tetapi kata dasar tidak ditemukan pada kamus, maka algoritma ini mengembalikan kata yang asli sebelum dilakukan stemming. 6. Tagging Tagging adalah tahap mencari bentuk awal/ root dari kata lampau atau kata hasil stemming. Untuk dokumen berbahasa Indonesia proses tagging tidak diterapkan, karena Bahasa Indonesia tidak memiliki bentuk lampau. 2.4.2

(Transformasi teks) Pada tahapan ini pemprosesan teks dilanjukan dengan proses transformasi teks menjadi data numerik sebagai reprentasi dari setiap dokumen. Pada text transformation ini kita hanya menentukan (TF) saja, yaitu jumlah frekuensi kemunculan kata dalam dokumen tersebut.

Asslamu`alaikum wr.wb

Text Preprocessing and Text Transformation

Written By Unknown on Minggu, 22 Mei 2016 | 21.34

+ komentar + 1 komentar

Posting Komentar

Subscribe me

Blogger templates

Popular post