tugas lagi tugas lagi....
yah memang nasibnya kuliah di ITT. lepas dari mulut harimau, kena mulut buaya... lepas dari tugas AI, lanjut ke tugas IR....
memang bener pepatah "badai pasti berlalu"... tapi ditambah "dan tsunami menghadangmu"
oke kali ini kita bahas tugas kali ini... tentang konsep dari search engine...
langkah2 dari search engine adalah sebagai berikut:
1. tokenizer: memecah dokumen2 yang ditemukan ke dalam bentuk term-term
2. Stoplist/word removal: menghilangkan kata2 yang dianggap umum sekali
3. Steming: pengambilan kata dasar atau pengambilan sinonimnya
4. Indexing: menghitung weighting terhadap term
5. pencarian: mencari dokumen yang telah disimpan berdasarkan query yang diinputkan
indexing yang akan dipakai di tugas ini adalah term weight menggunakan tf idf. apa itu tf? apa itu idf?
tf adalah term frequency, yaitu frekuensi term tersebut dalam tiap2 dokumen dibagi jumlah term dalam dokumen tersebut. jadi ukuran tf dalam tiap-tiap dokumen bisa berbeda2...
sedangkan df adalah document frequency, yaitu jumlah dokumen yang memiliki term tersebut. jadi nilai df pada term selalu sama
sedangkan idf adalah inverted document frequency, cara menghitungnya dengan total dokumen dibagi dengan df kemudian di-log-kan.... sehingga nilai df pada term juga selalu sama
langsung saja kita buat tugasnya:
1. Siapkan database. dari penjelasan diatas, didapatkan tabel sebagai berikut
a. tabel_dokumen(id_dok, dokumen, panjang)
b. tabel_term(id_term, term, frek, df, idf)
c. tabel_tf(id_dok, id_term, frek, tf)
2. untuk tokenizernya, digunakan Regular Expression untuk memisahkan term-term tersebut. pola regular expression yang saya gunakan kali ini adalah:
3. proses stoplist dan stemming tidak dimassukkan.... *sulit :P
4. dari term2 yang telah didapat, hitung indexingnya sesuai dengan cara penghitungan di atas... dan selanjutnya dimasukkan ke dalam tabel yang sesuai.
*membuat kaya gini aja susah... apalagi search engine yg bener ya?
ya sudah lah... untuk pencarian lanjut ke part 2... :p
Selengkapnya...
yah memang nasibnya kuliah di ITT. lepas dari mulut harimau, kena mulut buaya... lepas dari tugas AI, lanjut ke tugas IR....
memang bener pepatah "badai pasti berlalu"... tapi ditambah "dan tsunami menghadangmu"
oke kali ini kita bahas tugas kali ini... tentang konsep dari search engine...
langkah2 dari search engine adalah sebagai berikut:
1. tokenizer: memecah dokumen2 yang ditemukan ke dalam bentuk term-term
2. Stoplist/word removal: menghilangkan kata2 yang dianggap umum sekali
3. Steming: pengambilan kata dasar atau pengambilan sinonimnya
4. Indexing: menghitung weighting terhadap term
5. pencarian: mencari dokumen yang telah disimpan berdasarkan query yang diinputkan
indexing yang akan dipakai di tugas ini adalah term weight menggunakan tf idf. apa itu tf? apa itu idf?
tf adalah term frequency, yaitu frekuensi term tersebut dalam tiap2 dokumen dibagi jumlah term dalam dokumen tersebut. jadi ukuran tf dalam tiap-tiap dokumen bisa berbeda2...
sedangkan df adalah document frequency, yaitu jumlah dokumen yang memiliki term tersebut. jadi nilai df pada term selalu sama
sedangkan idf adalah inverted document frequency, cara menghitungnya dengan total dokumen dibagi dengan df kemudian di-log-kan.... sehingga nilai df pada term juga selalu sama
langsung saja kita buat tugasnya:
1. Siapkan database. dari penjelasan diatas, didapatkan tabel sebagai berikut
a. tabel_dokumen(id_dok, dokumen, panjang)
b. tabel_term(id_term, term, frek, df, idf)
c. tabel_tf(id_dok, id_term, frek, tf)
2. untuk tokenizernya, digunakan Regular Expression untuk memisahkan term-term tersebut. pola regular expression yang saya gunakan kali ini adalah:
[a-z0-9]+contoh term yang diterima: mencoba, negara 5trilyun, coba2. tanda baca tidak saya ikut sertakan disini.
3. proses stoplist dan stemming tidak dimassukkan.... *sulit :P
4. dari term2 yang telah didapat, hitung indexingnya sesuai dengan cara penghitungan di atas... dan selanjutnya dimasukkan ke dalam tabel yang sesuai.
*membuat kaya gini aja susah... apalagi search engine yg bener ya?
ya sudah lah... untuk pencarian lanjut ke part 2... :p











