Model klasik dalam Information Retrieval

Model Boolean adalah model pertama dari pencarian informasi dan mungkin juga yang paling kritis. model Model ini dapat dijelaskan dengan memikirkan query Istilah sebagai definisi yang jelas dari serangkaian dokumen. Misalnya, pertanyaan ekonomi jangka panjang hanya mendefinisikan himpunan semua dokumen yang diindeks dengan ekonomi jangka panjang.

Vector Space model atau model vektor istilah model aljabar untuk yang mewakili dokumen teks(dan setiap objek, secara umum) sebagai vektor pengenal, seperti, misalnya, istilah indeks. Hal ini digunakan dalam penyaringan informasi, pencarian informasi, pengindeksan dan peringkat relevansi. Penggunaan pertama adalah dalam Sistem Information Retrieval SMART.

Probabilistic model didasarkan pada Prinsip Ranking Probabilitas, yang menyatakan bahwa sistem pencarian informasi yang seharusnya berdasarkan peringkat probabilitas dokumen mereka yang relevan dengan query, mengingat semua bukti yang tersedia [Belkin dan Croft 1992]. Prinsip memperhitungkan bahwa ada ketidakpastian dalam representasi dari kebutuhan informasi dan dokumen. Bisa ada berbagai sumber bukti yang digunakan oleh metode pengambilan probabilistik, dan yang paling umum adalah distribusi statistik dari istilah di kedua dokumen yang relevan dan non-relevan.

Perbedaan cara kerja Precision versus Recall

Precision dapat diartikan sebagai kepersisan atau kecocokan (antara permintaan informasi dengan jawaban terhadap permintaan itu). Jika seseorang mencari informasi di sebuah sistem, dan sistem menawarkan beberapa dokumen, maka kepersisan ini sebenarnya juga adalah relevansi. Artinya, seberapa persis atau cocok dokumen tersebut untuk keperluan pencari informasi, bergantung pada seberapa relevan dokumen tersebut bagi si pencari.

Recall adalah proporsi jumlah dokumen yang dapat ditemukan-kembali oleh sebuah proses pencarian di sistem IR. Rumusnya: Jumlah dokumen relevan yang ditemukan / Jumlah semua dokumen relevan di dalam koleksi. Lalu, precision adalah proporsi jumlah dokumen yang ditemukan dan dianggap relevan untuk kebutuhan si pencari informasi. Rumusnya: Jumlah dokumen relevan yang ditemukan / Jumlah semua dokumen yang ditemukan.


Algoritma Web-Crawler

Sebuah web-crawler adalah sebuah bot internet yang secara sistematis menelusuri World Wide Web, biasanya untuk tujuan pengindeksan Web.

Sebuah crawler Web juga dapat disebut web-spider, ant, pengindeks otomatis, [2] atau (dalam konteks software FOAF) suatu web-scutter.

Beberapa algoritma yang digunakan web-crawler :

  1. Breadth-First, adalah strategi sederhana untuk crawling. Breadth-First tidak menggunakan heuristik dalam menentukan URL untuk dikunjungi selanjutnya. Semua URL di tingkat ini akan dikunjungi dalam urutan mereka ditemukan sebelum URL di tingkat berikutnya yang dikunjungi. Meskipun pencarian Breadth-First tidak membedakan halaman Web dari kualitas yang berbeda atau topik yang berbeda, Breadth-First sangat cocok untuk membangun koleksi untuk mesin pencari umum. Namun, penelitian terbaru menunjukkan bahwa pencarian Breadth-First dapat juga digunakan untuk membangun koleksi domain-spesifik. Asumsi di sini adalah bahwa jika URL dimulai relevan dengan domain target, ada kemungkinan bahwa halaman di tingkat berikutnya juga relevan dengan domain target. Hasil dari penelitian sebelumnya telah menunjukkan bahwa crawler sederhana yang mengambil halaman dalam urutan Breadth-First bisa menghasilkan domain-spesifik koleksi dengan kualitas yang wajar.

  2. Best-First, saat ini Best-First merupakan algoritma pencarian yang paling populer digunakan dalam crawler terfokus. Dalam pencarian terbaik pertama, URL tidak hanya dikunjungi dalam urutan mereka ditemukan, melainkan beberapa heuristik (biasanya hasil dari algoritma analisis Web) yang digunakan untuk menentukan peringkat URL dalam antrian crawling dan orang-orang yang dianggap lebih menjanjikan untuk menunjuk ke halaman yang relevan yang dikunjungi pertama kali. URL tidak menjanjikan yang dimasukkan ke bagian belakang antrian di mana mereka jarang mendapatkan kesempatan untuk dikunjungi. Jelas, pencarian terbaik pertama memiliki keunggulan dibandingkan pencarian Breadth-First karena probe hanya pada arah mana halaman yang relevan mencari dan menghindari mengunjungi halaman yang tidak relevan. Namun, pencarian Breadth-First juga memiliki beberapa masalah. Menggunakan bestfirst pencarian crawler bisa melewatkan banyak halaman yang relevan dan mengakibatkan recall rendah dari koleksi akhir, karena pencarian best-first adalah Algoritma Pencarian Lokal, yaitu, pencarian best-first hanya dapat melintasi ruang pencarian dengan menelusuri tetangga dari node dikunjungi sebelumnya.

  3. PageRank, merupakan sebuah algoritma yang telah dipatenkan yang berfungsi menentukan situs web mana yang lebih penting/populer. Sebuah situs akan semakin populer jika semakin banyak situs lain yang meletakkan link yang mengarah ke situsnya, dengan asumsi isi/content situs tersebut lebih berguna dari isi/content situs lain. PageRank dihitung dengan skala 1-10.

  4. Shark-Search, adalah versi FishSearch dengan beberapa perbaikan. IShark-Searchtu menggunakan ukuran kesamaan seperti yang digunakan dalam naive best-first crawler untuk memperkirakan relevansi dari sebuah URL yang belum dikunjungi.

  5. InfoSpiders. adalah kelas algoritma multiagen adaptif untuk yang otonom, Web crawling topikal yang ditingkatkan.

References :

http://en.wikipedia.org/wiki/Web_crawler

http://combine.it.lth.se/CrawlSim/report/node7.html

Komentar