Jika dulu seseorang yang mencari bahan untuk penelitian mendatangi perpustakaan dan membuka-buka katalog buku. Setelah menemukan katalog judul yang mengandung kata-kata tertentu (keyword), barulah ia berjalan menuju rak buku bersangkutan. Ketika buku yang dimaksud telah ditemukan, mulailah sang peneliti membuka satu persatu halaman, membaca, dan membuat catatan kecil tentang apa yang dibutuhkannya dalam buku tersebut.

Tanpa sedikitpun bermaksud meremehkan peran perpustakaan dan katalog bukunya, seorang peneliti kini dapat menemukan bahan-bahan yang ia butuhkan hanya dengan duduk di depan komputer yang terhubung dengan Internet. Membuka search engine, memasukkan kata kunci, menekan tombol search atau Enter, sesaat kemudian puluhan, ratusan, bahkan ribuan link menuju rak buku virtual terpampang di hadapannya.

Sambil mencari bahan-bahan yang dibutuhkannya, si peneliti dapat mendengarkan lagu-lagu MP3, berchatting ria, atau men-download film-film terbaru.

Artikel kali ini berusaha untuk memberikan sedikit gambaran bagaimana search engine bekerja. Search engine di Internet adalah website khusus yang dirancang untuk menemukan informasi yang disimpan pada website lain. Beragam search engine bekerja dengan cara yang berbeda, tetapi semuanya melakukan tiga tugas mendasar:

  • Melakukan pencarian di Internet, memilah kepingan-kepingan informasi, berdasarkan kata-kata penting.
  • Menyimpan indeks dari kata-kata yang ditemukan, dan lokasi penemuan.
  • Menyediakan fasilitas bagi pengguna untuk mencari kata-kata atau kombinasi kata yang ditemukan dalam indeks tersebut.

Search engine generasi awal menyimpan indeks yang menampung ratusan ribu halaman, serta melakukan satu atau dua ribu pencarian setiap hari. Saat ini, search engine mengindeks ratusan juta halaman dan merespons puluhan juta pencarian setiap hari.

Mengamati Web

Search engine Internet yang dimaksud oleh kebanyakan orang adalah search engine World Wide Web (WWW). Sebelum website berkembang pesat, search engine sudah tersedia untuk menemukan informasi di Internet. Program-program seperti “gopher” atau “Archie” menyimpan indeks arsip yang terekam pada server-server yang terhubung de ngan Internet. Pada akhir 1980-an, pengguna Internet pasti memanfaatkan gopher, Archie, Veronica, dan sebagainya.

Sebagian besar pengguna Internet saat ini membatasi pencarian mereka dalam website sehingga hanya menggunakan search engine yang berfokus pada isi halaman website.

Spider dan Web Crawling

Search engine harus menemukan terlebih dahulu file atau dokumen yang sedang dicari sebelum memberitahukan lokasinya. Search engine menjalankan robot software khusus yang disebut spider untuk memilah informasi dalam ratusan juta halaman website yang ada dan membuat daftar kata-kata yang ditemukan. Proses ini disebut web crawling.

Bagaimana spider mengawali perjalanannya dalam WWW? Titik awal yang biasa adalah daftar server yang banyak digunakan dan halaman-halaman yang populer. Spider akan mengawali dengan website yang populer, mengindeks kata-kata pada halaman-halamannya dan mengikuti setiap link yang ditemukan dalam website tersebut. Dengan cara seperti ini, sistem spidering akan mulai berjalan dengan cepat, menyebar ke bagian-bagian website yang paling luas digunakan.

Google berawal dari sebuah search engine akademik. Sergey Brin dan Lawrence Page memberikan contoh dalam makalah yang menjelaskan bagaimana sistem tersebut dibangun, mengenai seberapa cepat spider mereka dapat bekerja. Mereka membangun sistem awal untuk menggunakan beberapa spider, biasanya tiga pada saat yang bersamaan. Masing-masing spider dapat menyimpan kira-kira 300 link terbuka ke halaman website pada saat yang bersamaan. Sistem mereka dapat meng-crawl lebih dari 100 halaman perdetik pada kinerja puncak dengan empat spider, mengalirkan kira-kira 600 kilobyte data perdetik.

Sebuah sistem yang memasok informasi yang diperlukan spider harus dibangun untuk menjaga segala sesuatu berjalan dengan cepat. Google generasi awal memiliki server dedicated yang menyediakan URL untuk spider. Google memiliki DNS sendiri untuk meminimumkan delay.

Ketika spider Google membaca sebuah halaman HTML, ada dua hal yang dicatat:

  • Kata-kata dalam halaman tersebut
  • Lokasi kata-kata tersebut ditemukan

Kata-kata yang terbaca dalam title, subtitle, meta tags dan posisi lain yang relatif penting akan dicatat untuk pertimbangan khusus dalam pencarian selanjutnya. Spider Google dibangun untuk mengindeks setiap kata yang signifikan pada sebuah halaman, dengan pengecualian untuk artikel “a”, “an”, dan “the”. Spider-spider yang lain melakukan pendekatan yang berbeda.

Pendekatan yang berbeda ini biasanya bertujuan untuk mempercepat kerja spider agar pengguna dapat melakukan pencarian secara lebih efisien. Sebagai contoh, beberapa spider akan merekam kata-kata dalam title, sub-heading, dan link, bersama dengan 100 kata yang paling sering muncul pada halaman dan setiap kata dalam 20 baris pertama. Lycos menggunakan pendekatan ini untuk menjalankan spider pada Web. Search engine lain, seperti AltaVista, mengindeks setiap kata termasuk “a”, “an”, dan “the”.

sumber: Tabloid PCMild

Togap Tartius

Freelance web developer. Mantan guru komputer. Suka membaca dan berpikir. Hobi mengutak-atik komputer baik software maupun hardware.

More PostsWebsite

Follow Me:
TwitterFacebookLinkedInGoogle Plus