Kamis, 15 November 2007

Membuat Search Engine dengan ht://Dig bagian 1

Membuat Search Engine dengan ht://Dig

Hendro Wicaksono hwicaksono@telkom.net

Salah satu kriteria desain suatu situs web dianggap baik adalah bila pemakai situs tersebut mudah dalam mencari informasi. Artinya, tersedia navigasi dan alat bantu mencari informasi yang baik. Salah satu alat bantu mencari informasi yang sering digunakan adalah fasilitas penelusuran dengan kata kunci (keyword) baik melalui database atau free-text. Dalam tulisan ini, penulis mencoba memaparkan bagaimana cara membuat fasilitas penelusuran free-text menggunakan program ht://Dig (http://www.htdig.org) yang dibuat untuk sistem operasi Unix dan variannya (Linux, FreeBSD). Dengan lisensi GPL (General Public License), anda bisa mendapatkan source code program, dan memodifikasinya sesuai dengan kebutuhan anda. Anda juga bisa mendapatkan format source lain (RPM) atau binary yang sudah di-port untuk OS tertentu (untuk HP-UX, RPM RedHat Linux, dan Windows NT).

Apa itu ht://Dig
Kalau anda tahu prinsip cara kerja search engine (seperti altavista), maka anda tidak akan kesulitan dalam memahami cara kerja ht://Dig. ht://Dig adalah suatu sistem pengindeksan dan penelusuran WWW. ht://Dig tidak didesain untuk "bersaing" dengan powerful search engine seperti Lycos, Infoseek, Google dan Altavista, tetapi untuk lingkup yang lebih kecil seperti, intranet atau jaringan kampus). Beberapa fitur ht://Dig :
1. Penelusuran Intranet. ht://Dig mempunyai kemampuan untuk mengindeks dan menelusur ke beberapa server sekaligus pada sebuah jaringan dengan "berakting" sebagai browser web.
2. Gratis. ht://Dig dirilis dengan lisensi GNU General Public License.
3. Mendukung Robot Exclusion. Robot Exclusion adalah suatu standar yang digunakan agar bagian-bagian tertentu dari suatu situs web tidak diindeks dan ditelusur oleh Search Engine Robot.
4. Penelusuran Ekspresi Boolean. Mendukung penelusuran kompleks menggunakan logika Boole.
5. Hasil penelusuran yang bisa dikustom. Output penelusuran bisa dibuat sesuai dengan kebutuhan dengan menyediakan template HTML.
6. Fuzzy Searching. Penelusuran bisa dilakukan menggunakan berbagai algoritma yang bisa dikustom, seperti: exact, soundex, metaphone, common word endings, sinonim.
7. Menelusur file HTML dan teks. Bisa menelusur dokumen HTML dan file teks.
8. Penambahan kata kunci (keyword) ke dokumen HTML. Kata kunci bisa ditambahkan ke dokumen HTML dan tidak akan terlihat sewaktu dokumen dibuka.
9. Peringatan lewat e-mail untuk dokumen yang sudah expired.
10. Bisa mengindeks server yang diproteksi dengan username dan password.
11. Dengan menggunakan external parser, ht://Dig juga mampu mengindeks file PDF (Portable Document Format) dan Microsoft Word.

Instalasi Apache Web Server dan ht://Dig
Penulis menggunakan OS FreeBSD 3.3. Tetapi cara yang penulis sebutkan disini tidaklah untuk FreeBSD saja. Penulis juga juga sudah melakukan ujicoba pada Linux RedHat dan berhasil dengan baik. Web server yang digunakan adalah Apache.
Sekarang pertama kali, download file source Apache Web Server dari www.apache.org. Misalnya apache_x.x.x.tar.gz. Simpan di direktori /temp. (Anda harus login sebagai "root" untuk melakukan ini semua).
Kemudian buat direktori /usr/local/apache:

# mkdir /usr/local/apache

Masuk ke direktori /temp:

# cd /temp

Ekstrak file yang sudah di download:

# gunzip -d -c apache_x.x.x.tar.gz | xvf -

Masuk ke direktori apache_x.x.x:

# cd apache_x.x.x

Lakukan langkah-langkah berikut ini:

# ./configure --prefix=/usr/local/apache
# make
# make install

Sekarang, anda bisa menjalankan web server apache:

# cd /usr/local/apache/bin
# ./apachectl start

Kedua, download ht://Dig dari www.htdig.org. Misal, nama file-nya htdig-x.x.x.tar.gz. Simpan di direktori /temp.
Dan buat direktori /usr/local/htdig:

# mkdir /usr/local/htdig

Masuk ke direktori /temp:

# cd /temp

Ekstrak file yang sudah di download:

# gunzip -d -c htdig-x.x.x.tar.gz | xvf -

Masuk ke direktori htdig-x.x.x:

# cd htdig-x.x.x

Lakukan langkah-langkah berikut ini:

# ./configure --prefix=/usr/local/htdig

Lakukan sedikit perubahan pada file CONFIG dengan editor favorit anda (saya suka vi editor):

# vi CONFIG

Ubah konfigurasi:

CGIBIN_DIR = /usr/local/htdig/cgi-bin
IMAGE_DIR = /usr/local/htdig/htdocs/htdig
SEARCH_DIR = /usr/local/htdig/htdocs/htdig

Kemudian setelah disimpan, lakukan:

# make
# make install

Ok, Apache dan ht://Dig sudah terinstall dengan baik. Sekarang kita lakukan sedikit perubahan pada file konfigurasi Apache.
Masuk ke direktori /usr/local/apache/conf:

# cd /usr/local/apache/conf

Buka file httpd.conf dengan editor yang biasa anda pakai:

# vi httpd.conf

Kemudian tambahkan:

Alias /htdig/ "/usr/local/htdig/htdocs/htdig/"

ScriptAlias /htdig-cgi/ "/usr/local/htdig/cgi-bin/"


AllowOverride None
Options ExecCGI


Setelah disimpan, saatnya anda merestart Apache:

# /usr/local/apache/bin/apachectl restart

Tidak ada komentar: