Các công cụ tìm kiếm Web được dùng để tìm kiếm thông tin trên World Wide Web (WWW). Nó có thể tìm được bất kỳ thông tin gì trên Web trong khi không cần một địa chỉ Web cụ thể nào, đặc biệt là khi Internet phát triển rất nhanh hàng ngày theo hàm mũ. Nhưng bạn có biết các công cụ tìm kiếm đó hoạt động như thế nào không? Và bạn có biết cái gì làm cho một số công cụ lại mạnh và hiệu quả hơn các công cụ khác không?
Về cơ bản có 3 loại công cụ tìm kiếm: một số được vận hành bởi các crawler, hoặc các spider; một số được vận hành bởi human submissions, và một số là sự kết hợp của hai loại trên.
– Các công cụ dựa trên Crawler gửi các crawler, hoặc là spider ra ngoài. Các crawler này sẽ đến một trang web, đọc các thông tin thực sự của trang web đó, đọc các meta tag của trang web và nó cũng đến tận các link mà trang web đó link đến. Các crawler này sẽ gửi tất cả các thông tin về trung tâm lưu trữ để liệt kê các dư liệu ra. Crawler sẽ quay trở lại trang web đó một cách định kỳ để cập nhập sự thay đổi trên trang web đó, và chu kỳ cập nhật này là do ngưòi quản trị của công cụ tìm kiếm đó đặt cấu hình.
· Các công cụ tìm kiếm Human-powered thì lại tin vào các thông tin được liệt kê ra bởi người quản trị trang web, rồi sau đó các thông tin này sẽ được liệt kê và đưa vào bảng liệt kê. Chỉ những thông tin được đưa ra bởi nhà quản trị web mới được đưa vào bảng liệt kê.
Trong cả hai trường hợp, khi bạn yêu cầu tìm kiếm một thông tin gì thì thực tế bạn đều phải tìm trong bảng liệt kê công cụ tìm kiếm mà nó đã tạo ra. Thực tế bạn sẽ không tìm trên các web! Các bảng liệt kê này là những cơ sở dữ liệu khổng lồ được tạo ra, lưu trữ và sau đó được tìm kíêm. Điều này giải thích tại sao thỉnh thoảng khi tìm kiếm trên các công cụ tìm kiếm thương mại, ví dụ như Yahoo! Hay Google, sẽ trả về kết quả chỉ là các link. Bởi vì là các kết quả dựa trên bảng liệt kê, nên khi các công cụ tìm kiếm chưa kịp cập nhật thì nếu có một web nào đó không hoạt động nữa, kết quả vẫn ra link tới nó. Điều này chỉ được sửa lại khi công cụ tìm kiếm cập nhật lại thông tin từ web đó.
Vậy, tại sao cùng tìm kiếm một thông tin trên các công cụ khác nhau thì lại cho kết quả không giống nhau? Một phần là vì không phải các bảng liệt kê của các công cụ là hoàn toàn giống nhau. Nó phụ thuộc vào các spider được tìm thấy hay thông tin được nhà quản trị web trình ra. Nhưng một điều quan trọng là không phải các công cụ đều dùng chung một thuật toán để tìm trên các bảng liệt kê. Thuật toán là cách mà các công cụ tìm ra các thông tin liên quan, phù hợp với thông tin mà người dùng cần tìm.
Một trong các yếu tố của thuật toán tìm kiếm của các công cụ tìm kiếm là: tần số xuất hiện và vị trí của các từ khoá (Keyword). Tần số suất hiện càng cao thì càng thích hợp.
Một yếu tố khác cũng rất phổ biến của công cụ tìm kiếm là nó dựa vào cách trang web đó link đến các trang khác như thế nào trong trang web. Bằng cách phân tích các trang link tới nhau như thế nào, các công cụ tìm kiếm có thể xác định được nội dung trang đấy là về cái gì, biết được trang nào là phù hợp hơn. Các công cụ ngày càng trở nên tinh vi hơn và tìm kiếm cũng hiệu quả, chính xác hơn!