Cách hoạt động của công cụ tìm kiếm

 
Các công cụ tìm kiếm là “chìa khóa” quan trọng để giúp bạn tìm thấy thông tin cụ thể mà bạn cần trong vô số những dữ liệu trên mạng toàn cầu.

Có 3 loại công cụ tìm kiếm cơ bản: chương trình máy tính tự động – robot (được biết đến dưới tên gọi khác nhau crawler, spider) – bộ thu thập thông tin; các thư mục do con người quản lý và cập nhật; kết hợp cả tìm kiếm tự động và các thư mục do con người quản lý.

Các công cụ tìm kiếm dựa trên chương trình tự động

Những công cụ tìm kiếm tự động, ví dụ Google sẽ tạo ra những danh sách của họ tự động. Các chương trình tự động như crawler hay spider sẽ bắt đầu làm việc, sau đó mọi người có thể tìm kiếm thông qua những gì mà các chương trình tự động dò tìm được.

Nếu thay đổi những trang web của bạn, những công cụ tìm kiếm tự động dựa vào crawler sẽ tìm thay sự thay đổi này và điều đó có thể ảnh hưởng đến cách bạn được liệt kê như thế nào. Những tiêu đề trang, nội dung văn bản và các phần tử khác đều giữ vai trò nhất định.

Bên cạnh đó, crawler sẽ dùng phần mềm tự động để dò tìm thông tin trên mạng qua meta tag (thẻ cung cấp thông tin ngắn gọn của trang web) và cũng theo các link để kết nối đến các chỉ mục trên tất cả link của các trang web. Crawler sẽ quay lại thường xuyên để cập nhật bất cứ sự thay đổi nào.

Các thành phần của công cụ tìm kiếm tự động: Công cụ tìm kiếm tự động có 3 thành phần chính. Đầu tiên, spider hay crawler sẽ dò tìm một trang web, đọc,và sau đó spider đi theo những đường liên kết đến các trang khác bên trong trang web. Điều này có nghĩa là khi một người nào đó tìm đến một trang web, các spider sẽ ghi nhớ. Nó sẽ quay lại trang đó theo chu kỳ, thường từ 1 – 2 tháng để xem có sự thay đổi trên trang web.

Thứ hai, mọi thứ spider tìm thấy trong công cụ tìm kiếm đó chính là chỉ mục (index). Đôi lúc, chỉ mục còn được gọi là danh mục (catalog) – là kho lưu trữ khổng lồ chứa mọi sao chép của các trang web mà spider tìm thấy. Nếu một trang web thay đổi, sau đó danh mục sẽ được cập nhật với thông tin mới. Thỉnh thoảng, spider cũng cần có thời gian để lập chỉ mục cho trang mới hay cập nhật thay đổi. Do đó, cũng có trường hợp một trang web đã được spider dò tìm, nhưng vẫn chưa lập chỉ mục, nghĩa là trong khoảng thời gian này trang web sẽ không được tìm thấy trên công cụ tìm kiếm. Cuối cùng, đó là phần mềm của công cụ tìm kiếm. Đây là chương trình có thể lọc thông tin từ hàng triệu trang web được lưu trong chỉ mục và có thể so sánh, đối chiếu để đưa ra kết quả phù hợp.

Các thư mục do con người quản lý

Các thư mục do người quản lý, ví dụ Open Directory (Dự án Thư mục mở) sẽ phụ thuộc vào sự quản lý của con người. Bạn đăng ký một trang web vào thư mục với vài dòng mô tả ngắn gọn hay biên tập viên có thể viết phần mô tả các trang web. Điều này có nghĩa, việc tìm kiếm chỉ phù hợp với những nội dung mô tả đã được đăng ký.

Việc thay đổi những trang web của bạn không có ảnh hưởng đến danh mục của bạn. Những cách thức để cải thiện danh mục với công cụ tìm kiếm sẽ chẳng liên quan đến cách thức cải thiện vị trí cho một thư mục. Một ngoại lệ duy nhất là một trang web tốt với nội dung tốt sẽ có khuynh hướng được đánh giá cao hơn là một trang web có nội dung sơ sài.

Đối với 2 loại công cụ tìm kiếm này, khi bạn truy vấn một cụ tìm kiếm để xác định thông tin chính là tìm kiếm qua chỉ mục. Trong trường hợp nếu chỉ mục không cập nhật được vì trang web nào đó không hợp lệ, nhưng công cụ tìm kiếm vẫn xem trang đó tồn tại dù nó đã bị thay đổi hay bị xóa. Để khắc phục, một số robot, cụ thể MOMspider có thể trợ giúp phát hiện các link hỏng cũng như duy trì các cấu trúc siêu liên kết cùng nội dung của một trang web.

Đôi khi bạn tìm cùng một từ khóa trên những công cụ tìm kiếm khác nhau thường cho ra những kết quả khác nhau. Câu trả lời là do không phải tất cả các chỉ mục đều dò tìm tương tự nhau. Nó còn phụ thuộc vào cách spider tìm gì hay người dùng đã đăng ký gì. Nhưng quan trọng hơn, mỗi công cụ tìm kiếm sẽ không dùng giải thuật giống nhau để dò tìm thông qua các chỉ mục. Các công cụ tìm kiếm sẽ dựa vào giải thuật để quyết định chọn thông tin phù hợp có trong chỉ mục để trả về kết quả mà người dùng đang muốn tìm kiếm.

Một trong những thành phần mà giải thuật của một công cụ tìm kiếm chú ý, đó là việc quét tần suất và xác định từ khóa trên trang web. Nếu tần suất quét cao hơn thì việc trả về kết quả có khả năng phù hợp cao hơn. Một thành phần khác nữa mà giải thuật cần phân tích đó là cách thức các trang web này liên kết đến các trang khác trên web. Bằng cách phân tích các trang web liên kết với nhau như thế nào, một công cụ tìm kiếm có thể xác định được trang web đó có “xứng đáng” thăng hạng hay không.

Kết hợp 2 dạng trên

Hiện nay, việc kết hợp 2 dạng tìm kiếm dựa trên chương trình tự động và các thư mục do con người quản lý đã trở nên cực kỳ phổ biến. Sau này nhiều công cụ tìm kiếm hỗ trợ người dùng qua nhiều cách thức khác nhau nên người ta khó thấy ranh giới phân chia của các công cụ tìm kiếm, thay vào đó là các hệ thống công cụ tìm kiếm gồm nhiều kiểu chức năng khác nhau. Ví dụ, MSN Search, Yahoo và Yahoo Directory, Google và Google Directory…

Tham khảo thêm các bài viết: Khai thác sức mạnh công cụ tìm kiếm (A0907_139), Tối ưu website cho công cụ tìm kiếm (A0904_112), Máy tìm kiếm liên hợp (A0809_117).

(Theo PC World)