Bài 4, Chương 1: Dò quét nội dung website

Trong bài này, chúng ta sẽ được tìm hiểu về dò quét website một trong 3 công việc hàng ngày của các bộ máy tìm kiếm.

1. Cách bọ tìm kiếm dò quét nội dung website:

 Máy tìm kiếm thực hiện dò quét website nhằm mục đích tìm ra nội dung mới.
 Máy tìm kiếm làm được việc này nhờ sử dụng những phần mềm hiện đại luôn được cập nhật có thể thu thập thông tin trên Internet. Những chương trình phần mềm này thường được gọi là bọ tìm kiếm (Spider). Với quy mô ngày càng mở rộng của thế giới Internet, công việc này ngày càng tiêu tốn nhiều tài nguyên, chi phí. Do đó, các cỗ máy tìm kiếm sử dụng các thuật toán để quyết định xem trang web nào sẽ được dò quét, bao lâu sẽ dò quét, và độ sâu dò quét website như thế nào. Điều này cho phép họ tận dụng tài nguyên của mình một cách hiệu quả nhất có thể. Bài học quan trọng mà các SEOer cần phải nhớ là các cỗ máy tìm kiếm sẽ không tự động dò quét trang web của bạn trừ khi chúng có lý do để làm điều đó.
 Một khi bọ tìm kiếm ghé thăm trang web của bạn, đầu tiên chúng sẽ tìm đến file robots.txt, đây cũng chính là bảng nội quy của trang web và sẽ chỉ ra những trang nào (nếu có) mà chúng được và không được dò quét. Bạn có thể tìm hiểu nhiều hơn về bảng nội quy đặc biệt này ở những bài học sau.
 Giả sử rằng con bọ không bị chặn theo cách này, nó sẽ bắt đầu dò quét tất cả các trang web trên website của bạn. Dọc đường đi, nó sẽ lưu lại tất cả các địa chỉ tên miền vào trong một danh sách để sử dụng cho những lần dò quét sau.
 Giữa dò quét và index (lưu dữ liệu) có sự khác biệt lớn. Dò quét website là tìm ra các địa chỉ trang web, trong khi index là thu thập thông tin hay nội dung trong các trang web đó.

2. Những vấn đề cơ bản mà bọ tìm kiếm thường gặp phải:

 Bọ tìm kiếm là các chương trình phần mềm máy tính thông minh, tuy nhiên, chúng vẫn chỉ là máy móc và do đó có những hạn chế nhất định
 Những công nghệ Web có thể gây khó khăn cho bọ tìm kiếm:
 Website ngày nay sử dụng nhiều công nghệ cải tiến khác nhau để nâng cao chất lượng đồng thời mang lại trải nghiệm tốt hơn cho người dùng. Tuy nhiên một số công nghệ hiện đại lại gây khó khăn cho bọ tìm kiếm. Cụ thể là:
    • Javascript
    • AJAX
    • Flash
 Nhưng là một người làm SEO từ khóa, bạn cần biết rằng sử dụng các công nghệ này trong trang web có thể làm khó cho bọ tìm kiếm khi chúng dò quét nội dung của bạn.
 Những loại nội dung có thể gây khó cho hoạt động của bọ tìm kiếm:
 Có những loại nội dung mà bọ tìm kiếm không thích, vì chúng không thể đọc được một cách dễ dàng như con người, cụ thể là video và hình ảnh. Trong khi chúng có thể phát hiện và nhận ra sự tồn tại của video hoặc hình ảnh trên một trang web, tuy nhiên chúng vẫn chưa đủ khả năng để hiểu đầy đủ nội dung này. Một lần nữa, bọ tìm kiếm đang ngày càng trở nên thông minh hơn nhưng còn xa chúng mới đạt tới trình độ có thể hiểu đầy đủ các loại nội dung như con người.
 Ví dụ: Máy tìm kiếm sẽ không thể đọc được chữ trên một bức ảnh. Điều tương tự cũng xảy ra với video.
 Vì vậy cần đảm bảo trang web của bạn không chỉ chứa hình ảnh hoặc video. Bên cạnh hình ảnh, video cần có những đoạn nội dung mô tả. Và những nội dung quan trọng nhất định phải được để trong những định dạng mà máy tìm kiếm có thể dễ dàng hiểu được. Cụ thể là văn bản.

3. Các loại bọ tìm kiếm của các cỗ máy tìm kiếm:

 Mỗi máy tìm kiếm có con bọ riêng với cái tên riêng. Ví dụ của Google là googlebot. Của Bing là bingbot. Baidu là Baiduspider.
Nguồn: www.vietmoz.edu.vn