Powered by Blogger.

Toàn tập về robots.txt

Khái niệm

robotsRobots.txt -Robots Exclusion Protocol – Là 1 tập tin chứa các đoạn text (lệnh) dùng để điểu hướng các con bot của Google. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ tìm kiếm để điều khiển tác vụ của các bọ tìm kiếm trên website của mình.

Cú pháp trong Robots.txt

Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ tìm kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ tìm kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ tìm kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo đường dẫn URL không được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm thì đều có thể được truy cập.
Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng cách gõ lên trình duyệt ( http://www.lamceo.com/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.
Xin nói thêm rằng Google hỗ trợ cú pháp sitemap trong robots.txt cho phép chỉ định sơ đồ Web (Sitemap XML) trong robots.txt

Danh sách User Agent Names

Các User Agent của Google

Google thường sử dụng vài User Agent cho từng dịch vụ riêng của mình. Bạn có thể chỉ định từng dòng User Agent riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả các User Agent bắt đầu bằng “Goooglebot”
  • Googlebot: Đánh chỉ số các trang Web và cập nhật các trang mới trong cơ sở dữ liệ của Google
  • Googlebot-Mobile: Đánh chỉ số các trang cho dịch vụ mobile (các thiết bị di động, cầm tay)
  • Googlebot-Image: Đánh chỉ số các trang cho tìm kiếm file ảnh.
  • Mediapartners-Google: Đánh chỉ số trang để xác định nội dung cho Google Adsense. Bọ tìm kiếm này chỉ xuất hiện trên các trang sử dụng dịch vụ quảng cáo trực tuêysn Google Adsense.
  • Adsbot-Google: Đánh chỉ số các trang để xác định chất lượng của các trang AdWords. Bọ này chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng cáo Adwords dành cho các nhà quảng cáo sản phẩm dịch vụ của họ..

Các User Agent khác

Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đã viết ở trên :
  1. Web Robots Database : Chứa tòan bộ các robots active;
  2. Search Engine Robots : Danh sách chứa tât cả máy tìm kiếm, bọ tìm kiếm và thông tin về đường dẫn, cập nhập.

Robots.txt cho nhiều tên miền

Hiên nay nhiều công ty hay doanh nghiệp thường mua nhiều domain cho website của họ. Nhưng theo nguyên tắc SEO thì, nhiều domain cho cùng 1 website nghĩa là trùng lập nội dung -> Chết.
Bay giờ ta VD như sau!: Ta có 3 tên miền là: abc.com, def.com và xzy.com, 3 domain này cùng 1 hosting, nếu ta chọn abc.com làm domain chính và không muốn google bot index url từ 2 domain def.com và xzy.com thì ta làm như sau:
robots_abc.txt <– file robots.txt cho tên miền abc.com
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
robots_def.txt <– file robots.txt cho tên miền def.com
User-agent: *
Disallow: /
robots_xyz.txt <– file robots.txt cho tên miền xyz.com
User-agent: *
Disallow: /
Sau đó tạo 1 file .htaccess
RewriteCond %{HTTP_HOST} ^abc.com$ [NC]
RewriteRule ^robots\.txt$ robots_abc.txt [L]RewriteCond %{HTTP_HOST} ^def.com$ [NC]
RewriteRule ^robots\.txt$ robots_def.txt [L]RewriteCond %{HTTP_HOST} ^xzy.com$ [NC]
RewriteRule ^robots\.txt$ robots_xzy.txt [L]
Vậy là google bot chỉ index domain abc.com mà k index 2 domain còn lại! để tránh tình trạng trùng lập nội dung
Cách tạo Robots.txt
Có thể dùng notepad hoặc tạo tự động bằng công cụ Robots.txt Generator
    Blogger Comment
    Facebook Comment