Khái niệm

Cú pháp trong Robots.txt
Cú pháp dùng trong tệp tin này thường dùng để cấm
robots (bọ tìm kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi
đoạn văn bản thường gồm có tên của bọ tìm kiếm (user agent hay robot) và
đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra
thư mục nhất định hay là các loại tệp tin mà bọ tìm kiếm có thể đánh
chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư
mục nào theo đường dẫn URL không được cấm trong tệp tin robots.txt. Tất
cả mọi tài nguyên không bị cấm thì đều có thể được truy cập.
Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng cách gõ lên trình duyệt ( http://www.lamceo.com/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.
Xin nói thêm rằng Google hỗ trợ cú pháp sitemap trong robots.txt cho phép chỉ định sơ đồ Web (Sitemap XML) trong robots.txt
Danh sách User Agent Names
Các User Agent của Google
Google thường sử dụng vài User Agent cho
từng dịch vụ riêng của mình. Bạn có thể chỉ định từng dòng User Agent
riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn
tất cả các User Agent bắt đầu bằng “Goooglebot”
- Googlebot: Đánh chỉ số các trang Web và cập nhật các trang mới trong cơ sở dữ liệ của Google
- Googlebot-Mobile: Đánh chỉ số các trang cho dịch vụ mobile (các thiết bị di động, cầm tay)
- Googlebot-Image: Đánh chỉ số các trang cho tìm kiếm file ảnh.
- Mediapartners-Google: Đánh chỉ số trang để xác định nội dung cho Google Adsense. Bọ tìm kiếm này chỉ xuất hiện trên các trang sử dụng dịch vụ quảng cáo trực tuêysn Google Adsense.
- Adsbot-Google: Đánh chỉ số các trang để xác định chất lượng của các trang AdWords. Bọ này chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng cáo Adwords dành cho các nhà quảng cáo sản phẩm dịch vụ của họ..
Các User Agent khác
Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đã viết ở trên :
- Web Robots Database : Chứa tòan bộ các robots active;
- Search Engine Robots : Danh sách chứa tât cả máy tìm kiếm, bọ tìm kiếm và thông tin về đường dẫn, cập nhập.
Robots.txt cho nhiều tên miền
Hiên nay nhiều công ty hay doanh nghiệp
thường mua nhiều domain cho website của họ. Nhưng theo nguyên tắc SEO
thì, nhiều domain cho cùng 1 website nghĩa là trùng lập nội dung ->
Chết.
Bay giờ ta VD như sau!: Ta có 3 tên miền là: abc.com, def.com và
xzy.com, 3 domain này cùng 1 hosting, nếu ta chọn abc.com làm domain
chính và không muốn google bot index url từ 2 domain def.com và xzy.com thì ta làm như sau:robots_abc.txt <– file robots.txt cho tên miền abc.com
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
robots_def.txt <– file robots.txt cho tên miền def.com
User-agent: *
Disallow: /
Disallow: /
robots_xyz.txt <– file robots.txt cho tên miền xyz.com
User-agent: *
Disallow: /
Disallow: /
Sau đó tạo 1 file .htaccess
RewriteCond %{HTTP_HOST} ^abc.com$ [NC]
RewriteRule ^robots\.txt$ robots_abc.txt [L]RewriteCond %{HTTP_HOST} ^def.com$ [NC]
RewriteRule ^robots\.txt$ robots_def.txt [L]RewriteCond %{HTTP_HOST} ^xzy.com$ [NC]
RewriteRule ^robots\.txt$ robots_xzy.txt [L]
RewriteRule ^robots\.txt$ robots_abc.txt [L]RewriteCond %{HTTP_HOST} ^def.com$ [NC]
RewriteRule ^robots\.txt$ robots_def.txt [L]RewriteCond %{HTTP_HOST} ^xzy.com$ [NC]
RewriteRule ^robots\.txt$ robots_xzy.txt [L]
Vậy là google bot chỉ index domain abc.com mà k index 2 domain còn lại! để tránh tình trạng trùng lập nội dung
Cách tạo Robots.txt
Có thể dùng notepad hoặc tạo tự động bằng công cụ Robots.txt Generator
Blogger Comment
Facebook Comment