Robots.txt Là Gì? Hướng Dẫn Tạo File Robots.txt Chi Tiết
Kiểm tra technical seo cho website là công việc được lặp lại định kỳ trong một khoảng thời gian nhất định hoặc trước khi bắt đầu một dự án Seo. Một trong những task quan trọng của audit technical đó chính là tạo và kiếm tra file robots.txt của website. Vậy robots.txt là gì? Làm sao để tạo và sử dụng nó đúng cách? Cùng Max Seo tìm hiểu qua bài viết dưới đây.
Robots.txt là gì?
Robots.txt là một tệp văn bản đặc biệt được sử dụng để chỉ định cho các robot (còn gọi là các spider hoặc crawler) của các công cụ tìm kiếm những phần của trang web mà họ có thể hoặc không được truy cập. Tệp robots.txt thường được đặt ở thư mục gốc của trang web và sử dụng cú pháp đơn giản để liệt kê các thư mục và trang mà các robot không được truy cập. Mục đích của robots.txt là để giảm tải cho máy chủ web bằng cách hạn chế sự truy cập của các robot vào các phần của trang web không cần thiết hoặc không mong muốn.
Tại sao website phải có tệp robots.txt
Tệp robots.txt là một phần quan trọng của trang web và nó giúp các robot của công cụ tìm kiếm hiểu được những phần nào của trang web có thể hoặc không thể truy cập.
Dưới đây là một số lý do tại sao một trang web cần phải có tệp robots.txt:
1. Kiểm soát truy cập của robot:
Tệp robots.txt cho phép bạn kiểm soát truy cập của các robot của công cụ tìm kiếm vào trang web của bạn. Bằng cách chỉ định các phần của trang web mà robot được phép truy cập hoặc không được phép truy cập, bạn có thể đảm bảo rằng trang web của bạn được truy cập đúng cách.
2. Cải thiện hiệu suất của trang web:
Nếu bạn không muốn các robot của công cụ tìm kiếm truy cập vào các phần không cần thiết của trang web, ví dụ như các thư mục chứa tệp tin cá nhân, thì tệp robots.txt có thể giúp cải thiện hiệu suất của trang web bằng cách giảm thiểu tải trọng lên máy chủ.
3. Bảo vệ thông tin cá nhân:
Nếu bạn có các tệp tin hoặc trang web chứa thông tin cá nhân, bạn có thể sử dụng tệp robots.txt để ngăn chặn các robot của công cụ tìm kiếm truy cập vào những phần này.
4. Đảm bảo tính bảo mật và an ninh:
Tệp robots.txt có thể được sử dụng để ngăn chặn các robot không mong muốn truy cập vào trang web của bạn. Điều này có thể giúp đảm bảo tính bảo mật và an ninh cho trang web của bạn.
Hướng dẫn robot của công cụ tìm kiếm truy cập trang web một cách hiệu quả: Bằng cách sử dụng tệp robots.txt để chỉ định các phần của trang web mà bạn muốn được tìm thấy trên kết quả tìm kiếm của các công cụ tìm kiếm, bạn có thể giúp các robot của công cụ tìm kiếm truy cập trang web của bạn một cách hiệu quả hơn.
Cấu trúc của tệp robots.txt
Tệp robots.txt là một tệp văn bản đơn giản được đặt trong thư mục gốc của trang web để hướng dẫn cho các robot của công cụ tìm kiếm biết những phần nào của trang web có thể hoặc không thể truy cập.
Cấu trúc của tệp robots.txt gồm hai phần chính: user-agent và disallow.
1. User-agent:
Là phần xác định loại robot mà tệp robots.txt áp dụng. Có thể áp dụng cho tất cả các robot hoặc chỉ định cho một số robot cụ thể.
Ví dụ:
User-agent: *
User-agent: Googlebot
User-agent: Bingbot
2. Disallow:
Là phần xác định những phần của trang web mà robot không được truy cập. Các phần này có thể là các thư mục, tệp tin hoặc trang web cụ thể.
Ví dụ:
Disallow: /private/
Disallow: /login.php
Disallow: /admin/
3. Crawl-delay
Lệnh này trong tệp robots.txt để chỉ định thời gian trễ giữa các yêu cầu của robot. Lệnh này được sử dụng để giảm tải trên máy chủ web của bạn bằng cách giới hạn số lượng yêu cầu mà robot của công cụ tìm kiếm gửi đến máy chủ trong một khoảng thời gian cụ thể. Dưới đây là một số ví dụ về cách sử dụng lệnh "Crawl-delay" trong tệp robots.txt:
Ví dụ:
Đặt thời gian trễ 5 giây cho toàn bộ robot:
User-agent: *
Crawl-delay: 5
Chú ý rằng lệnh "Crawl-delay" không được hỗ trợ bởi tất cả các robot của công cụ tìm kiếm, vì vậy nó có thể không có tác dụng với một số robot. Ngoài ra, thời gian trễ chỉ là một yêu cầu và robot vẫn có thể gửi yêu cầu với tần suất cao hơn nếu chúng không tuân theo yêu cầu trễ.
Ngoài ra, tệp robots.txt cũng có thể chứa các chỉ thị khác như Allow, Sitemap... để hướng dẫn các robot của công cụ tìm kiếm truy cập trang web một cách hiệu quả và đúng đắn.
Chú ý rằng, mỗi chỉ thị phải được viết trên một dòng riêng biệt và không có khoảng trắng ở đầu hoặc cuối dòng.
Cách tạo tệp robots.txt
Để tạo tệp robots.txt, bạn cần làm theo các bước sau:
Bước 1: Mở trình soạn thảo văn bản như Notepad hoặc Sublime Text.
Đưa ra quyết định về những phần nào của trang web bạn muốn cho robot của công cụ tìm kiếm truy cập và những phần nào bạn muốn ngăn chặn truy cập.
Bước 2: Viết các lệnh vào tệp robots.txt theo cú pháp như đã giải thích ở phần trước.

Bước 3: Lưu tệp robots.txt dưới dạng tệp tin văn bản với tên "robots.txt".

Bước 4: Tải tệp robots.txt lên máy chủ web của bạn. Tệp robots.txt phải được đặt trong thư mục gốc của trang web.
Bước 2: Viết các lệnh vào tệp robots.txt theo cú pháp như đã giải thích ở phần trước.

Bước 3: Lưu tệp robots.txt dưới dạng tệp tin văn bản với tên "robots.txt".

Bước 4: Tải tệp robots.txt lên máy chủ web của bạn. Tệp robots.txt phải được đặt trong thư mục gốc của trang web.
Chú ý rằng tệp robots.txt phải được viết theo định dạng văn bản thuần túy và không được sử dụng bất kỳ định dạng định danh (như UTF-8) nào. Nếu bạn sử dụng các công cụ tạo tệp robots.txt trực tuyến, bạn phải kiểm tra xem chúng đã tạo ra tệp dưới dạng đúng hay không trước khi tải nó lên trang web của mình.
Gợi ý một số mẫu file robots.txt
Dưới đây là một số mẫu tệp robots.txt phổ biến để bạn tham khảo:1. Chặn toàn bộ robot của công cụ tìm kiếm khỏi truy cập vào trang web của bạn:
User-agent: *
User-agent: *
Disallow: /
2. Cho phép tất cả các robot của công cụ tìm kiếm truy cập vào toàn bộ trang web của bạn:
User-agent: *
User-agent: *
Disallow:
3. Chặn một số robot của công cụ tìm kiếm khỏi truy cập vào trang web của bạn:
User-agent: Googlebot
User-agent: Googlebot
Disallow: /
User-agent: Bingbot
User-agent: Bingbot
Disallow: /
4. Chỉ cho phép một số robot của công cụ tìm kiếm truy cập vào trang web của bạn:
User-agent: Googlebot
User-agent: Googlebot
Disallow:
User-agent: *
User-agent: *
Disallow: /
5. Chặn các trang đăng nhập hoặc trang quản trị khỏi robot của công cụ tìm kiếm:
User-agent: *
User-agent: *
Disallow: /login/
Disallow: /admin/
Chú ý rằng những mẫu này chỉ là các ví dụ và bạn nên thay đổi nó phù hợp với nhu cầu cụ thể của trang web của mình.
Không có nhận xét nào