File robots.txt là một tệp văn bản đơn giản được sử dụng để điều chỉnh hoạt động của các trình robot tìm kiếm trên trang web. Cùng Digizone tìm hiểu chi tiết về file robots.txt và cách tạo file robots.txt trên WordPress ngay sau đây!
File robots.txt là gì?
File Robots.txt là tập tin văn bản đơn giản, được tạo và lưu trữ ở dưới dạng .txt. Đây cũng là một phần trong giao thức Robots Exclusion Protocol (REP). Mục đích tạo ra để chứa một nhóm tiêu chuẩn quy định cách Robot Web thu thập dữ liệu.
REP cũng bao gồm các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn các công cụ của Google xử lí các liên kết. (ví dụ: Follow hay Nofollow link).
Trên thực tế, tạo robots.txt WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ Google Index một số phần nào đó trong trang của mình.
>>> Xem thêm: Crawl là gì? Những điều cần biết về Crawl Website
Cú pháp của file robots.txt
Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến mà bạn sẽ bắt gặp trong một file robots.txt. Chúng bao gồm:
- User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
- Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
- Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
- Crawl-delay: Thông báo cho các Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
- Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.
Pattern – Matching
Trên thực tế các file robots.txt WordPress khá phức tạp để có thể chặn hoặc cho phép các con bot vì chúng cho phép sử dụng tính năng Pattern-Matching để bao quát một loạt các tùy chọn của URL.
Tất cả các công cụ của Google và Bing cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).
- * là kí tự đại diện cho bất kì chuỗi kí tự nào – Có nghĩa là nó được áp dụng cho mọi loại Bots của các công cụ Google.
- $ là kí tự khớp với phần cuối của URL.
Định dạng cơ bản của file robots.txt
Tệp robots.txt có định dạng cơ bản sau:
- User-agent:#
- Disallow:
- Allow:
- Crawl-delay:
- Sitemap:
Tuy nhiên, bạn vẫn có thể lược bỏ các phần Crawl-delay và Sitemap. Đây là định dạng cơ bản của robots.txt WordPress hoàn chỉnh. Tuy nhiên trên thực tế thì file robots.txt chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng hơn.
Chẳng hạn như các dòng lệnh: Disallow, Allow, Crawl-delay, … Trong file robots.txt, bạn chỉ định cho nhiều con bot khác nhau. Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.
Trong một file robots.txt WordPress bạn có thể chỉ định nhiều lệnh cho các con bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots.txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.
File robots.txt chuẩn
Để chặn tất cả các Web Crawler không được thu thập bất kì dữ liệu nào trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:
- User-agent: *
- Disallow: /
Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:
- User-agent: *
- Disallow:
Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kì trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:
- User-agent: Googlebot
- Disallow: /example-subfolder/
Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:
- User-agent: Bingbot
- Disallow: /example-subfolder/blocked-page.html
Ví dụ cho file robots.txt chuẩn
Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:
- User-agent: *
- Disallow: /wp-admin/
- Allow: /
- Sitemap: https://www.example.com/sitemap_index.xml
Theo bạn, cấu trúc file robots.txt có ý nghĩa như thế nào? Để tôi giải thích. Điều này chứng tỏ bạn cho phép toàn bộ các công cụ của Google theo link www.example.com/sitemap_index.xml để tìm đến file robots.txt và phân tích. Cùng index toàn bộ các dữ liệu trong các trang trên website của bạn ngoại trừ trang www.example.com/wp-admin/.
3 cách tạo file robot.txt wordpress
Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Hãy tham khảo 3 cách tạo robots.txt cho WordPress dưới đây:
1. Sử dụng Yoast SEO
Bạn có thể chỉnh sửa hoặc tạo file robots.txt cho WordPress trên chính WordPress Dashboard với vài bước đơn giản. Đăng nhập vào website của bạn, khi đăng nhập vào bạn sẽ thấy giao diện của trang Dashboard.
Nhìn phía bên trái màn hình, click vào SEO > Tools > File editor.
Tính năng file editor sẽ không xuất hiện nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Do vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).
Lúc này bạn sẽ thấy mục robots.txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt đấy.
2. Qua bộ Plugin All in One SEO
Hoặc bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress – Đơn giản, dễ sử dụng.
Để tạo file robots.txt WordPress, bạn phải đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active cho mục robots.txt
Lúc này, trên giao diện sẽ xuất hiện nhiều tính năng thú vị:
Và khi đó, mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Bạn có thể tạo lập cũng như điều chỉnh file robots.txt WordPress tại đây.
Tuy nhiên, bộ plugin này có một chút khác biệt so với Yoast SEO tôi vừa đề cập ở trên.
All in One SEO làm mờ đi thông tin của file robots.txt thay vì bạn được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến bạn hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình. Đặc biệt một số Malware bots sẽ gây hại cho website mà bạn không ngờ tới.
3. Tạo rồi upload file robots.txt qua FTP
Nếu bạn không muốn sử dụng plugin để tạo file robots.txt WordPress thì tôi có 1 cách này cho bạn – Tự tạo file robots.txt thủ công cho WordPress của mình.
Bạn chỉ mất vài phút để tạo file robots.txt WordPress này bằng tay. Sử dụng Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress theo Rule tôi đã giới thiệu ở đầu viết. Sau đó upload file này qua FTP không cần sử dụng plugin, quá trình này rất đơn giản không tốn bạn quá nhiều thời gian đâu.
Khi nào cần sử dụng file robots.txt?
Nếu website không có file này thì các công cụ tìm kiếm sẽ đi thu thập tất cả nội dung bên trong trang web. Tùy vào từng trường hợp mà bạn nên biết cách sử dụng robots.txt để đạt mục đích quản trị cũng như tối ưu hóa với các công cụ tìm kiếm.
1. Chặn công cụ tìm kiếm khi website đang xây dựng
Quá trình xây dựng và hoàn thiện một website có thể phải mất nhiều ngày. Thậm chí với những website phức tạp thì cần nhiều thời gian hơn nữa. Trong quá trình xây dựng này, khi bạn đưa nội dung lên để chạy thử và chỉnh sửa thì chắc chắn không muốn được công cụ tìm kiếm index. Bởi những trang đang dở dang không có lợi về mặt SEO.
Khi đó, bạn nên chặn tất cả các bot của công cụ tìm kiếm để không cho vào tất cả các nội dung của trang web. Sau đó, trang web đã hoàn thiện thì bạn sẽ sửa lại cách sử dụng robot.txt để cho phép SE vào từng phần hoặc tất cả nội dung theo ý muốn.
2. Tránh bị đối thủ chơi xấu
Khi sử dụng công cụ Search nhúng trong web của bạn thì trang kết quả sẽ có một URL riêng. Tất nhiên Google cũng có thể sẽ index những trang đó. Điều nguy hiểm nhất đó chính là đối thủ có thể lợi dụng tính năng này để cố tình search những từ khóa có nội dung xấu. Nhằm gây hại cho danh tiếng của website. Vì vậy nên chặn toàn bộ trang kết quả, không cho các SE index và đánh giá nội dung.
3. Chặn các công cụ thu thập liên kết
Những công cụ như Ahref đều có một con bọ riêng để thu thập thông tin về website. Những thông tin đó bao gồm: Backlink, Referring domains, Organic keywords, Top pages… Đối thủ sử dụng công cụ này để phân tích website của bạn. Để ngăn chặn điều này thì bạn cần biết cách sử dụng robots.txt để chặn những con bot này bằng cách đặt đoạn mã trong file robot.txt.
Lưu ý khi sử dụng file robot.txt
Hãy đảm bảo rằng bạn không chặn bất kì nội dung hoặc phần nào trên trang web mà bạn muốn Google index.
Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bot theo dõi. Trừ khi các link này có liên kết với các trang khác (các trang không bị chặn bởi robots.txt, Meta Robots,…). Nếu không, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.
Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. Vì thế nếu muốn dòng sức mạnh Link juice truyền qua các trang này thì bạn hãy sử dụng một phương pháp khác thay vì tạo robots.txt WordPress.
Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP. Bởi vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác. Do đó các con bot sẽ bỏ quá các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn, nên trang web này vẫn có thể được lập chỉ mục.
Nếu bạn muốn chặn trang web này khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file robots.txt cho WordPress như dùng mật khẩu bảo vệ hay Noindex Meta Directive. Một số công cụ tìm kiếm có rất nhiều User-agent. Chẳng hạn, Google sử dụng Googlebot cho các tìm kiếm miễn phí và Googlebot-Image cho các tìm kiếm hình ảnh.
Hầu hết các User-agent từ cùng một công cụ đều tuân theo một quy tắc. Do đó bạn không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên việc làm này vẫn có thể giúp bạn điều chỉnh được cách Index nội dung trang web.
Các công cụ tìm kiếm sẽ lưu trữ nội dung file robots.txt WordPress. Tuy nhiên nó vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp của mình nhanh hơn thì hãy sử dụng ngay chức năng Gửi của Trình kiểm tra tệp robots.txt.
>>> Xem thêm: Lead là gì? Những điều cần biết về Lead trong Marketing
Kết luận
Theo dõi Digizone để cập nhật những tin tức hữu ích khác!
Công Ty TNHH Truyền Thông Digizone Việt Nam
- Mã số thuế: 0316774225
- Trụ sở chính: 50/17 Trường Sơn, P.2, Q.Tân Bình, TP.HCM
- Cơ sở đào tạo: Số 5 Cửu Long, P.2, Q.Tân Bình, TP.HCM