Robots.txt là gì? Những thuận lợi và khó khăn khi sử dụng Robots.txt

Robots.txt là gì?

Robots.txt là một định dạng văn bản đặc biệt không phải là HTML hay bất kỳ loại nào khác. Nó cho phép quản trị viên web linh hoạt hơn trong việc cho hoặc không cho bot của công cụ tìm kiếm (SE) lập chỉ mục một khu vực trên trang web của bạn.

Khi sử dụng tệp robots.txt, bạn cần phải cẩn thận. Bởi vì nếu sửa sai, tất cả các kết quả SEO sẽ rớt top.

Nếu dự án của bạn nhỏ và bạn không chắc mình đang làm gì, tốt nhất là không nên sử dụng tệp robots.txt. Hãy để mọi thứ chỉ như vậy. Blog của Quang cũng không sử dụng tệp robots.txt.

Tuy nhiên, đối với các dự án lớn, đặc biệt là e-comerce, việc sử dụng tệp robots.txt gần như là bắt buộc. Tệp robots.txt giúp Google lập chỉ mục trang web của bạn hiệu quả hơn, ngăn chặn việc quét các liên kết ngược, cũng như hạn chế nội dung trùng lặp rất phổ biến khi SEO cho lĩnh vực e-comerce.

Robots.txt là gì?
Robots.txt là gì?

Ưu điểm khi sử dụng Robots.txt

Ngăn chặn lỗi trong quá trình thiết lập hệ thống

Trong quá trình thiết kế website (thiết kế giao diện, cài đặt plugin, xây dựng cấu trúc website), mọi thứ còn rất lộn xộn. Bạn nên chặn lỗi của Google để nó không lập chỉ mục những nội dung chưa hoàn chỉnh mà bạn không muốn.

Chèn Sơ đồ trang web

Sơ đồ trang web giống như một bản đồ để Google khám phá trang web của bạn. Nếu số lượng chỉ mục của trang web quá lớn và trang web không có sơ đồ trang, bọ Google có thể không có đủ tài nguyên (ngân sách thu thập dữ liệu) để quét trang web của bạn. Từ đó, Google có thể không lập chỉ mục một số nội dung quan trọng.

Một trang web có thể có nhiều hơn một sơ đồ trang (ví dụ: sơ đồ trang bài viết, sơ đồ trang hình ảnh, sơ đồ trang web tin tức…). Bạn nên sử dụng một phần mềm để tạo sơ đồ trang cho trang web, sau đó khai báo các liên kết sơ đồ trang trong tệp robots.txt.

Chèn Sơ đồ trang web
Chèn Sơ đồ trang web

Ngăn chặn lỗi kiểm tra backlink

Hiện tại ở Việt Nam, 3 công cụ kiểm tra backlink phổ biến nhất là Ahrefs, Majestic và Moz. Các lỗi của chúng được đặt tên lần lượt là AhrefsBot (Ahrefs), mj12bot (Majestic) và rogerbot (Moz).

Để ngăn đối thủ sử dụng các công cụ để phân tích các liên kết ngược của bạn, bạn có thể chặn lỗi của họ trong tệp robots.txt.

Ngăn chặn các lỗi có hại

Ngoài backlink kiểm tra lỗi, còn có một số loại bọ có hại khác.

Chẳng hạn, Amazon, gã khổng lồ của ngành thương mại điện tử thế giới, phải chặn lỗi có tên EtaoSpider.

Chặn các thư mục nhạy cảm

Mã nguồn trang web, thường có các thư mục nhạy cảm, chẳng hạn như wp-admin, wp-include, phpinfo.php, cgi-bin, memcache….

Bạn không nên để bọ tìm kiếm index nội dung này, vì khi đó, nội dung của chúng sẽ được công khai trên internet. Tin tặc có thể lấy thông tin từ chúng, để tấn công hệ thống của bạn.

Chặn lỗi trong thương mại điện tử

Chặn lỗi trong thương mại điện tử
Chặn lỗi trong thương mại điện tử

Trong thương mại điện tử, có một số tính năng độc đáo cho người dùng như:

Những chức năng đó là không thể thiếu đối với người dùng, nhưng thường tạo ra nội dung trùng lặp trong SEO, và không có bất kỳ nội dung nào phù hợp để hỗ trợ SEO từ khóa. Do đó, bạn có thể chặn lập chỉ mục tệp robots.txt của các đường dẫn này.

Trong tệp robot.txt, bạn sử dụng * (thay thế bất kỳ chuỗi ký tự nào) và $ (định dạng tệp, chẳng hạn như .doc, .pdt, .ppt, .swf…, được sử dụng ở cuối câu) để chặn tập tin.

Nhược điểm khi sử dụng

Khi sử dụng tệp robots.txt, hãy cẩn thận. Bởi vì nếu sửa sai, tất cả các kết quả SEO sẽ rớt top.

Làm thế nào nó hoạt động

Crawl-Delay: Tham số này xác định thời gian (tính bằng giây) bot phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ hữu ích để ngăn chặn các máy chủ tải công cụ tìm kiếm tùy ý.

# : được sử dụng trước các dòng để bình luận.

Tệp robots.txt hoạt động bằng cách xác định tác nhân người dùng và lệnh cho tác nhân người dùng này.

Các thông số nằm trong tệp robots.txt

Disallow: là khu vực bạn muốn bản địa hóa mà không cần công cụ tìm kiếm truy cập.

Tác nhân người dùng: Khai báo tên của công cụ tìm kiếm bạn muốn kiểm soát, ví dụ: Googlebot, Yahoo! Slurp

Lưu ý khi sử dụng robots.txt

  • Để được tìm thấy bởi bot, các tệp robots.txt phải được đặt trong các thư mục cấp cao nhất của trang web.
  • txt phân biệt chữ hoa chữ thường. Vì vậy, tệp phải được đặt tên là robots.txt. (không phải Robots.txt hoặc robots.TXT,…)
  • Không đặt / wp-content / themes / hoặc / wp-content / plugins / trong phần Không cho phép. Điều đó sẽ ngăn các công cụ tìm kiếm nhìn thấy chính xác giao diện của blog hoặc trang web của bạn.
  • Một số tác nhân người dùng có thể chọn bỏ qua các tệp robots.txt tiêu chuẩn của bạn. Điều này khá phổ biến với các tác nhân người dùng bất chính như:
  • Phần mềm độc hại rô bốt (chương trình mã độc)
  • Quy trình thu thập thông tin (quy trình tự thu thập thông tin) địa chỉ email
  • Các tệp robots.txt thường có sẵn và được công khai trên web. Bạn chỉ cần thêm /robots.txt vào cuối bất kỳ miền gốc nào để xem các chỉ thị của trang web.

Điều này có nghĩa là bất kỳ ai cũng có thể xem các trang bạn muốn hoặc không muốn thu thập thông tin. Vì vậy, không sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.

Mỗi tên miền phụ trên một tên miền gốc sẽ sử dụng các tệp txt wordpress riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com đều phải có tệp robots.txt của riêng chúng. (blog.example.com/robots.txt và example.com/robots.txt). Tóm lại, đây được coi là cách tốt nhất để chỉ ra vị trí của bất kỳ sơ đồ trang web nào được liên kết với miền ở cuối tệp robots.txt.

Đánh giá post