Sơ đồ trang web chứa url bị chặn bởi robots.txt.
Bạn đang xem: Sơ đồ trang web chứa url bị chặn bởi robots.txt.
Ở trong đa số các ngôi trường hợp, đây chỉ là một vấn đề không còn sức dễ dàng và đơn giản khi mà bạn đã triển khai việc chặn tích lũy thông tin sinh hoạt trong tệp robots.txt của mình.
Tuy nhiên, lại có một vài tác động bên phía ngoài khác rất có thể đã gây ra sự nỗ lực này, vì vậy họ hãy cùng triển khai quy trình khắc phục sự cố tiếp sau đây nhằm chẩn đoán và khắc phục lại hầu như thứ sớm, tác dụng nhất gồm thể:

Bước đầu tiên, bạn phải tự hỏi chính bạn dạng thân coi liệu là bạn vẫn muốn Google lập chỉ mục cho URL này xuất xắc không.
1. Nếu như khách hàng không mong mỏi URL được Google lập chỉ mục
Bạn chỉ cần thêm thẻ noindex meta robots và bảo vệ cho phép việc thu thập thông tin – mang sử đó là thẻ Canonical.
Nếu như các bạn chặn việc tích lũy thông tin bên trên một trang, thì Google vẫn có thể lập chỉ mục trang kia vì thu thập thông tin và lập chỉ mục (index) là hai vấn đề khác nhau. Trừ khi Google có thể thu thập dữ liệu trên một trang, họ sẽ không còn nhìn thấy thẻ meta phòng lập chỉ mục mà lại vẫn liên tục lập chỉ mục đến trang đó vì chưng nó bao gồm liên kết.
Nếu URL này chuẩn chỉnh hóa cho một trang khác, chớ thêm thẻ noindex meta robots. Chỉ cần bảo đảm an toàn có sẵn các tín hiệu chuẩn chỉnh hóa phù hợp, bao gồm cả thẻ Canonical bên trên trang ‘chuẩn’ và có thể chấp nhận được việc tích lũy thông tin để những tín hiệu được đi qua và hợp tuyệt nhất một cách chính xác.
2. Nếu bạn muốn URL được Google lập chỉ mục
Bạn cần mày mò về lý do tại sao nhưng Google lại không thể thu thập dữ liệu URL đó với xóa chúng.
Nguyên nhân rất có thể là vì khối thu thập thông tin vào robots.txt. Tuy nhiên, bao gồm một vài trường hòa hợp khác mà chúng ta cũng có thể thấy thông báo cho thấy thêm rằng bạn hiện nay đang bị chặn.
Hãy xem qua phần đông thứ tiếp sau đây dựa theo sản phẩm công nghệ tự mà chúng ta cũng có thể tìm kiếm chúng:
Kiểm tra khối tích lũy thông tin gồm trong robots.txtKiểm tra các khối ngắt quãngKiểm tra các khối tác nhân hậu phía bạn dùngKiểm tra những khối IPKiểm tra khối tích lũy thông tin tất cả trong robots.txt
Cách tiện lợi nhất để xem được sự việc này là sử dụng trình bình chọn robots.txt tất cả trong GSC, trình khám nghiệm này đã gắn cờ quy tắc chặn cho bạn.

Nếu như chúng ta biết được mình đang đề xuất tìm gì giỏi bạn không tồn tại quyền truy cập vào GSC, bạn có thể điều nhắm tới domain.com/robots.txt nhằm tìm tệp. Các bạn có thể đọc thêm thông tin về robots.txt qua bài viết này của thietkewebhcm.com.vn Academy. Mặc dù nhiên, bạn cũng có thể đang tra cứu kiếm một tuyên ba ‘không đến phép’ như:
Disallow: /
Ngoài ra, rất có thể có một tác hiền khô phía tín đồ dùng cụ thể đã được kể hoặc rất có thể là nó vẫn chặn toàn bộ mọi người. Giả dụ như trang web của công ty là bắt đầu hoặc mới được ra mắt gần đây, rất có thể bạn sẽ muốn tìm:
User-agent: *Disallow: /
KHÔNG TÌM THẤY SỰ CỐ NÀO? hoàn toàn có thể đã tất cả ai kia sửa khối robots.txt và giải quyết các vấn về này trước khi chúng ta xem xét vấn đề. Đây là tình huống giỏi nhất. Tuy nhiên, nếu như sự cố hình như đã được giải quyết và xử lý nhưng nó lại lộ diện ngay sau đó, thì rất hoàn toàn có thể bạn đã gặp phải lỗi các khối xa vắng (intermittent blocks).
Làm thế nào để khắc phục được điều này
Có thể, bạn sẽ muốn xóa câu lệnh disallow gây nên khối thu thập thông tin. Tuy nhiên, bí quyết mà bạn triển khai việc này sẽ tương đối khác nhau, tùy thuộc vào căn nguyên mà bạn đang sử dụng.
Nền tảng WordPressNếu như sự gắng gây ảnh hưởng tới toàn bộ trang website của bạn, thì vì sao rất rất có thể là do bạn đã vào mục Settings vào WordPress nhằm ngăn câu hỏi lập chỉ mục. Lỗi này thường xảy ra so với các trang web mới hoặc sau những lần bạn dịch chuyển trang web.
Hãy thực hiện theo công việc dưới phía trên để tự khắc phục:
Nhấp vào mục ‘Settings’Nhấp vào ‘Reading’Đảm nói rằng phần ‘Search Engine Visibility’ sẽ được bỏ chọn.
Nếu nhiều người đang sử dụng plugin Yoast SEO, chúng ta hoàn toàn hoàn toàn có thể chỉnh sửa trực tiếp tệp robots.txt để triển khai việc xóa câu lệnh chặn.
Nhấp vào ‘Yoast SEO’Nhấp vào phần ‘Công cụ’Nhấp vào ‘Trình sửa đổi tệp’WordPress cùng với Rank MathCũng tương tự như Yoast, Rank Math chất nhận được người dùng chỉnh sửa trực tiếp tệp robots.txt và tiến hành như sau:
Nhấp vào ‘Rank Math’Nhấp vào ‘Cài đặt chung’Nhấp vào ‘Chỉnh sửa robots.txt’FTP hoặc HostingNếu bạn có quyền truy vấn vào FTP của trang web, chúng ta cũng có thể chỉnh sửa tệp robots.txt một phương pháp trực tiếp để xóa tuyên cha không chất nhận được xảy ra sự cố. Nhà cung ứng dịch vụ tàng trữ của chúng ta cũng có thể cấp cho chính mình quyền truy cập vào Trình cai quản tệp, cho phép bạn truy cập trực tiếp vào tệp robots.txt.
Kiểm tra các khối ngắt quãng
Các sự thay về cách quãng có thể sẽ khó khắc phục hơn, nguyên do các điều kiện gây nên khối ngắt quãng rất có thể không cần lúc nào cũng xuất hiện.
Xem thêm: Cách Sửa Lỗi Cốc Cốc Tự Mở Tab Quảng Cáo, Cách Chặn Trang Web Tự Động Mở Trên Cốc Cốc
Điều nhưng mà tôi có thể khuyên bạn là buộc phải kiểm tra lịch sử hào hùng robots.txt của mình.
Ví dụ: trong Trình khám nghiệm robots.txt của GSC, khi chúng ta nhấp vào menu thả xuống, bạn sẽ thấy được những phiên bản trước đây của tệp và có thể nhấp vào xem chúng đang chứa hầu như gì.

Công nỗ lực Wayback Machine bên trên archive.org cũng có thể có lịch sử của các tệp robots.txt giành riêng cho những website mà chúng tích lũy thông tin. Chúng ta có thể chọn vào ngẫu nhiên ngày nào mà họ có tài liệu và xem trong tệp đó bao hàm những gì vào trong 1 ngày ví dụ đó.

Hoặc chúng ta cũng có thể sử dụng phiên phiên bản beta của ‘the Changes report’, nơi được cho phép bạn thuận tiện xem các đổi khác về mặt ngôn từ giữa nhì phiên bạn dạng khác nhau.

Quá trình xung khắc phục các khối quá trình sẽ nhờ vào vào nguyên nhân gây ra sự núm đó.
Ví dụ: Một nguyên nhân hoàn toàn có thể xảy ra là do bộ đệm được share giữa môi trường thử nghiệm và môi trường thiên nhiên thực tế. Khi cỗ đệm ẩn đi môi trường thiên nhiên thử nghiệm vào trạng thái đang hoạt động, rất rất có thể tệp robots.txt đã bao gồm cả lệnh chặn.
Và khi bộ nhớ cache từ môi trường thực tế lấn sân vào hoạt động, trang web đó có thể thu thập dữ liệu được. Ở vào trường vừa lòng này, bao gồm thể bạn có nhu cầu tách bộ lưu trữ cache hoặc loại bỏ các tệp .txt khỏi bộ lưu trữ cache trong môi trường thử nghiệm.
Kiểm tra các khối tác hiền hậu phía fan dùng
Chặn những tác hiền lành phía người dùng là lúc một website dữ thế chủ động chặn một tác nhân tín đồ dùng rõ ràng như Googlebot hoặc AhrefsBot. Nói theo cách khác, website đang phát hiện một bot cụ thể và triển khai việc chặn những tác nhân tương ứng.
Nếu bạn có thể xem một trang giỏi ở tức thì trong trình coi xét thông thường của bản thân nhưng lại bị ngăn sau khi chuyển đổi tác nhân người dùng của mình, thì điều đó tức là tác nhân người dùng ví dụ mà chúng ta nhập vào đã bị chặn.
Bạn có thể chỉ định một tác nhân người dùng ví dụ thông qua cách sử dụng Chrome devtools. Một tùy lựa chọn khác mà chúng ta cũng có thể chọn là thực hiện tiện ích không ngừng mở rộng của trình thông qua để biến đổi tác nhân fan dùng y như tùy lựa chọn này.
Ngoài ra, chúng ta cũng có thể kiểm tra những khối tác nhân người dùng bằng lệnh cURL tiếp sau đây và đó là cách triển khai (trên Windows):
Nhấn Windows + R để mở “Run”.Nhập “cmd” và sau đó nhấn “OK”.Bạn nhập một lệnh cURL như sau:curl -A “user-agent-name-here” -Lv
Thật ko may, đó là một lỗi mà việc biết được cách khắc phục sẽ dựa vào vào khu vực mà các bạn tìm thấy khối tác nhân đó. Bên trên nhiều hệ thống khác nhau có thể chặn bot, bao gồm .htaccess, cấu hình máy chủ, tường lửa, CDN hoặc thậm chí một số trong những thứ mà chúng ta có thể không search thấy được, thứ cơ mà nhà cung ứng dịch vụ lưu trữ của bạn đang kiểm soát.
Cách cực tốt mà chúng ta có thể làm là contact với nhà hỗ trợ dịch vụ tàng trữ hoặc CDN của khách hàng và hỏi chúng ta xem khối tác nhân này đến từ đâu và cách mà bạn có thể giải quyết nó.
Ví dụ: đó là hai cách khác nhau để ngăn tác nhân người dùng trong .htaccess mà bạn cũng có thể cần tìm.
RewriteEngine OnRewriteCond %HTTP_USER_AGENT Googlebot
Hoặc…
BrowserMatchNoCase “Googlebot” botsOrder Allow,DenyAllow from ALLDeny from env=bots
Kiểm tra những khối IP
Nếu chúng ta đã chứng thực được rằng mình không xẩy ra robots.txt ngăn và loại trừ các khối tác nhân fan dùng, thì rất rất có thể đó là một trong những khối IP.
Làm cầm nào nhằm khắc phục được nóCác khối IP là vấn đề khó hoàn toàn có thể theo dõi. Đối với những khối tác nhân người dùng, cách rất tốt là chúng ta có thể liên hệ cùng với nhà cung ứng dịch vụ tàng trữ hoặc CDN với hỏi họ xem khối này đến từ đâu và bạn có thể giải quyết chúng như vậy nào.
Dưới đây là một ví dụ như mà chúng ta cũng có thể đang tìm kiếm trong .htaccess:
deny from 123.123.123.123
Tóm lại
Hầu hết, lưu ý “indexed, though blocked by robots.txt” phần đa là công dụng từ một khối robots.txt. Hy vọng rằng, qua nội dung bài viết này đã khiến cho bạn biết được cách tìm và khắc phục sự vậy về lỗi “Mặc mặc dù đã chặn robots.txt tuy vậy vẫn bị lập chỉ mục”.
Nếu như có ngẫu nhiên câu hỏi thắc mắc nào, hãy để lại bình luận ở phía bên dưới cho thietkewebhcm.com.vn Academy nhé!