Back to Question Center
0

Używanie pliku robots.txt do odmawiania dostępu do stron specjalnych Semalt przy użyciu dopasowywania podciągów

1 answers:

Używam Mediawiki w domenie anyurl. com / wiki / . Niefortunnie generuje pęczek generowanych automatycznie stron specjalnych , które są głównie niskiej jakości, ale mimo to są masowo skanowane przez wyszukiwarki z zapytaniami takimi jak:

/ indeks. php / Special: Whatlinkshere / some_topic lub też / indeks. php? title = Special: Whatlinkshere & target = some_topic gdzie some_topic jest artykułem wiki.

Te wnioski wydają się mieć bardzo niskie korzyści, ale zużywają dużo przepustowości , a ponadto obawiam się, że automatycznie generowane strony nie są tak dobre dla reputacji mojej strony w ocenie serchengines - a trip to south america.

Jako że żądania są wykonywane głównie przez "dobre" silniki, takie jak Google czy Bing, jestem całkowicie pewien, że będą posłuszne robotom. tekst. Tak dodałem następujące roboty. txt do folderu z bazowym url someurl. com (dodałem całe roboty. txt, chociaż tylko linie 1 i 6 są istotne dla zapytań wymienionych powyżej) :

     User-agent: *Disallow: Użytkownik:
Disallow: Dyskusja:
Disallow: MediaWiki:
Disallow: Specjalne:Disallow: / login. php
Disallow: / profile. phpDisallow: / author /
Disallow: / category /
Disallow: / tag /    

Te roboty. txt jest aktywne od około dwóch dni i zostało zindeksowane, ale wciąż istnieje wiele żądań do adresów URL, takich jak powyższy, który moim zdaniem zablokował.

Mam teraz następujące pytania:

1) jest powyższą logiką poprawną i zdolną do odmawiania dostępu (do dobrze zachowujących się botów). Szczególnie zastanawiam się, czy Disallow: Spezial: poprawnie działa jako symbol wieloznaczny, odrzucając wszystkie żądania o "Special:" w URL lub w parametrze . Zastanawiam się również, czy ":" w "Special:" może być problemem.

2) Jeśli tak, to dlaczego nie ma jeszcze efektu? Uważam, że muszę poświęcić więcej czasu, aby zobaczyć efekt?

3) Zaprzecza w robotach. txt lead do dezindeksowania tych stron z wyników wyszukiwania? Jeśli nie, to w jaki sposób mogę usunąć tę ogromną liczbę automatycznie generowanych adresów URL?

February 12, 2018
. txt odrzuć reguły są wszystkie reguły "zaczyna się od", a nie podłańcuchowe.

MediaWiki sugeruje używając tego w robotach. txt dla sprawy takiej jak Twoja:

  User-agent: *
Disallow: / index. php?
Disallow: / index. php / Help
Disallow: / index. php / MediaWiki
Disallow: / index. php / Special:
Disallow: / index. php / Template
Disallow: / skins / 

Google twierdzi , że obsługuje bardziej zaawansowaną składnię wraz z kilkoma innymi ważnymi wyszukiwarkami:

Google, Bing, Yahoo i Ask obsługują ograniczoną formę "symboli wieloznacznych" dla wartości ścieżek. Są to:

  • * oznacza 0 lub więcej wystąpień dowolnego ważnego znaku
  • $ oznacza koniec adresu URL

W przypadku tych programów klienckich można użyć reguł takich jak:

  Disallow: * Pomoc
Disallow: * MediaWiki
Disallow: * Specjalne:
Disallow: * Szablon 

Inne roboty będą po prostu ignorować te reguły, ponieważ żaden z twoich adresów URL nie zacznie się od żadnej z reguł.