Терминът сайт капан се отнася за сериозен SEO проблем в структурата на сайта, който може да доведе до объркване и дори блокиране на роботите на търсещите машини и отказ от индексиране на нови публикации в сайта. Това влошава цялостното SEO състояние на сайта и може да доведе до загуба на позиции и трайно понижение на сайта в резултатите на търсещите машини, като Google.
След работа по стотици сайтове и предлагане на услугата одит на сайт, вече имаме няколко интересни случая на сайт капан, като във всеки от случаите има сериозни последствия за сайтовете и тяхното SEO представяне.
Какво е сайт капан?
Сайт капан е неволна или умишлено причинена грешка на програмист на сайта, която води до неправилна структурата на сайта, която създава безброй много страници или безброй много вложени директории, най-често с еднакво съдържание или празни. Ботовете (паяците) на търсещите машини се опитват да обходят всички паразитни URL адреси, като това води до голямо натоварване на сайта и невъзможност за обхождане на всички страници на сайта. В резултат на това най-често важни секции от сайта спират да се индексират и преиндексират от търсещите машини.
Защо точно капан?
Защото паяците на търсещите машини попадат в безкраен цикъл на обхождане на страници от сайта, от който не могат да се измъкнат и да посетят други по-важни страници от сайта.
Как се получава сайт капан?
1. Най-често става въпрос за неволна грешка в софтуера на сайта или в негов допълнително добавен модул.
1.1. Може да бъде причинен от една или повече страници, които показват линк с добавен параметър. При посещаването на този линк се показва същата страница, но същия този линк вече е добавил към URL на линка още веднъж същия параметър и това се повтаря безкраен брой пъти.
Пример: В страница www.site.com/product1 има линк, който сочи към www.site.com/prodict1/product1, което реално с същата страница, но в нея вече линка има URL адрес www.site.com/prodict1/product1/product1 и т.н.
Достатъчна е една единствена сгрешена страница за получаване на безкраен URL капан. Колкото по-високо в дървото на директориите се намира проблемната страница, толкова по-големи са SEO щетите за сайта. Причината е, че паяците на търсачките отделят определен ресурс за всеки сайт, например определен брой URL адреси са обхождане и при достигане на този ресурс прекратяват обхождането на сайта.
Имали сме случай на грешка в страница на категория, като грешката беше в сила за всички категории на сайта и това беше довело до почти пълна невъзможност за индексиране на продуктови страници на онлайн магазин. Като страничен ефект се получаваха голям брой повторения на важни страници от сайта.
1.2. Друга често срещана грешка е модул, който представлява календар на новини или събития, като всеки ден от календара има различен URL адрес и превключването на дните напред е възможно дори за дни в бъдещето, което води до безкраен брой празни страници.
2. Макар и много рядко, може да се касае за умишлена атака и извършване на Негативно SEO срещу сайта от бивш програмист, бивш SEO оптимизатор или друг злонамерен човек с достъп до файловете на сайта.
Как да проверим сайта си за сайт капан?
Проблемът е доста по-труден за откриване, отколкото за отстраняване. Няма смислени съобщения в GWT (Google Webmaster Tools). Възможно е в страница "Състояние в индекса" да има пик на броя индексирани страници, но само ако проблемът не съществува от създаването на сайта, а е бил създаден в последствие с инсталиране на модул или допълнително програмиране, при което има програмистка грешка. Много често информацията за брой индексирани страници в GWT е странна, стара и нелогична - не може да се разчита на нея.
Сайт капан може да бъде открит със специализирана програма паяк (spider или crawler) подобен на Screaming Frog SEO Spider и подробно обхождане на всички страници на сайта. При достигане на първия сайт капан в списъка с URL адреси на програмата ще се появи триъгълник подобен на този от изображението.
Разбира се сайт капан, може да бъде открит с подробно преглеждане на HTML кода на сайта, но това отнема много време.
Много важно е да се отбележи, че това което вижда вашата програма паяк и това което ще обходи паяка на Google са съвсем различни неща. Няма начин да се разбере по какъв начин Google обхожда сайта.
Ако имате проблем с индексирането на сайта и нямате програма паяк, може да поръчате одит на сайта в страница Контакти. Услугата включва множество други изследвания на сайта, които могат да попречат на доброто класиране на сайта в Google.
Съответен термин за сайт капан на английски е spider trap или crawler trap. В Ganbox въвеждаме термина сайт капан защото не обичаме да ползваме сложни чужди термини.
Прочетена:12592
Информацията е доста полезна, особено в наши дни, когато онпейдж оптимизацията е от ключова роля за класирането в търсачките. Разгледах Screaming Frog SEO Spider, за който говорите и мисля да го използвам в бъдеще. Още един полезен туул, добавен към seo пакета ми 🙂