четверг, 29 мая 2008 г.

Чистим статистику от ботов (запрет индексации TDS ботам через htaccess)

Не знаю кому как, но мне очень мешают боты Wordpress, которые с настойчивостью, достойной лучшего применения атакуют мою TDS в поисках чего-нибудь для себя интересного.

Лишние 100-200к заходов в сутки очень существенно искажают рекльную картину происходящего. И я решил бороться с этим делом самым эффективным (на мой взгляд) способом.

Запретив ботам Wordpress, да и остальным заодно, индексировать домен, на котором у меня стоит система распределения трафика (в моём случае это Sutra TDS, но данный приём эффективен для любой TDS).

Делается это при помощи файла .htaccess в корне домена.
Если у Вас на хостинге этого файла ещё нет - его можно создать. Для этого в блокноте создаём файл с именем htaccess.txt, заливаем его по FTP на хостинг и переименовываем уже на хостинге в .htaccess.

Если файл .htaccess на хостинге уже существует, просто дописываем в него вот такие строчки:

SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^php" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot
SetEnvIfNoCase User-Agent "^WordPress" search_bot
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot



Order Allow,Deny
Allow from all
Deny from env=search_bot



Всё. Теперь все боты будут отсекаться и не будут портить нашу статистику.

Мне удалось добиться таким способом совпадения статистики ушедших на спонсора и "дошедших" туда посетителей до 10 уников на 2000 переходов. А эту погрешность я списываю на несинхроность учёта посетителей (Сутра выдаёт подсчёт раз в 10 минут, а спонсор раз в 30 минут - сейчас я говорю про Рулер-Кэш).

Проверить работоспособность настроек .htaccess можно при помощи этого скрипта:

http://rapidshare.com/files/118658951/test.php.html
копия:
http://rapidshare.de/files/39560091/test.php.html
копия:
http://depositfiles.com/files/5677072

Просто заходим на свой домен "под видом" поискового бота и видим результат.
"Имена" поисковых ботов смотрим в статистике TDS.
Например:

WordPress/MU
WordPress/wordpress-mu-1.2.3-2.2.1
Snapbot/1.0 (Snap Shots, +http://www.snap.com)

и так далее.

Для того, чтобы отсечь бота, достаточно лишь части его названия.
Например, для отсечения бота Snapbot/1.0 (Snap Shots, +http://www.snap.com) нужна строка в .htaccess вида:

SetEnvIfNoCase User-Agent "^Snapbot" search_bot

для WordPress/wordpress-mu-1.2.3-2.2.1 и для WordPress/MU нужна всего 1 строка:

SetEnvIfNoCase User-Agent "^WordPress" search_bot

Дальше по аналогии, думаю, разберётесь.

Будут вопросы - пишите в комменты, или в аську 310-389-десять-семь

Материал подготовлен на основани статьи: "Запрет индексации поискоывми ботами при помощи .htaccess"

4 комментария:

Анонимный комментирует...

Спасибо, как раз то что надо.

Анонимный комментирует...

А хостинги для TDS не подскажите?

Redmonk комментирует...

Если использовать Sutra TDS и нагрузку до 15к уников в сутки, то по мощьностям достаточно будет использовать хостинг FirstVDS.
Правда, не в самом дешёвом варианте, скорее - в самом дорогом. Но всё равно, это не такая большая сумма получится.

Однако, тут есть и минус - бывали случаи, когда их VDS-ки лжали до 2-х часов. Всё это время траф теряется.

Поэтому от такого варианта я отказался и теперь использую сервер от Gibi.

Дороже, но зато это полноценный сервер, и стабильность работы его (тьфу-тьфу) до сих пор у меня нареканий не вызывает уже на протяжении нескольких месяцев.

Joseph Grut комментирует...

Здарова. Использую твою схему на своих сайтах. Возник такой вопрос. Как прописать строку SetEnvIfNoCase User-Agent , чтоб запретить индексацию тем, кто пришел вообще без юзерагента