четверг, 29 мая 2008 г.

Чистим статистику от ботов (запрет индексации TDS ботам через htaccess)

Не знаю кому как, но мне очень мешают боты Wordpress, которые с настойчивостью, достойной лучшего применения атакуют мою TDS в поисках чего-нибудь для себя интересного.

Лишние 100-200к заходов в сутки очень существенно искажают рекльную картину происходящего. И я решил бороться с этим делом самым эффективным (на мой взгляд) способом.

Запретив ботам Wordpress, да и остальным заодно, индексировать домен, на котором у меня стоит система распределения трафика (в моём случае это Sutra TDS, но данный приём эффективен для любой TDS).

Делается это при помощи файла .htaccess в корне домена.
Если у Вас на хостинге этого файла ещё нет - его можно создать. Для этого в блокноте создаём файл с именем htaccess.txt, заливаем его по FTP на хостинг и переименовываем уже на хостинге в .htaccess.

Если файл .htaccess на хостинге уже существует, просто дописываем в него вот такие строчки:

SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^php" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot
SetEnvIfNoCase User-Agent "^WordPress" search_bot
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot



Order Allow,Deny
Allow from all
Deny from env=search_bot



Всё. Теперь все боты будут отсекаться и не будут портить нашу статистику.

Мне удалось добиться таким способом совпадения статистики ушедших на спонсора и "дошедших" туда посетителей до 10 уников на 2000 переходов. А эту погрешность я списываю на несинхроность учёта посетителей (Сутра выдаёт подсчёт раз в 10 минут, а спонсор раз в 30 минут - сейчас я говорю про Рулер-Кэш).

Проверить работоспособность настроек .htaccess можно при помощи этого скрипта:

http://rapidshare.com/files/118658951/test.php.html
копия:
http://rapidshare.de/files/39560091/test.php.html
копия:
http://depositfiles.com/files/5677072

Просто заходим на свой домен "под видом" поискового бота и видим результат.
"Имена" поисковых ботов смотрим в статистике TDS.
Например:

WordPress/MU
WordPress/wordpress-mu-1.2.3-2.2.1
Snapbot/1.0 (Snap Shots, +http://www.snap.com)

и так далее.

Для того, чтобы отсечь бота, достаточно лишь части его названия.
Например, для отсечения бота Snapbot/1.0 (Snap Shots, +http://www.snap.com) нужна строка в .htaccess вида:

SetEnvIfNoCase User-Agent "^Snapbot" search_bot

для WordPress/wordpress-mu-1.2.3-2.2.1 и для WordPress/MU нужна всего 1 строка:

SetEnvIfNoCase User-Agent "^WordPress" search_bot

Дальше по аналогии, думаю, разберётесь.

Будут вопросы - пишите в комменты, или в аську 310-389-десять-семь

Материал подготовлен на основани статьи: "Запрет индексации поискоывми ботами при помощи .htaccess"

пятница, 23 мая 2008 г.

Dogma платит!

Для тех кто ещё сомневался - Догма платит. Сегодня пришли выплаты за период 1-16 мая.

Инвайтов у меня нет. Просите тут: http://gofuckbiz.com/showthread.php?p=31750#post31750