Лишние 100-200к заходов в сутки очень существенно искажают рекльную картину происходящего. И я решил бороться с этим делом самым эффективным (на мой взгляд) способом.
Запретив ботам Wordpress, да и остальным заодно, индексировать домен, на котором у меня стоит система распределения трафика (в моём случае это Sutra TDS, но данный приём эффективен для любой TDS).
Делается это при помощи файла .htaccess в корне домена.
Если у Вас на хостинге этого файла ещё нет - его можно создать. Для этого в блокноте создаём файл с именем htaccess.txt, заливаем его по FTP на хостинг и переименовываем уже на хостинге в .htaccess.
Если файл .htaccess на хостинге уже существует, просто дописываем в него вот такие строчки:
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^php" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot
SetEnvIfNoCase User-Agent "^WordPress" search_bot
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot
Order Allow,Deny
Allow from all
Deny from env=search_bot
Всё. Теперь все боты будут отсекаться и не будут портить нашу статистику.
Мне удалось добиться таким способом совпадения статистики ушедших на спонсора и "дошедших" туда посетителей до 10 уников на 2000 переходов. А эту погрешность я списываю на несинхроность учёта посетителей (Сутра выдаёт подсчёт раз в 10 минут, а спонсор раз в 30 минут - сейчас я говорю про Рулер-Кэш).
Проверить работоспособность настроек .htaccess можно при помощи этого скрипта:
http://rapidshare.com/files/118658951/test.php.html
копия:
http://rapidshare.de/files/39560091/test.php.html
копия:
http://depositfiles.com/files/5677072
Просто заходим на свой домен "под видом" поискового бота и видим результат.
"Имена" поисковых ботов смотрим в статистике TDS.
Например:
WordPress/MU
WordPress/wordpress-mu-1.2.3-2.2.1
Snapbot/1.0 (Snap Shots, +http://www.snap.com)
и так далее.
Для того, чтобы отсечь бота, достаточно лишь части его названия.
Например, для отсечения бота Snapbot/1.0 (Snap Shots, +http://www.snap.com) нужна строка в .htaccess вида:
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
для WordPress/wordpress-mu-1.2.3-2.2.1 и для WordPress/MU нужна всего 1 строка:
SetEnvIfNoCase User-Agent "^WordPress" search_bot
Дальше по аналогии, думаю, разберётесь.
Будут вопросы - пишите в комменты, или в аську 310-389-десять-семь
Материал подготовлен на основани статьи: "Запрет индексации поискоывми ботами при помощи .htaccess"
4 комментария:
Спасибо, как раз то что надо.
А хостинги для TDS не подскажите?
Если использовать Sutra TDS и нагрузку до 15к уников в сутки, то по мощьностям достаточно будет использовать хостинг FirstVDS.
Правда, не в самом дешёвом варианте, скорее - в самом дорогом. Но всё равно, это не такая большая сумма получится.
Однако, тут есть и минус - бывали случаи, когда их VDS-ки лжали до 2-х часов. Всё это время траф теряется.
Поэтому от такого варианта я отказался и теперь использую сервер от Gibi.
Дороже, но зато это полноценный сервер, и стабильность работы его (тьфу-тьфу) до сих пор у меня нареканий не вызывает уже на протяжении нескольких месяцев.
Здарова. Использую твою схему на своих сайтах. Возник такой вопрос. Как прописать строку SetEnvIfNoCase User-Agent , чтоб запретить индексацию тем, кто пришел вообще без юзерагента
Отправить комментарий