Ложь, наглая ложь и статистика-2
Продолжаю хит-парад факторов, которые заставляют статистику наших сайтов безбожно лгать. В первой части Марлезонского балета я станцевал на тему природы интернет-технологии, которая не позволяет статистическим данным быть абсолютно точными.
Сегодня предлагаю перечень факторов, связанных с коренными недостатками программ и сервисов статистики, а также поведением посетителей.
Логи
Технически подкованные владельцы сайтов и блогов любят использовать записи логов для сбора статистики. Кто-то считает этот способ особо “продвинутым”, для знатоков.
Справка: Лог (log) - файл с записями в хронологическом порядке происходящих в системе событиях.
На самом деле статистика, собираемая с логов, отличается низким уровнем точности. Если вы опираетесь на записи в логах, то упускаете из виду часть активности на сайте. Почему?
1. Броузеры умеют сохранять в памяти (кэше) загруженные нами страницы. Когда мы нажимаем кнопку “Назад”, что предыдущая страничка загружается из кэша, т.к. сообразительный броузер не хочет снова тратить время на запрос этого содержания у сервера. Как следствие, сервер ничего не знает о повторной загрузке страницы, а в логах не отображается соответствующая запись.
Кстати в интернет-рекламе проблема кэширования также существует. Если посетитель вновь посмотрел рекламу на загруженной из кэша странице, то владелец ресурса не получит за этот показ ни копейки. Все по той же причине: сервер не зафиксировал показа. Если представить, сколько людей и сколько раз в день “пятиться назад”, можно оценить потери от неоплаченных показов.
Кстати, кэшируют не только броузеры. Оно может происходить по инициативе провайдера, или так может работать внутренняя корпоративная сеть.
2. На страничке могут находиться файлы в формате .swf (флэш). Также страничка может целиком представлять собой файл .swf. В большинстве случаев каждый просмотр флэш-элемента фиксируется как просмотр отдельной страницы. Если на вашем сайте много флэша, то вы найдете в логах сильно искаженные данные.
3. Регулярно наши сайты посещают роботы поисковых сервисов, и чем чаще это происходит, тем радостнее нам. В логах вы не сумеете разобрать, какие посещения сайта инициированы человеком (то, что нам нужно), а какие роботом (это не учитываем). Если ориентироваться на логи, то количество посещений сайта будет казаться большим, чем есть на самом деле. И чем чаще обновляется сайт, тем чаще его посещают роботы, тем заметнее искажение.
Роботы просматривают сайт со скоростью 1 стр. = 1 сек., что также отображается на статистике: снижается среднее время пребывания на сайте при увеличении среднего числа просмотренных страниц.
Сервисы статистики
Специализированные программы, такие как Google Analytics, собирают данные на основе просмотра страницы. Т.е. им все равно, пришла она от сервера, или загружена из кэша. По-моему мнению, установка кода сервиса статистики - один из первых шагов при запуске нового сайта. Он даст более подробные и точные сведения. Однако и здесь есть свои минусы.
1. Своя проблема с кнопкой “Назад” есть и у специализированных программ. Некоторые люди уходят с сайта, несколько раз нажав эту кнопку. Понятно, что загружаются старые страницы из кэша, и в логах такие недо-визиты не были бы засчитаны. Однако программа их не пропустит.
Если таких бросков назад будет несколько в день, то статистика покажет большее количество просмотренных страниц с меньшим количеством проведенного на них времени.
Если ваш сайт содержит многостраничную форму для заполнения, или многостраничный тест - то таких переходов туда-сюда будет много. Человек может вернуться назад, чтобы вспомнить предыдущий шаг или еще раз проверить правильность внесенных данных.
2. Поведение пользователя также влияет на статистику. Cookies известных сервисов отслеживания статистики некоторые антивирусы включают в списки шпионских программ (spyware). Если антивирус не заблокировал куки, то это сознательно может сделать сам пользователь. Также многие регулярно удаляют такие файлы. Я сам позвчера удалил 173 старых cookies.
Если вам очень важно оценить уровень повторных визитов, проблема с кукис исказит статистику. К первой части статьи Дмитрий Баканев оставил комментарий, в котором справедливо отметил, что кукис удаляют и блокируют очень немногие.
Но специалист по веб-аналитике не станет изучать среднюю температуру по больнице, а обязательно учтет целевую аудиторию сайта. Есть низкие группы риска (домохозяйки), есть высокие (IT-шники).
3. При клике на ссылку посетитель сайта может попасть на другую страницу, а может и нет. Либо он передумал, либо броузер “заглючил”, и страничка не открылась.
Проблема с “оборванным полетом” сказывается на рекламе, т.к. в таких случаях сервисы контекстной рекламы (тот же Google) снимут с вас деньги за совершенный клик. Состоялся визит или нет - в данном случае, их это не волнует. В статистике такое “посещение”, скорей всего, не будет учтено.
_________________________________
Если вам понравилась статья, подпишитесь на обновления RSS или получайте новые статьи по электронной почте.
_________________________________
Также советую прочитать другие статьи о веб-аналитике.

Рубрики: Веб-аналитика, Программы и сервисы

Ключевые слова: Google Analytics, аналитика, контекстная реклама, статистика



