Правильная ссылка на эту страницу
http://az-design.ru/Projects/WebStat/who_come.shtml

Ой, смотрите кто пришел!

       Про раскрутку сайтов в интернете сейчас не говорит только ленивый. Любой пацан предлагает за 50$ зарегистрировать Ваш сайт в 500 поисковых системах и вывести его на ПЕРВУЮ позицию в каждой из них. Сколько людей попадаются на эту удочку даже не пытаясь отделить ложь от правды.
       Итак, моменты которые должны насторожить:
       1) Исполнитель предлагает вывести сайт на первые пять позиций в поисковой системе по заданным ключевым словам. - А если таких заказчиков больше пяти? Значит остальным он соврал. Кто из заказчиков первый, а кто остальные - можно только догадываться.
       2) После многих рекламных объявлений создается впечатление, что исполнитель работает главным администратором этих поисковых систем и может творить в них что хочет.
       С другой стороны есть несколько моментов, которые при такой рекламе просто упускаются из виду.
       Если представить поисковую систему как рекламный щит на главной площади города, то по большому счету владельцу магазина все равно на каком месте в этом списке занимает его магазин. Его интересует КТО пришел в ЕГО магазин, ЧТО ему интересно (что искал), ОТКУДА он пришел и уж в последнюю очередь на каком месте в рейтинге стоит ЕГО рекламный щит. Ответ на вопрос «КТО пришел?» позвляет определить контингент покупателей, а ответ на ворос «ЧТО интересует?» - позволяет определить ассортимент товара, который следует предложит покупателю. Ответ на вопрос "ОТКУДА" – позволяет определить эффективность рекламной (или информационной) площадки. Так может оказаться, что 100 позиция в Яндексе дает больше посетителей, чем 1-я позиция в системе АПОРТ. Понятно, что зависимость между этими целями и рейтингом в поисковой системе по конкретному ключевому слову весьма косвеная.
       И наконец, далеко не факт, что потенциальный посетитель будет искать именно по тому ключевому слову, которое вы определили. И уж тем более не следует ориентироваться на счетчик, установленный на первой странице. Опыт экспуатации сайта www.az-design.ru показал, что из 96000 посещений только 2300 пришлись наглавную страницу и изменили счетчик.
       Кроме того, кто сказал что поисковые системы таковыми являются – их создатели? Большая часть т.н. "поисковых систем" на самом деле являются рекламными каталогами, которые служат для сбора электронных адресов доверчивых посетителей и после регистрации на посетителей сваливается громадное количество рекламы (спама), прекратить которую потом весьма сложно. А как это узнать?
       Отдельный вопрос — в чем измерять посещения? Многие скажут – в посетителях. Но как отделить одного посетителя от другого? Самая распространенная практика в интернете — связывать каждого посетителя с IP-адресом, с которого он пришел. Результат можно проиллюстрировать несколькими примерами:
       - поисковая система Google приходит на сайт несколькими роботами примерно с 20 компьютеров, следовательно все традиционные системы статистики отмечают этого ОДНОГО пользователя как 20. Поисковая система Яндекс использует около 30 компьютеров;
       - Один пользователь, по различным причинам, может работать через несколько провайдеров и, таким образом, иметь несколько IP-адресов;
       - Провайдет выделяет для пользователя динамический адрес, который меняется от сессии к сессии. Так, например, работа по интернет-картам МТУ-ИНТЕЛ (особенно при частых разрывах связи) один и тот же пользователь может в течении получаса получить несколько IP-адресов. В то же время другой пользователь получает в это время освободившийся адрес и традиционные системы статистики считают таких пользователей за одного. Эта реальная картина наблюдалась с помощью протоколов посещений.
       - И, наконец, когда несколько пользователей работают через один proxy-сервер, то они все имеют один и тот же IP-адрес.

       Итак, технология, которая разработана фирмой AZ Design Corp. предлагается для раскрутки сайтов основывается на следующих принципах:
       1) Получение подробной информации о том - кто, когда, откуда пришел и что искал;
       2) Анализ этой информации;
       3) Изменение контента сайта для увеличения посещаемости в заданной аудитории;
       4) Выбор метода рекламы, рекламной площадки и пр. в зависимости от результатов анализа.
       Сбор информации о посещаемости осуществляется CGI-скриптом расположенным на этом же сайте. Этим исключаются задержки связанные с проблемами на других серверах. Так например, пришлось отказаться от статистики Рамблера, т.к. для прочтения «кнопки» требовалось много больше времени, чем для прочтения содержимого самой странички. От Рамблера пришлось отказаться также и потому, что струкура информации определялась Рамблером и не было возможности что-либо изменить.
       Используемый для сбора статистики скрипт незаметен для посетителя, передает всю информацию, которая идет вместе с запросом посетителя (так называемые переменные окружения), при первой же возможности идентифицирует посетителя уникальным кодом.


       Скрипт собирает следующую информацию:
       - Дата визита,
       - Код пользователя – через файл cookies,
       - Дата первого визита – через файл cookies,
       - Дата последнего визита – через файл cookies,
       - Адрес удаленного компьютера.
       - Адрес удал. компьютера ххх.ххх.ххх.ххх,
       - Имя удаленного компьютера,
       - имя Proxy-сервера,
       - имя браузера посетителя,
       - языки поддерживаемые пользователем,
       - Программное обеспечение на сервере,
       - имя домена текущего сайта,
       - Строка запроса по GET или POST,
       - адрес страницы, откуда пришел посетитель,
       - адрес страницы, куда пришел посетитель,
       - uri страницы, куда пришел посетитель,
       - имя документа,
       - размер документа в байтах,
       - дата последнего изменения документа.
       Сразу необходимо отметить, что информация в достаточной степени обезличена, т.е. ее нельзя сопоставить с каким-либо конкретным человеком, поэтому она не представляет какой-либо угрозы для посетителя. В то же время, полный анализ позволяет получить очень интересные данные.
       Так IP-адрес удаленного компьютера сгруппированный по сетям может дать посещения по регионам (без указания региона).
       Имя удаленного компьютера часто содержит много информации о регионе и типе подключения, например, Dial-UP, xDSL и других. Таким образом можно получить статистику о типах пользователей – dial-up чаще встречается в домашних компьютерах, прямой доступ чаще встречается в офисах.
       Самое интересное – адрес страницы, откуда пришел посетитель. Дело в том, что если посетитель пришел с поисковой системы, то в месте с адресом передается строка запроса к поисковой системе. Таким образом можно узнать не только ЧТО искал посетитель, но и в какой форме он построил запрос. Проблема только в том, что строка запроса часто бывает зашифрована таким образом, что расшифровать ее удается только вручную. Но результат стоит того, сравните:

       1) в таком виде информация поступает с сайта

Insert into VizitLog(VizDate,RemoteIP,RemoteAddr,RemotePort,
RemoteHost,http_via,http_agent,http_lang,
http_host,Server_Port,http_ref,http_page,
doc_name,doc_size,doc_lmdate)
 values('1/7/2003 13:23:3',-730289406,'212.120.171.  2',1430,'171-2.dialup.permonline.ru',
'',
'Mozilla/4.0 (compatible; MSIE 5.0; Windows ME) Opera 6.01  [ru]','ru, en',
'www.az-design.ru',
'80',
'http://yandex.ru/yandpage?q=560083384&p=2&ag=h&qs=text%3D%25E1%25D2%25C9%25D3%25D4%25CF%25D4%25C5%25CC%25D8',
'http://www.az-design.ru/Projects/AZLibrCD/c9f/d9a51/c9fd9a51.shtml',
'c9fd9a51.shtml',17671,
'1/4/2003 6:27:4');
Insert into VizitLog(VizDate,RemoteIP,RemoteAddr,RemotePort,
RemoteHost,http_via,http_agent,http_lang,
http_host,Server_Port,http_ref,http_page,
doc_name,doc_size,doc_lmdate)
 values('1/7/2003 14:17:34',1360290418,' 81. 20. 98.114',1446,'dup-ip114-credit.iv.ivnet.ru',
'',
'Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Q312461)','ru',
'www.az-design.ru',
'80',
'http://www.yandex.ru/yandsearch?rpt=rad&text=%CD%C8%CA%D1+%CA%EE%EC%EF%FC%FE%F2%E5%F0%FB',
'http://www.az-design.ru/Links/GreenLst.shtml',
'GreenLst.shtml',1695,
'1/4/2003 2:51:56');
Insert into VizitLog(VizDate,RemoteIP,RemoteAddr,RemotePort,
RemoteHost,http_via,http_agent,http_lang,
http_host,Server_Port,http_ref,http_page,
doc_name,doc_size,doc_lmdate)
 values('1/7/2003 19:54:8',-1023077886,'195.  5. 18.  2',59697,'mail.dc.ukrtel.net',
'1.0 mail.dc.ukrtel.net:3128 (Squid/2.4.STABLE7)',
'Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90; (R1 1.1))','ru',
'www.az-design.ru',
'80',
'http://ie5.rambler.ru/cgi-bin/query_ie5?words=%E8%F1%F2%EE%F0%E8%FF%20%E2%EE%E7%ED%E8%EA%ED%EE
%E2%E5%ED%E8%FF%20%E1%F3%F5%E3%E0%EB%F2%E5%F0%F1%EA%EE%E3%EE%20%F3%F7%E5%F2%E0%20%E8%20%E4%E2
%EE%E9%ED%EE%E9%20%E7%E0%EF%E8%F1%E8',
'http://www.az-design.ru/Support/Accntng/1C&AzBook.shtml',
'1C&AzBook.shtml',16359,
'1/4/2003 5:55:57');

2) а в таком виде информация поступает в базу данных:

Insert into VizitLog(VizDate,RemoteIP,RemoteAddr,RemotePort,
RemoteHost,http_via,http_agent,http_lang,
http_host,Server_Port,http_ref,http_page,
doc_name,doc_size,doc_lmdate)
 values('1/7/2003 13:23:3',-730289406,'212.120.171.  2',1430,'171-2.dialup.permonline.ru',
'',
'Mozilla/4.0 (compatible; MSIE 5.0; Windows ME) Opera 6.01  [ru]','ru, en',
'www.az-design.ru',
'80',
'http://www.yandex.ru/yandpage?q=560083384&p=2&ag=h&qs=text=Аристотель',
'http://www.az-design.ru/Projects/AZLibrCD/c9f/d9a51/c9fd9a51.shtml',
'c9fd9a51.shtml',17671,
'1/4/2003 6:27:4');
Insert into VizitLog(VizDate,RemoteIP,RemoteAddr,RemotePort,
RemoteHost,http_via,http_agent,http_lang,
http_host,Server_Port,http_ref,http_page,
doc_name,doc_size,doc_lmdate)
 values('1/7/2003 14:17:34',1360290418,' 81. 20. 98.114',1446,'dup-ip114-credit.iv.ivnet.ru',
'',
'Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Q312461)','ru',
'www.az-design.ru',
'80',
'http://www.yandex.ru/yandsearch?rpt=rad&text=НИКС Компьютеры',
'http://www.az-design.ru/Links/GreenLst.shtml',
'GreenLst.shtml',1695,
'1/4/2003 2:51:56');
Insert into VizitLog(VizDate,RemoteIP,RemoteAddr,RemotePort,
RemoteHost,http_via,http_agent,http_lang,
http_host,Server_Port,http_ref,http_page,
doc_name,doc_size,doc_lmdate)
 values('1/7/2003 19:54:8',-1023077886,'195.  5. 18.  2',59697,'mail.dc.ukrtel.net',
'1.0 mail.dc.ukrtel.net:3128 (Squid/2.4.STABLE7)',
'Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90; (R1 1.1))','ru',
'www.az-design.ru',
'80',
'http://www.rambler.ru/cgi-bin/query_ie5?words=история возникновения бухгалтерского учета и двойной записи',
'http://www.az-design.ru/Support/Accntng/1C&AzBook.shtml',
'1C&AzBook.shtml',16359,
'1/4/2003 5:55:57');

       Во-вторых, инфомация собирается на сервере и при достижении заданного объема пересылаеся администратору по E-mail в формате SQL-скрипта, готового для ввода в БД. Это конечно, не позволяет наблюдать за статистикой в интерактивном режиме, но более удобна для посетителя и для анализа. Такая методика позволяет делать статистический анализ повторно, так сказать "по вновь открывшимся обстоятельствам". И, наконец, единая база данных для всех сайтов позволяет делать сравнительный анализ.
       Дополнительно CGI-скрипт собирает информацию о скачанных файлах, отправленных письмах и переходах по внешним ссылкам. Количество посещений, которое собирается в одном письме регулируется переменной маленьком файле конфигурации.
       Для анализа информации используется БД, в которой информация, полученная с некольких сайтов складывается в одну таблицу, а затем нормализуется с использованием многих таблиц и древовидных структур. Так как данные со всех изучаемых сайтов занесены в одну таблицу, то появляется возможность анализировать посещаемость с учетом сезонных, временных и региональных колебаний.
       Путь конкретной страницы на сайте хранится в той же таблице, что и URL запроса, например, с поисковой системы. Причем таблица построена в виде дерева и позволяет, например, определить эффективность той или иной поисковой системы. Для каждого URLа можно дописать тему (правда уже вручную) и после этого производить тематический анализ как поисковых запросов, так и посещаемости страниц по темам.
       И уже нормализовав информацию, можно приступать к анализу.
       Древовидные структуры позволяют сумировать информацию по ветвям дерева с заданным уровнем детализации. Таким образом можно получить посещаемость по определенным разделам сайта или темам. Если нужно направить посещение на заданную тему, то анализируются строки запроса, которые привели посетителя на эту страницу, создаются дополнительные страницы с текстом, в котором есть ключевые для посетителя слова. Очень часто посетитель задает правильное ключевое слово, но попадает не на планируемую страницу, а где-нибудь рядом. В таком случае необходимо анализивать не только текст, но и навигацию по сайту. Вообще, предлагаемая технология позволяет анализировать «глубину проникновения» пользователя в сайт от «точки попадания». Т.е. пользователь может случайно попасть на сайт из запроса в поисковой системе и заинтересовавшись, перейти на тему, далекую от темы запроса.
       Так как адреса (URL) страниц сайта и поисковых систем храняться в одной таблице, каждому адресу сопоставлена тема, то можно получать групповую статистику по темам поиска и по темам посещения, а также точность попадания поиска в тему.
       Таблица имен удаленных компьютеров содержит 3 дерева – по доменному имени, по IP-адресу и по региону. Соответственно можно получать групповую статистику по любому из трех деревьев. С учетом признака типа адреса – dial-up, aDSL, xDSL и проч. – возможно получать статистику о динамике использования интернета различными типами пользователей.

 

© 13.01.2003, Архангельский А.Г.

Оглавление
Главная страница




Дата последнего изменения:
Thursday, 21-Aug-2014 09:11:43 MSK


Постоянный адрес статьи:
http://az-design.ru/Projects/WebStat/who_come.shtml