Пойди туда - не знаю куда, найди то - не знаю что или Поиск в Интернет – это очень просто!

Статья опубликована в газете
"Планета Бухгалтера" №17, Январь 2003 года

"Нам не дано предугадать,
Как слово наше отзовется..."
Ф. Тютчев

Интернет – всемирная компьютерная сеть, содержащая огромное количество информации. Точные данные об объеме всей информации, содержащейся в Интернет, получить практически не возможно, по крайней мере по двум причинам.

Во-первых, Интернет это сверхдинамичная структура. Для того, чтобы представить как изменяется Интернет, представьте себе очень большое дерево, на котором постоянно появляются и отмирают новые ветки и листы.

Так же и Интернет имеет определенные принципы организации структуры, позволяющие хоть как-то упорядочить выкладываемую, пересылаемую, принимаемую и воспринимаемую информацию. В соответствии с этими принципами построения постоянно появляются и исчезают новые сайты, страницы, порталы, системы, всевозможные каталоги и базы данных.

Во-вторых, Интернет, в полном смысле этого термина – это совсем не то, что Вы привыкли считать Интернетом. То, что вкладывается в это понятие на обывательском, пользовательском уровне – то есть некая совокупность сайтов плюс электронная почта, о которой вы слышите если не дома, то на работе – это лишь небольшая и наиболее доступная, а потому и наиболее распространенная часть Интернета, а именно – Всемирная Паутина (World Wide Web, сокращенно - WWW).

Что же послужило основной причиной к созданию Интернета? Давайте сделаем небольшой экскурс в историю рождения Всемирной компьютерной сети. В конце 60-х годов ХХ века, после напряженного Карибского кризиса, военными и учеными США было принято решение о создании децентрализованной компьютерной сети, включавшей в себя компьютеры военных, исследовательских и образовательных учреждений. Структура этой сети, получившей впоследствии название ARPANET, позволяла сохранить связь и обмен данными между сегментами структуры, даже если в случае ядерного удара, некоторые из составляющих сети выйдут из строя.

Долгое время сеть служила для координации действий и скоростного обмена данными научных исследований. В последствии люди, помимо научной информации, все чаще и чаще стали обмениваться не только размышлениями на отвлеченные темы, но и сообщениями о личной жизни.

Около 20 лет сеть не имела широкого пользовательского распространения, оставаясь привилегией ученых и военных разных стран, однако это не помешало ее быстрому росту. Появлялись и подключались сети Европы, Японии, Великобритании. Отправной точкой все нарастающей экспансии Интернет, (а также и Всемирной Паутины) можно считать 1993 год, когда была выпущена первая работающая программа для просмотра web-страниц – браузер (от англ. browser) – Mosaic.

Далее развитие Всемирной Паутины происходило невероятными темпами, все больше и больше компьютеров присоединялось, к 1995 году их было уже около 6.5 миллионов, большая часть из которых находилась в США. В Россию Интернет и Всемирная паутина добрались к началу 90-х годов. Бурный рост и развитие начались в 95-96 годах, когда появилась получившая широкое распространение операционная система Windows 95, с встроенным браузером Internet Explorer. Компьютерная техника становилась все более доступной, появлялись новые провайдеры (компании, предоставляющие доступ в сеть не только фирмам и компаниям, но и частным лицам), все больше людей приходили в сеть для того, чтобы найти и получить или выложить определенную информацию.

Стоит отметить, что появлению Всемирной Паутины способствовало не только широкое распространение программ для просмотра страниц сайтов, но и сама простота структуры построения WWW.

Что представляет собой Всемирная Паутина? Если рассуждать, не вдаваясь в технические термины, сеть – это совокупность текстовых документов определенных форматов (самый распространенный и простой из них – html или htm), написанных на языке гиперразметки HTML (HyperText Markup Language), связанных между собой ссылками. Ссылка - связующий элемент между двумя документами, которые физически могут находиться на разных континентах, но быть объединенными логически. Ссылка – это указатель, текст или картинка, как правило, содержащие название документа который можно увидеть или прочесть, просто перейдя по ссылке. Для этого действия, как правило, требуется всего один щелчок клавиши мыши. Наводите курсор на ссылку, (стрелочка курсора обычно становится рукой с вытянутым указательным пальцем), щелкаете, и через пару секунд вы будете наслаждаться нужным вам текстом или картинкой.

Ссылка за ссылкой, страница за страницей, сайт за сайтом… Одна страница указывает на другую, а та, другая, еще на пять, не менее интересных, а те пять еще на десять совсем удивительных. А одна из тех десяти помимо пятнадцати новых страниц, указывает на ту первую, с которой вы начали свое путешествие или сёрфинг. Одна, две, пять, десять, пятнадцать связанных страниц – и так до бесконечности – получается та самая Паутина, в которой вы уже оказались. С развитием Интернет все острее вставала проблема поиска нужной информации. Хорошо, если вы знаете адрес нужного сервера, а что если вам нужна какая-то определенная информация, не присутствующая ни на одном из известных вам серверов? В этом случае на помощь приходят поисковые системы и каталоги, которые в той или иной степени систематизируют информацию о сайтах по тематическим разделам (каталоги) или выдают списки серверов в соответствии с запросом пользователя (поисковые системы). Однако даже самая мощная и развитая поисковая система иногда не способна справиться с тем объемом постоянно изменяющейся информации. Ведь объем только русской части Паутины – Рунета* превышает 1 Тб (2 40 байт*) информации*.

Как же поисковая система работает с такими практически невообразимыми объемами информации? Как осуществляется поиск информации? Обо всем этом, а также о некоторых способах достижения успешного результата при поиске во Всемирной Паутине и пойдет речь далее.

В российской части Паутины в данный момент наибольшей популярностью пользуются три поисковых системы: Яndex, Rambler, Aport. К ним стремительно приближается по количеству посетителей русский вариант западной поисковой системы - Google. По объему используемой информации Google давно перегнал своих русских собратьев, так как при поиске использует базу не только русскоязычных, но и европейских и американских сайтов.

Русские поисковые системы появились примерно в одно и то же время, в 96-97 годах прошлого века. К ним сразу было обращено большое внимание пользователей, так как именно поисковые системы или поисковики, являются связующим звеном между пользователем и тем огромным количеством информации, которая размещена во Всемирной Сети. Как же происходит само взаимодействие поисковика, сайта и пользователя?

Каждый сайт в сети имеет определенный адрес или URL (Uniform Resorce Locator – универсальный указатель ресурса), который определяет не только название сервера, но и географическое расположение сервера, а также может указывать на его принадлежность к коммерческой или образовательной структуре. Например, для русских серверов это в основном обозначение ru. Если сайт относится к коммерческим или образовательным структурам он может зарегистрировать адрес или доменное имя в зонах com или edu. Владелец сайта может зарегистрировать себе любое доменный адрес и получить любой URL, единственным ограничением может служить только то обстоятельство, что данный адрес уже занят кем-то другим.

Каждая поисковая система обладает определенной программой – так называемым роботом или пауком, основным назначением которого является обход сайтов и сбор информации о них. Каждый такой робот имеет собственную базу ссылок, по которым он ходит круглосуточно, круглогодично, в любое время года и при любой погоде. Робот приходит на сайт по ссылке из базы, собирает тексты страниц, сжимает их определенным образом, оставляя только полезную с точки зрения его разработчиков информацию и, если находит ссылку, которую он «не знает», заносит ее к себе в базу и при первой же возможности посещает ее. Этот процесс посещения сайта роботом называется индексацией, а тот объем информации, который робот собирает и систематизирует называется индексом. Повторный процесс прохода робота по сайту называется реиндексацией.

Реиндексация сайта может происходить как раз в неделю, так и раз в полгода, в зависимости от того, как часто обновляется информация на сайте, посещаемом роботом. Так как каждая поисковая система стремится предоставлять своим пользователям самую свежую информацию, то и свое «расписание» робот строит таким образом, чтобы постоянно обновляемые сайты посещать как можно чаще. Например, сайты новостных Интернет-агентств индексируются каждые 15 минут. Так как все сайты в той или иной степени связаны друг с другом, то и роботы поисковых систем достаточно быстро обходят по ссылкам практически весь Интернет. Однако, очень часто, поисковые системы накладывают определенные ограничения на индексирование сайтов. Например, робот поисковой системы Яndex старается не посещать сайты, на которых присутствует только англоязычный текст.

Как же пользователь, обращаясь к услугам поисковой системы, находит именно то, что ищет? Пользователь задает определенный запрос по интересующей его теме, система обрабатывает запрос, сравнивает полученную информацию с имеющейся в базе индекса поисковика и выдает некоторое количество серверов, в той или иной степени соответствующих или релевантных запросу. Степень релевантности поисковик определяет сам по некой формуле, которая является философским камнем всех создателей сайтов, больших и малых. Кто же не желает, чтобы на его сайт приходили посетители? Да не просто посетители, а те, кто действительно заинтересован в расположенной на сервере информации. Учитывая посещаемость поисковых систем (около 170 тысяч посетителей в день, то есть около 5 миллионов посетителей в месяц), можно надеяться, что и к Вам на сайт зайдут именно те посетители, которые не только найдут нужною информацию, а если это коммерческий сайт компании, то и купят что-либо.

Именно тот факт, что поисковые системы приводят наибольшее количество посетителей на сайт, послужило хорошей почвой для появления, бурного роста и развития разного рода недобросовестных создателей сайтов, которые, действуя различными методами, пытаются вывести свои сайты на первые позиции по самым популярным запросам. Однако, создатели и разработчики поисковых систем тоже не дремлют и создают все новые способы выявления таких сайтов. Если нарушитель спокойствия оказывается «злостным», то его сайт могут навсегда исключить из базы поискового робота.

К сожалению, действия разработчиков поисковых систем не всегда поспевают за развитием мысли упорствующих «раскрутчиков» и немалое количество сайтов попадает в список релевантных совсем незаслуженно. Но не стоит думать, что все люди, занимающиеся информационным сопровождением сайтов или «раскруткой», используют все средства без разбора. Есть и вполне честные, «законные» с точки зрения поисковика способы привлечения посетителей на сайт. Имея некоторый опыт в данной области (автор является менеджером по информационному сопровождению сайтов в компании «Адвайзер»), можно сказать, что честная раскрутка – это тяжелый аналитический труд. Иногда действия поисковых систем бывают настолько парадоксальны, что порой хочется ответить на все вопросы клиентов отрицательно, печально покачивая головой. К счастью, такие ситуации случаются все реже и реже. Как найти интересующую Вас информацию, не попав при этом в расставленные сети обмана? Можно лишь посоветовать быть внимательнее и придерживаться некоторых принципов, о которых пойдет речь дальше. Определитесь что конкретно вы хотите найти? Вас интересует какое то общее описание или четкие сведения? Вам нужно все и сразу или есть смысл понемногу воспринимать информацию? Короче говоря, если вам нужны сведения о битве под Сталинградом, не стоит искать «историю Великой Отечественной войны».

Пофилософствуйте. Задумайтесь над тем, как именно может обозначаться необходимое вам понятие. Попробуйте выбрать не самый распространенный синоним слова. Задумайтесь, а как мог использовать в тексте это слово человек, который написал текст сайта? Проще говоря, если вы зададите в качестве запроса «я хочу купить машину, белую, красивую», вы вряд ли добьетесь успеха. А вот если вы спросите о таком понятии как «продажа автомобилей», то вам наверняка выдадут список ссылок дистрибьютеров известнейших автофирм.

Будьте конкретны. Если вы ищете что-то совсем конкретное, например описание модема US Robotics Sportster 33.6, то в запросе обязательно укажите нужную вам модель, иначе вы долго будете копаться в описаниях всех Robotic’ов, которые существуют или существовали в продаже.

Задавайте свой вопрос на обычном русском языке. Это величайшее достижение русских поисковых систем – использование живого русского языка в качестве опорного языка запросов. Со значимостью такого достижения может сравниться лишь достижения китайских или японских поисковых систем. Современные поисковые системы «обучены» не только грамматике русского языка (при неправильном грамматическом написании слова «инжИнер» система вежливо поинтересуется, не «инжЕнера» ли вы имели в виду), но и словоформам нашего сложнейшего языка*. Проще говоря, для поисковика «идти» и «шел» - это одно и то же слово. Однако, несмотря на это обстоятельство, использование именительного падежа для существительных желательно – это упростит поиск. Так как в заголовках текста обычно ставится именительный падеж, а заголовки обычно характеризуют весь текст полностью. Именно на них поисковая система обращает внимание в первую очередь.

Наберитесь терпения. Поиск во Всемирной паутине – это искусство, которым можно овладеть, лишь постоянно обретая опыт общения с Сетью. Недаром лозунг одной из поисковых систем гласит: «Найдется все. Со временем». Ищите! Да улыбнется вам счастье!

* - Рунет – условное обозначение «русской части» Всемирной Паутины, в которую входят сайты размещенные в доменных зонах не только России, но и СНГ
* - 1 байт условно приравнивается одному символу текста, в данном случае это допустимо, так как поисковые системы работаю исключительно с текстами
* - по данным поисковой системы Яndex, на 5 марта 2002 года
* - это утверждение не относится к русскоязычной части поисковой системы Google, для этого поисковика “идти” и “шел” – абсолютно разные слова

Александрова Ольга
менеджер по информационному
сопровождению сайтов,
компания «Адвайзер»

наверх