Технологии поиска профессиональной информации в сети интернет. Что искать в Интернете? Как правильно искать информацию в Интернете. Источники специализированной информации

16.Поиск информации в интернете

Информация, размещенная во Всемирной сети, исчисляется огромным количеством байт. Для поиска информации во Всемирной сети используются специальные веб-сайты – информационно-поисковые системы. Они позволяют по ключевым словам найти информационные ресурсы, связанные с ключевыми словами. Это может быть текст, содержащий ключевые слова, или графическое изображение одного из ключевых слов. Примерами информационно-поисковых систем являются системы Google и Yandex.

Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета.

Существуют три основных способа поиска информации в Интернет:

1. Указание адреса страницы.

3. Обращение к поисковой системе (поисковому серверу).

Способ 1: Указание адреса страницы

Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа или сайта, где расположен документ.

Не стоит забывать возможность поиска по открытой в окне браузера web-странице (Правка-Найти на этой странице…).

Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу.

Способ 3: Обращение к поисковой системе

Пользуясь гипертекстовыми ссылками, можно бесконечно долго путешествовать в информационном пространстве Сети, переходя от одной web-страницы к другой, но если учесть, что в мире созданы многие миллионы web-страниц, то найти на них нужную информацию таким способом вряд ли удастся.

На помощь приходят специальные поисковые системы (ихеще называют поисковыми машинами). Адреса поисковых серверов хорошо известны всем, кто работает в Интернете. В настоящее время в русскоязычной части Интернет популярны следующие поисковые серверы:Яндекс (yandex.ru), Google (google.ru) и Rambler (rambler.ru

Поисковая система - веб-сайт, предоставляющий возможность поиска информации в Интернете.

Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

По принципу действия поисковые системы делятся на два типа: поисковые каталоги и поисковые индексы.

Поисковые каталоги служат для тематического поиска.

Информация на этих серверах структурирована по темам и подтемам. Имея намерение осветить какую-то узкую тему, нетрудно найти список web-страниц, ей посвященных.

Катало́г ресурсов в Интернете или каталог интернет-ресурсов или просто интернет-каталог - структурированный набор ссылок на сайты с кратким их описанием.

Поисковые индексы работают как алфавитные указатели. Клиент задает слово или группу слов, характеризующих его область поиска, - и получает список ссылок на web-страницы, содержащие указанные термины.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, разработанный Мэтью Грэйем из Массачусетского технологического института в 1993.

Как работает поисковой индекс?

Поисковые индексы автоматически, при помощи специальных программ(веб-пауков), сканируют страницы Интернета и индексируют их, то есть заносят в свою огромную базу данных.

Поисковый робот («веб-паук») - программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них (ключевые слова) в базу поисковика. По своей сути паук больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит и отправляется по ссылкам на следующие страницы.

В ответ на запрос, где найти нужную информацию, поисковый сервер возвращает список гиперссылок, ведущих web-страницам, на которых нужная информация имеется или упоминается. Обширность списка может быть любой, в зависимости от содержания запроса.

http://www.yandex.ru/

Яндекс - российская система поиска в Сети. Сайт компании, Yandex.ru, был открыт 23 сентября 1997 года. Головной офис компании находится в Москве. У компании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе и Киеве. Количество сотрудников превышает 700 человек.

Слово «Яндекс» (состоящее из буквы «Я» и части слова index; обыгран тот факт, что русское местоимение «Я» соответствует английскому «I») придумал Илья Сегалович, один из основателей Яндекса, в настоящий момент занимающий должность технического директора компании.

Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, румынском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов.

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам.

http://www.google.ru/

Лидер поисковых машин Интернета, Google занимает более 70 % мирового рынка. Cейчас регистрирует ежедневно около 50 млн поисковых запросов и индексирует более 8 млрд веб-страниц. Google может находить информацию на 115 языках.

По одной из версий, Google - искажённое написание английского слова googol. «Googol (гугол)» – это математический термин, обозначающий единицу со 100 нулями. Этот термин был придуман Милтоном Сироттой, племянником американского математика Эдварда Каснера, и впервые описан в книге Каснера и Джеймса Ньюмена «Математика и воображение»(Mathematics and the Imagination). Использование этого термина компанией Google отражает задачу организовать огромные объемы информации в Интернете.

Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.

http://www.rambler.ru/

Rambler Media Group - интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный портал.

Rambler создан в 1996 году.

Поисковая система Рамблер понимает и различает слова русского, английского и украинского языков. По умолчанию поиск ведётся по всем формам слова.

Переход к информационному обществу XXI века породил беспрецедентный рост объемов и концентрации информации в глобальных компьютерных сетях. Это резко обострило проблему создания информационно-поисковых систем (ИПС) и их эффективного использования.

История автоматизированных информационно-поисковых систем исчисляется полувеком. Типичная ИПС первых лет - это человеко-машинная система, где анализ и описание содержания документов (индексирование) выполняется вручную, а поиски проводятся машиной. Первоначально основу ИПС составляли информационно-поисковые языки (ИПЯ), основным элементом которых являются дескрипторные словари и тезаурусы. Сегодня, однако, большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, когда индексационные термины выбираются непосредственно из текстов документов. Лавинообразный рост объемов электронной документальной информации, ее видовое, тематическое и языковое разнообразие являются как причиной кризиса современного информационного поиска, так и стимулом его совершенствования.

Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и програм­мные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.

Если попытаться дать классификацию ИПС сети Интернет, то можно выделить следующие основные типы:

1. ИПС вербального типа (поисковые системы – search engines)

2. Классификационные ИПС (каталоги – directories)

3. Электронные справочники («желтые» страницы и т.п.)

4. Специализированные ИПС по отдельным видам ресурсов

5. Интеллектуальные агенты.

Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.

Классификационные ИПС реализуют навигацию в веб-пространстве на основе специальных указателей, представляющих собой тематические «деревья», строящиеся на основе классификаций.

Для решения проблемы максимального охвата ресурсов Интернета создаются системы, называемые метапоисковыми (metasearch engines).

Основным средством поиска информации в сети сегодня следует считать глобальные ИПС вербального типа , индексирующие (по крайней мере, претендующие на это) все Интернет-пространство. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport). Как правило, системы с бóльшим объемом базы дают в результате поиска и большее количество документов. Большая, как лингвистическая, так и программная проблема - многоязычие информационного пространства Интернета и многообразие форматов представления данных.



Особенность современных систем - полнотекстовый поиск. Многие вербальные ИПС сети Интернет вычисляют релевантность документов запросам путем сопоставления элементов запроса с полными текстами документов, размещенных в сети. Что касается информационно-поискового языка, то, как правило, в качестве поисковых элементов выступают обычные слова естественных языков. Запросы формулируются через специальный интерфейс, реализуемый в виде экранных форм в программах-броузерах.

В составе любой поисковой системы можно выделить три основные части.

Робот - подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети.

Поисковая база данных - так называемый индекс - специальным образом организованная база (англ. index database), включающая, прежде всего, инвертированный файл, который состоит из лексических единиц, взятых из проиндексированных веб-документов, и содержит разнообразную информацию о них (в частности, их позиции в документах), а также о самих документах и сайтах в целом.

Поисковая система - подсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. Поисковая система общается с пользователем через пользовательские интерфейсы - экранные формы программ-броузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска.

Важным компонентом современных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь общается с поисковой системой. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

Интерфейс выдачи (форма представления результатов) у разных систем включает такие параметры: статистика слов из запроса, количество найденных документов, количество сайтов, средства управления сортировкой документов в выдаче, краткое описание документов и др. Описание каждого документа, в свою очередь, может содержать в своем составе: заглавие документа, URL (адрес в сети), объем документа, дату создания, название кодировки, аннотацию, шрифтовое выделение в аннотации слов из запроса, указание на другие релевантные веб-страницы того же сайта, ссылка на рубрику каталога, к которой относится найденный документ или сайт, коэффициент релевантности, другие возможности поиска (поиск похожих документов, поиск в найденном).

Вопросы для самоконтроля:

  1. Что собой представляют ИПС?
  2. Какова классификация ИПС?
  3. Что собой представляет документальная ИПС?
  4. Что собой представляет фактографическая ИПС?
  5. Из каких частей состоит ИПС?
  6. Какие обеспечивающие подсистемы ИПС имеются?
  7. Основные понятия информационного поиска.
  8. Что собой представляют информационно-поисковые языки?
  9. Какова классификация ИПС в Интернете?
  10. Основные части любой ИПС.

Найти нужную информацию в Интернете зачастую довольно трудно. Интернет развивается хаотично, в нем нет четко выделенной структуры. Никто не может гарантировать, что на одном домене будет только информация определенной тематики, а на другом - информация другой, но тоже четко определенной тематики. Например, на доменах.com можно найти не только коммерческую информацию, а, например, различную документацию по программным продуктам или даже анекдоты.

Если бы доменная структура была бы похожа на структуру каталога, например, в домене ru.comp.os.linux (как в системе новостей) была бы вся информация об операционной системе Linux на русском языке и какая-то организация-модератор следила, чтобы в других доменах не выкладывалась информация о Linux, то тогда поиск был бы значительно проще. Ведь мы бы знали, где искать. Открываешь браузер, вводишь ru.comp.os.linux и получаешь... миллионы различных ссылок на статьи, HOWTO-документы и прочую информацию, так или иначе связанную с Linux.

Эффективность поиска

    Эффективность поиска зависит от многих факторов:
  • От самой информации - по одной теме информации может быть много, по другой - мало. Иногда можно найти много информации по заданной теме, но коэффициент полезного действия этого поиска окажется близким к 0,0%, а можно найти всего 3-4 ссылки, и это будет как раз то, что нужно. Сюда же относится умение веб-мастера правильно подать информацию, чтобы ее могли найти сами поисковые машины Предположим, где-то очень далеко есть нужная вам информация, но поисковая машина о ней ничего не знает. Возможно, информация была только что опубликована или просто веб-мастер, опубликовавший информацию, даже и не подозревает о существовании поисковых машин. Вы-то ищите информацию с помощью поисковой машины. Если она не "знает" нужную вам информацию, то, следовательно, и вы о ней ничего не узнаете.
  • От поисковой машины - поисковых машин много и все они разные. Даже если они относятся к одному типу (о типах поисковых машин мы поговорим чуть позже), несомненно, у каждой из них будет свой алгоритм. Если вы не нашли информацию с помощью одной поисковой машины, попробуйте поискать ее с помощью другой. Не зацикливайтесь на одной поисковой машине, как бы она вам ни нравилась.
  • От умения использовать поисковую машину - от того, как вы умеете использовать поисковую машину, зависит очень многое. Если вы не знаете, как использовать поисковую машину, вряд ли поиск будет эффективным.

Как правильно искать информацию

Поскольку чаще всего вы не выбираете нужный вам сайт из каталога поисковой машины, а вводите определенное ключевое слово (или несколько ключевых слов), то вам нужно максимально конкретно задать это самое ключевое слово. Чем точнее вы определите предмет поиска, тем точнее будет результат. Поисковая машина ведь не может угадать ваши мысли, нужно четко указать ей, что вы ищите.

У каждой поисковой машины есть свой синтаксис, который необходимо знать. В этой главе будет описан синтаксис поисковых машин Google, Yandex и Rambler. Если вы хотите использовать другую поисковую машину, то ее синтаксис вы сможете узнать на ее же сайте (обычно он подробно описан).

Поисковые системы интернета

А теперь поговорим о самих поисковых системах.

На территории бывшего СНГ наиболее популярными являются следующие поисковые системы, по данным SpyLog (Openstat) :

  • 1. Яндекс (www.yandex.ru );
  • 2. Google (www.google.com );
  • 3. Поиск@Mail.ru (go.mail.ru );
  • 3. Рамблер (www.rambler.ru );
  • 5. Yahoo! (www.yahoo.com );
  • 6. AltaVista (www.altavista.com );
  • 7. Bing (www.bing.com ).

Поисковые системы указаны в порядке "убывания популярности". Как видите, самой популярной у нас является поисковая машина Яндекс.

Типы поисковых систем

    Существуют два основных типа поисковых систем:
  • индексные - Google, AltaVista, Rambler, HotBot, Яндекс и др.;
  • классификационные (каталоговые) - Rambler, Yahoo! и др.

Не удивляйтесь, что поисковая система Rambler указана дважды - она одновременно являлася и индексной, и классификационной. К этому мы еще вернемся, а пока поговорим об отличиях этих двух систем.

Как работает индексная поисковая система? Поисковая система запускает специальную программу, которая просматривает содержимое веб-серверов, индексируя информацию: она заносит в свою базу данных ключевые слова той или иной веб-страницы, некоторую информацию из веб-страницы.

Краткая история Google

Начнем с названия. Google - это немного видоизмененный вариант слова googol (не зря ее часто называют "гуглом"). В свою очередь это слово было введено Милтоном Сиротой, племянником известного математика Эдварда Каснера, а потом было популяризировано в книге Каснера и Ньюмана "Математика и воображение". Слово "googol" отображает число одной единицей и 100 нулями. Название "Google" отображает попытку организовать огромное количество информации в Сети.

Итак, начнем с самого начала. Будущие разработчики Google Сергей Брин (Sergey Brin) и Лэрри Пейдж (Larry Page) познакомились в 1999 году в Станфордском университете. Тогда Лэрри было 24 года, а Сергею - 23. Лэрри в то время был студентом Мичиганского университета и на несколько дней приехал в Станфорд. Сергей был в группе студентов, которая должна была ознакомить гостей с университетом. С первой встречи Сергей и Лэрри, мягко говоря, недолюбливали друг друга - они спорили относительно всего, о чем можно было спорить. Хотя в итоге это и оказалось положительным моментом, поскольку их разные мнения привели к созданию алгоритма для решения одной из самых актуальных компьютерных задач: поиск нужной информации среди огромного массива данных. С января 1996 года Лэрри и Сергей начинают работу над поисковой машиной BackRub, которая должна была анализировать "обратные" ссылки, указывающие на данный веб-сайт. Работы над этим сервером велись в постоянной нехватке средств - ведь в то время Сергей и Лэрри были аспирантами университета - сами понимаете, что средств у аспирантов не очень много. Кстати, Лэрри впервые принимал участие в столь серьезном проекте, а до этого он занимался всякими "несерьезными", даже порой анекдотическими проектами, например, он построил работающий принтер из конструктора Lego.

Поисковые алгоритмы Google

Интерфейс Google поражает своей простотой: поле для ввода и две кнопки. Как говорится, все гениальное просто.

Специальный (расширенный) синтаксис Google

В дополнение к логическим операторам Google предоставляет вам модификаторы поиска, перечисленные в таблице. Модификаторы поиска называются специальным синтаксисом Google. Отнеситесь к этой таблице со всей серьезностью: попробовав однажды поискать что-нибудь с использованием модификаторов, вы уже не откажетесь от них.

Модификатор inurl в Google

Модификатор inurl используется для поиска по указанному URL. И отличие от модификатора site, который позволяет искать информацию только на одном сайте или домене, модификатор inurl позволяет искать информацию в подкаталогах сайта, например:

inurl: сайтskype-zvonim-besplatno

Модификатор inurl позволяет использовать символ * для указания домена, например:
inurl: "*.redhat.com"

Эффективнее всего использовать inurl в паре с site. Следующий запрос будет искать информацию в домене gidmir.ru, на всех его поддоменах, кроме www:
site: gidmir.ru inurl: "*.gidmir" -inurl: "www.gidmir.ru"

Язык поисковых запросов Google

Google позволяет использовать смешанный синтаксис, т.е. такой синтаксис, в запросе которого используются несколько специальных модификаторов поиска. Это позволяет достичь наилучшего результата.

Вот самый просто пример смешанного синтаксиса:
site: ru inurl: disc

В данном случае поиск будет произведен на сайтах домена, a URL должен содержать слово disc.

Вот еще один пример:
site: ru -inurl: оrg.ua

Поиск будет произведен на сайтах домена ru, но в результатах поиска будут отсутствовать страницы, расположенные на org.ua.

Поисковые запросы в Google

Для большинства рядовых пользователей Google лимит в 10 ключевых не заметен. Но любители длинных запросов, наверное, заметили, что Google принимает во внимание только первые 10 ключевых слов, а все остальные просто игнорируются.

Зачем нужно искать длинные фразы? В большинстве случаев - это отрывки произведений. Предположим, что мы ищем произведение "Мастер и Маргарита". Нужно отметить, что ключевая фраза должна выглядеть как "Мастер Маргарита", поскольку слова и, или, and, of, or, I, a, the и некоторые другие игнорируются поисковой машиной. Если вы хотите принудительно включить одно из этих слов в поиск, поставьте перед этим словом знак "+", например +the.

Преодолеть лимит в 10 слов позволяет правильное построение запроса. Следующие рекомендации помогут вам не только сократить длину запроса, но и повысить эффективность поиска в целом.

Расширенный поиск Google

Набираем в строке ввода браузера адрес - www.google.ru/advanced_search и переходим на расширенный поиск Google.

С помощью расширенного поиска можно искать информацию почти также гибко, как и с помощью модификаторов поиска. Почему "почти"? Интерфейс расширенного поиска предоставляет доступ далеко не ко всем модификаторам поиска.

Установка свойств поиска Google в Cookies браузера

Мне не хочется забивать вам голову техническими подробностями, поэтому я кратко скажу, что такое Cookies и нет, не с чем их едят, а как с ними нужно работать.

Представим, что перед нами поставлена такая задача: нужно написать индивидуальный отчет посещения для каждого клиента сайта нашей компании. То есть, чтобы пользователь не видел общее количество посещений, знал, сколько раз именно он был на нашем сайте. Для каждого IP-адреса нужно вести учет в одной таблице, которая, скорее всего, будет большой, а из этого следует, что мы нерационально используем процессорное время и дисковое пространство. Гораздо правильнее с нашей стороны будет использовать это пространство с большей пользой.

Результат поиска Google

Результат поиска Google - это не просто набор ссылок, соответствующих указанным условиям поиска. Это нечто большее, заслуживающее отдельного рассмотрения. Введите слово "rusopen" и щелкните на кнопке Поиск в Google.

В верхней части мы видим общее количество результатов (883 000 000) и общее время, которое занял поиск, а именно 0,34 секунды.

    В большинстве случаев результат представляется в виде:
  • название страницы;
  • описание страницы;
  • URL страницы;
  • размер страницы;
  • дата последнего индексирования страницы;

Google поиск по картинкам

Служба Google Images позволяет найти различные изображения в Интернете. Хотя сами изображения индексировать нельзя, индексируются страницы, содержащие эти изображения. Введите описание изображения и получите много, очень много ссылок, а также сами изображения, представленные в виде галереи.

    Для более эффективного поиска картинок нужно использовать следующие модификаторы поиска:
  • intitle: - поиск в заголовке страницы;
  • filetype: - позволяет указать тип картинки, можно указывать следующие типы: JPEG and GIF, not BMP, PNG, изображения других типов не индексируются;
  • inurl: - поиск по указанному URL, например inurl: www.gidmir.ru ;
  • site: поиск на указанном домене или сайте, например, site: com.

Службы Google

Google - это мощнейшая поисковая система, охватывающая более 3 миллиардов страниц. Кроме обычных веб-страниц, Google индексирует файлы в форматах Word, Excel, PowerPoint, PDF и RTF. Также Google можно использовать для поиска картинок и номеров телефонов: для этого предназначены, соответственно, служба Google Images и Phonebook. В этой статье мы поговорим о специальных службах Google.

Электронная почта Google

Попробуйте использовать почту от Google. Нужно отметить, что это не совсем обычная веб-почта.

    Среди особенностей Gmail нужно выделить следующие:
  • огромный размер почтового ящика - более 7 Гбайт;
  • вместо удаления писем их можно архивировать - тогда и места вам хватит надолго, и сможете восстановить письма, которые были получены или отправлены вами несколько лет назад;
  • возможность поиска по почтовому ящику с эффективностью Google;
  • удобная организация писем и ответов на них: все письма и ответы составляют одну цепочку, которую легко отслеживать;
  • хорошая защита от спама;
  • запоминающийся адрес ваше_имя@gmail.com;
  • удобный интерфейс.

Поисковая система Рамблер (Rambler)

История Рамблера

Все началось в далеком 1991 году в городе Пущино Московской области. В том далеком году собралась группа единомышленников, среди которых были Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов. Общим интересом этой группы стал Интернет. Наверное, в 1991 году ни один из будущих разработчиков Рамблера и не предполагал, что они станут создателями одной из самых крупных и известных поисковых машин Рунета. Ведь до этого все они обслуживали радиотехнические приборы в Институте биохимии и физиологии микроорганизмов РАН. В 1992 году была создана компания "Стек" во главе с Сергеем Лысаковым. Профиль компании - локальные сети и Интернет. По сути, компания "Стек" была интернет-провайдером. Фирма создала внутригородскую сеть, затем подключила Пущино к Москве, а уже через нее - к Интернету. Кстати, это был первый IP-канал, выходящий за пределы Москвы. И это в 1992 году! Сейчас проложить канал довольно проблематично - всегда найдется масса нюансов, а тогда кабели приходилось прокладывать самостоятельно, вручную, под землей, причем все это делалось зимой.

Как работал поиск Рамблер

Интернет постоянно развивается: число сайтов и их размеры увеличиваются с каждым днем. Ведь только представьте: большие сайты обновляются каждый день, даже если объем обновлений составляет 1024 байт (1 Кбайт), то если предположить, что таких сайтов 10 000, каждый день поисковой машине приходится обрабатывать (индексировать) 10 000 Кбайт (грубо говоря, 10 Мбайт) информации. Число 10 000 взято "с потолка" - примера ради. Оно может быть выше или ниже - ведь даже крупные сайты обновляются не каждый день. Размер обновления также надуман. Представьте информационно-аналитический сайт, на котором практически каждый день публикуются новые статьи или перепечатываются материалы с других сайтов. В этом случае размер обновлений будет далеко не 1 Кбайт, а как минимум 10. Добавьте ко всему этому еще новости и другую информацию и выходит, что при количестве обновленных сайтов 10 000 поисковая машина должна проиндексировать 120 Мбайт текста. И при всем этом поисковик должен не только точно отобразить результаты поиска, но еще и сделать это как можно быстрее, чтобы пользователю было удобно с ним работать. Кому захочется ждать результатов поиска 10 минут? Это я, конечно, утрирую, но лично я бы не ждал результатов поиска более 30 секунд (с момента щелчка по кнопке Найти до появления первых десяти результатов). Выходит, разработчикам поисковой машины приходится постоянно поддерживать на должном уровне не только "железо", которое должно быть в состоянии обрабатывать постоянно растущие объемы информации, но и "математику" одним железом не возьмешь. Нужно постоянно совершенствовать алгоритмы поиска, чтобы при увеличении объемов поисковой базы, время поиска не увеличивалось (имеется в виду существенное увеличение времени - для пользователя нет разницы, сколько будет выполняться поиск 2,5 секунды или 2,0555 секунды, поскольку он не в состоянии оценить это время).

Рамблер запросы, синтаксис Рамблера

Запрос к Рамблеру мог состоять из одного или нескольких слов, причем запрос мог содержать знаки препинания. Разработчики Рамблера сконструировали свою поисковую машину для максимального удобства пользователя. Рамблер мог использовать даже неопытный пользователь, который совсем не знаком с языком запросов. Все, что ему нужно было сделать, - это ввести запрос, состоящий из нескольких слов (например, какую-то фразу) и без знаков препинания - Рамблер сам находил нужные документы, причем делал это максимально эффективно. Конечно, если правильно использовать язык запросов, эффективность значительно увеличивалася, но даже при полном незнании языка запросов эффективность поиска была на высоком уровне. Как уже отмечалось, знание языка запросов - в ваших же интересах, вы просто сможете найти нужную вам информацию значительно быстрее.

Поисковая система Yandex (Яndex)

Историческая справка

В далеком 1990 году в компании «Аркадия», которую возглавляли Аркадий Борковский и Аркадий Волож, началась разработка поискового программного обеспечения. Спустя шесть лет появился сайт «Яндекс». Но что же произошло за эти шесть лет?

За два года были созданы две информационно-поисковые системы - «Международная Классификация Изобретений» и «Классификатор Товаров и Услуг». Обе системы работали под DOS и позволяли производить поиск слова из заданного словаря с использованием логических операторов.

В 1993 году компания «Аркадия» стала подразделением CompTek. За 1993-1994 годы значительно усовершенствовались технологии поиска, например, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300 Кбайт, а это значит, что он свободно помещался в оперативную память, и работа с ним происходила очень быстро. На основе этой новой технологии в 1994 году был создан «Библейский компьютерный справочник» - информационно-поисковая система, работающая с переводами Ветхого и Нового Заветов.

Языковой поиск Яндекс

Как поисковая система будет интерпретировать введенное вами слово?

    Сейчас мы об этом и поговорим:
  • Правило 1. Оказывается, система интерпретирует его согласно правилам русского языка. Пример: если вы ввели слово "машина", то также получите результаты, содержащие слова "машины", "машину" и т.д. Аналогично и с глаголами - по запросу "идти" получите документы, содержащие слова "идти", "идет", "шел", "шла" и т.д. Как видите, поисковая система более интеллектуальная, чем вы думали - это не просто средство для поиска определенного слова в базе данных.
  • Правило 2. Особое внимание уделяется словам, написанным с большой буквы. Если слово написано с большой буквы и не является первым в предложении, то будут найдены только слова с большой буквы. Иначе - будут найдены слова, написанные как с большой, так и с маленькой буквы. Пример: по запросу "Такса А." будут найдены документы, содержащие как "такса" (плата), так и "Такса" (фамилия), поскольку слово "Такса" хоть и написано с большой буквы, но оно стоит первым в предложении. А вот по запросу "А. Такса" будут найдены документы, содержащие только слово "Такса", написанное с большой буквы.

Синтаксис Яндекса

По умолчанию Яндекс использует логический оператор И. Это означает, что если вы ввели запрос "телевизор Samsung", то в результатах получите документы, в которых в одном предложении будут встречаться слова "телевизор" и "Samsung". Если вы хотите указать оператор И явно, то используйте символ амперсанда &. Другими словами, запрос "телевизор Samsung" аналогичен запросу "телевизор & Samsung". Можно также использовать запрос "телевизор + Samsung".

Если вам нужен обратный эффект, т.е. вы хотите получить документы, в которых есть отдельно слово "телевизор" и отдельно слово "Samsung", то вам нужно использовать оператор ИЛИ (|), например: "телевизор | Samsung".

Синтаксис запросов Яндекс

Все слова в тексте документа Яндекс нумерует по порядку. Расстояние между соседними словами равно 1 (а не 0!), а расстояние межу словами в обратном порядке равно -1. То же самое относится и к предложениям.

Для указания расстояния между словами ставится знак /, за которым сразу стоит число, значит, это расстояние между словами. Например, по запросу "разработчик /2 программ" будут найдены документы, в которых содержатся слова "разработчик" и "программ", причем расстояние между словами должно быть не более двух слов и все эти слова должны быть в одном предложении. В данном случае будут найдены документы, содержащие "разработчик прикладных программ", "разработчик системных программ" и т.д.

Если нам точно известны расстояние и порядок слов, то можно воспользоваться синтаксисом /+n. Например, запрос "красная /+1 шапочка" приведет к результату, в котором слово "шапочка" следует сразу за словом "красная". К такому же результату привел бы запрос "красная шапочка".

Операторы поиска Яндекс

Скобки используются для представления в запросе целого выражения. Например, по запросу "(история | технологии | программы)/+1 Linux" будут найдены документы, содержащие одну из фраз "история Linux", "технологии Linux", "программы Linux".

Зоны

Зона - это место поиска нужной вам информации. Вы можете задать зону, в которой вы хотите выполнить поиск - заголовках (зона Title), ссылках (anchors) или адресе (Address). Можно также использовать зону all - поиск по всему документу.

Синтаксис: $имя_зоны запрос.

Например: запрос $title "Microsoft" найдет все документы, в заголовках которых встречается точная фраза "Microsoft".

Дополнительные возможности поиска Яндекс

Поисковая машина Google позволяла ограничить место поиска определенным списком серверов или же, наоборот, исключить некоторые серверы из списка поиска. Точно такие же возможности есть и в поисковой машине Яндекс. Вы также можете искать документы, в которых есть ссылки на определенные URL или картинки. При задании маски файла (например, картинки) можно использовать символ *, означающий все символы, например: ”audi-*”.

Синтаксис следующий: #имя_элемента=”значение”.


В общем случае - осуществляется поиск фразы запроса по страницам Интернета, и с помощью определенных критериев и алгоритмов результаты поиска ранжируются и выдаются пользователю. Наиболее часто используемыми критериями при ранжировании в поисковых машинах являются:
– наличие слов из запроса в документе, их количество, близость к началу документа, близость друг к другу;
– наличие слов из запроса в заголовках и подзаголовках документов;
– количество ссылок на данный документ с других документов;
– «респектабельность» ссылающихся документов.
Как видно из критериев ранжирования, реальный критерий релевантности документа - наличие слов из запроса (поисковая фраза) - не так сильно влияет на его ранг в результатах поиска. Такая ситуация ведет к снижению качества поиска, поскольку потенциально более полезные документы неминуемо оттесняются своими «оптимизированными» конкурентами в конец списка. И действительно, многие сталкивались с тем, что реально полезные ресурсы в поисковиках находятся на второй третьей странице выдачи поискового запроса. Тут и проявляется неэффективность алгоритмов ранжирования найденных документов. Это во многом обусловлено тем, что поисковые запросы в среднем состоят всего из трех-пяти слов, т. е. просто не хватает исходной информации для эффективного ранжирования выдачи.

А вот и проблемы при поиске....

Тут и проявляется не 100%-ная эффективность алгоритмов ранжирования найденных документов. Конечно, такая ситуация также возникает потому, что поисковые запросы пользователей в среднем состоят всего из трех-пяти слов. Т. е. такая исходная информация для поисковых систем слишком скудная для эффективного ранжирования выдачи.
Вторая проблема заключается в том, как «эдакое» большое количество информации переработать (= «переварить», «рассмотреть», «выделить главное», «отсеять ненужное и бесполезное») для конкретного пользователя, с учетом его потребностей, смысла и темы запроса, его предыдущей истории поиска, географического положения, его мнения о результатах поиска и т.д. Конечно, поисковые системы в этом направлении активно развиваются, но, очевидно, что поисковой машине далеко до совершенства. Потому что, на сегодняшний день только человек может оценить семантическую полезность, качество, специфику найденной информации и т.д.

Альтернативы поисковым системам

Поэтому, в качестве альтернативы появляются сервисы, структурирующие как-то Интернет для облегченного поиска нужной пользователю информации. И на данный момент уже есть социальные закладки, каталоги, торрент-трекеры, форумы, специализированные поисковики, файлообменники и т.д. Все эти сервисы в той или иной степени структурируют Интернет и «уменьшают расстояние» между пользователем и необходимой ему информацией (будь-то фильмы, музыка, книги, ответы на вопросы, и т.д.). И что, самое главное, «структурируют Интернет», в основном, сами пользователи.
Нет, здесь нет намека на то, что поисковые системы бесполезны или мало эффективны. Я считаю, что поисковые системы идеально подходят для поиска поверхностной и наиболее популярной информации. А для поиска более глубокой информации, в том числе полезных книг, статей, журналов, музыки и т.д. (имеется ввиду с возможностью скачать все это) более подходят вышеупомянутые ресурсы, «структурирующие Интернет».

Как вообще не заблудиться в Интернете?


Кратко:
1.Для поиска поверхностной информации использовать поисковые системы, например http://google.com , http://yandex.ru , http://nigma.ru , http://nibbo.com
2.Для поиску нужных по теме сайтов использовать каталоги Интернета, например ,

Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:

увеличение охвата с целью извлечения максимального количества значимой информации;

уменьшение охвата с целью минимизации шумовой информации.

Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.

Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.

Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.

Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной.

Вывод: Поиск информации в сети - это достаточно специфическая и кропотливая работа, требующая определенных знаний и навыков. Для проведения поисковых работ пригодятся: знания основных информационных ресурсов и умение хорошо в них ориентироваться, практические навыки работы - это приходит со временем, хорошая зрительная память и умение быстро читать, а так же некоторые навыки аналитической работы.

Основной проблемой при поиске можно назвать неумение пользователя эффективно искать информацию в сети.

Поисковые машины ищут информацию по всей сети Internet. На самом деле это не совсем верно. Если бы при реализации алгоритма работы поисковых машин был использован такой подход, то для обработки только одного запроса и выдачи результатов потребовалось бы несколько дней.

Каждая поисковая машина имеет и постоянно пополняет свою (локальную) базу данных. База данных поисковой машины содержит основные параметры (индексы) каждого известного данной машине (проиндексированного) документа. Каждая поисковая машина использует свои методы индексации. Кроме того, различные поисковые машины имеют разные объемы базы данных.

В результате, механизм обработки запроса пользователя поисковой машиной выглядит следующим образом:

в соответствии с заданным в запросе ключевым словом или словосочетанием, машина проводит поиск в своей локальной базе данных, сверяя ключевое слово с наборами ключевых слов, соответствующих каждому документу из её базы данных;

затем, используя соответствующие алгоритмы, поисковая машина сортирует результаты поиска и выдает их пользователю;

в результате сортировки результатов, в начало списка помещаются наиболее соответствующие (с точки зрения поисковой машины) ключевым словам документы.

В связи с огромным количеством информации, размещенной в сети, ни одна из поисковых машин не в состоянии просмотреть все документы. Каждая поисковая машина индексирует только часть их. Все остальные документы, а к сожалению это большая часть ресурсов, найти с ее помощью не удастся.

Понравилась статья? Поделиться с друзьями: