Современная электронная библиотека ModernLib.Net

Профессиональный поиск в Интернете

ModernLib.Net / Интернет / Алексей Кутовенко / Профессиональный поиск в Интернете - Чтение (Ознакомительный отрывок) (Весь текст)
Автор: Алексей Кутовенко
Жанр: Интернет

 

 


Алексей Кутовенко

Профессиональный поиск в Интернете

Введение

Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов. Это совсем не простая задача, поскольку информация в современной Сети не структурирована, что создает проблемы ее нахождения. Не случайно своеобразными «окнами» в это информационное пространство стали именно интернет-поисковики.

Вряд ли среди интернет-пользователей найдутся люди, никогда не использовавшие крупные универсальные поисковые машины. Названия Google, Яндекс и пары-тройки других больших машин на слуху у всех. Они замечательно справляются с повседневными задачами интернет-поиска, и зачастую пользователи даже не пытаются искать им замену. В то же время количество поисковых интернет-машин в наше время исчисляется тысячами. Причины такого разнообразия альтернативных машин имеют различные корни. Одни проекты пытаются напрямую конкурировать с лидерами глобального рынка за счет тщательной работы с национальными интернет-ресурсами. Другие предлагают возможности составления запроса, отсутствующие у известных поисковиков. Значительное количество альтернативных машин специализируются на поиске по определенной тематической области или определенному типу контента, достигая в решении этих задач впечатляющих результатов. Как бы то ни было, включение таких поисковиков в собственный пользовательский арсенал средств интернет-поиска может заметно повысить его качество. Здесь, правда, существует один нюанс: надо знать о таких машинах и уметь пользоваться их возможностями.

Предполагаем, что читатели данной книги уже достаточно хорошо знакомы с техникой поиска с помощью универсальных поисковиков. Хорошо настолько, что почувствовали ограничения, связанные с их применением. Скорее всего, такие люди уже пробовали искать и применять те или иные дополнительные инструменты. Печатное слово не обходит стороной тему интернет-поиска: и статьи периодически появляются, и книги выходят. Вот только герои у них, как правило, одни и те же – несколько ведущих универсальных поисковиков. Наша книга отличается тем, что в ней делается попытка охватить весь спектр современных поисковых решений. Здесь вы найдете описания и рекомендации по использованию лучших современных сервисов, ориентированных на решение наиболее распространенных поисковых задач. Эта книга для людей, много работающих в интернете и использующих Сеть для поиска нужной информации – будь то бизнес, учеба или хобби.

Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.

В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.

Доступных средств поиска немало. Их можно объединить в несколько групп, каждая из которых обладает определенными достоинствами и недостатками. Главы нашей книги посвящены основным группам современных поисковых интернет-систем.

Глава 1, «Универсальные интернет-поисковики», посвящена крупным универсальным системам поиска информации в Сети. Основной акцент делается на их наиболее современных инструментах, которые обычно выпадают из поля зрения широкой публики. Обзор возможностей известных машин дает нам своеобразную точку отсчета и позволяет четко представить сферу применения альтернативных поисковых решений.

Глава 2, «Вертикальный поиск», рассказывает о системах, специализирующихся на определенных тематических областях или же определенных видах контента.

В главе 3, «Метапоиск», рассмотрены метапоисковые системы, способные отправить запрос одновременно на несколько интернет-поисковиков, а затем собрать и обработать полученные результаты в едином интерфейсе.

Глава 4, «Семантические и визуальные интернет-поисковики», представляет собой обзор экспериментальных систем, предлагающих оригинальные пользовательские интерфейсы, а также интересные подходы к обработке запросов.

В главе 5, «Рекомендательные машины», рассказывается о недавно появившихся поисковых сервисах, по-английски метко названных «Discovery Engines», то есть «машины открытий». С их помощью можно обрабатывать ряд запросов, которые «не по зубам» другим видам интернет-поисковиков.

Если вам не подходит ни один готовый продукт, вы можете создать собственный интернет-поисковик. Созданию таких персональных машин посвящена глава 6, «Персональные поисковики».

Несколько глав нашей книги посвящены поиску различных видов сетевого контента. В главе 7, «Поиск изображений», рассказывается о современных тенденциях интернет-поиска изображений, а также о возможностях соответствующих экспериментальных систем. Глава 8, «Поиск видео», предлагает обзор средств видеопоиска ведущих универсальных интернет-поисковиков, а также лучших специализированных систем этого направления.

Глава 9, «Поиск «скрытого» контента», является обзором систем, позволяющих вести поиск контента, который «не видят» универсальные поисковики. К такому «скрытому» контенту относятся, например, торренты или файлы, размещенные на FTP-серверах и файловых хостингах.

Глава 10, «Поиск для Web 3.0», рассказывает о средствах интернет-поиска данных в форматах «семантического веба».

Поиск не заканчивается простым получением результатов с того или иного поисковика. Инструментам обработки и сохранения результатов посвящена последняя глава нашей книги – глава 11, «Программы-помощники».

Прежде чем начинать рассказ о конкретных продуктах, имеет смысл разобраться с классификацией современных средств интернет-поиска, а также определиться с терминами, которые постоянно встречаются на страницах нашей книги.

Основные средства интернет-поиска можно разделить на следующие основные группы:

• поисковые машины;

• веб-каталоги;

• справочные ресурсы;

• локальные программы для поиска в интернете.

Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов.

Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем.

Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.

Заметим, что формирование индексных баз – весьма ресурсоемкая задача. Многие поисковые проекты не утруждают себя сбором собственных баз, предпочитая использовать базы одного или нескольких сторонних поисковиков. Это позволяет сосредоточиться на разработке оригинальных пользовательских интерфейсов и дополнительных инструментов, иногда превосходящих по возможностям соответствующие средства владельцев баз. Следующая часть интернет-поисковика – собственно программы поиска и сортировки результатов. Эти программы решают две основные задачи: сначала находят в базе страницы и файлы, соответствующие поступившему запросу, а затем сортируют полученный массив данных в соответствии с различными критериями. От эффективности их работы во многом зависит успех в достижении целей поиска.

Последний элемент интернет-поисковика – пользовательский интерфейс. Кроме обычных для любых сайтов требований к эстетике и удобству, к интерфейсам поисковиков предъявляется еще одно важное требование: они должны предлагать различные инструменты составления и уточнения запросов, а также сортировки и фильтрации результатов. Преимущества поисковых машин – великолепный охват источников, сравнительно быстрое обновление содержимого базы и хороший выбор дополнительных функций. Главный инструмент работы с поисковиками – это запрос. Для успешного поиска неплохо изучить основные правила составления запросов, а также языки поисковых запросов конкретных поисковиков.

С точки зрения пользователя основной недостаток поисковиков – это неизбежное наличие информационного шума в результатах. Основные направления совершенствования современных поисковых машин как раз связаны с повышением точности их ответов и фильтрацией ненужных данных.

Для интернет-поиска используются также специальные приложения, устанавливаемые на локальном компьютере. Это могут быть как простые программы, так и довольно сложные комплексы поиска и анализа данных. Наиболее распространены поисковые плагины для браузеров, панели для браузеров, предназначенные для работы с каким-либо конкретным поисковым сервисом, и метапоисковые пакеты с возможностями анализа результатов.

Веб-каталоги – это ресурсы, в которых сайты распределяются по тематическим категориям. Если с поисковиками пользователь работает только посредством запросов, то в каталоге есть возможность просматривать тематические разделы целиком.

Второе принципиальное отличие каталогов от автоматических поисковиков – это то, что в их наполнении, как правило, непосредственно участвуют люди, которые просматривают ресурсы и относят сайт к той либо иной категории.

Веб-каталоги принято делить на универсальные и тематические. Универсальные стараются охватить максимум тем. В них можно найти все, что угодно: от сайтов о поэзии до компьютерных ресурсов. Другими словами, широта поиска у них максимальная. Тематические же каталоги специализируются на определенной тематике, обеспечивая за счет сокращения широты охвата ресурсов максимальную глубину поиска.

Второе дыхание веб-каталоги получили в эпоху Web 2.0. Над их пополнением на многочисленных социальных проектах трудятся сами посетители, а не специальная команда каталогизаторов. За счет привлечения труда многочисленных пользователей удается значительно расширить базы проектов. Такие ресурсы являются ценным источником информации и предлагают массу интересных дополнительных инструментов поиска.

Преимущества каталогов – сравнительно высокое качество ресурсов, поскольку каждый сайт в нем просматривается и отбирается человеком. Тематическая группировка сайтов позволяет удобно располагать сайты близкой тематики. Такой режим работы хорош для обнаружения новых для вас сайтов по интересующей теме – он точнее применения поисковой машины. Веб-каталоги рекомендуется использовать для первого знакомства с какой-либо предметной областью, а также поиска по нечетким запросам – у вас будет возможность «побродить» по разделам каталога и точнее определиться с тем, что именно вам требуется.

Недостатки веб-каталогов известны. В первую очередь, это медленное пополнение базы, поскольку включение сайта в каталог предполагает участие человека. В отношении оперативности веб-каталог – не соперник поисковикам. Кроме того, веб-каталоги существенно уступают поисковикам по размерам баз. Соперничать с автоматическими системами в количестве охваченных ресурсов – задача для них безнадежная. Еще один недостаток современных каталогов – отсутствие единой классификации ресурсов и четких критериев отнесения их к той или иной категории. Иногда создается впечатление, что разработчики веб-каталогов намеренно игнорируют уже существующие классификационные языки поиска.

Для поиска ответов на конкретные вопросы эффективней всего использовать справочные ресурсы. К ним относятся многочисленные онлайновые энциклопедии и справочники, сервисы перевода и другие ресурсы, на которых можно получить краткие и конкретные ответы на свои вопросы. Обратившись к справочнику, пользователь избавляет себя от необходимости обработки текстов с разнообразных сайтов. Кроме того, справочники дают определенную уверенность в точности полученных фактических сведений.

Говоря о интернет-поиске, нельзя обойти вниманием ряд терминов, которые тесно связаны с этой сферой и часто используются для описания и оценки поисковиков.

Релевантность – это соответствие ответа поисковика поступившему от пользователя поисковому запросу. Другими словами, релевантным считается ответ, максимально соответствующий пользовательскому запросу. Это важнейший в работе интернет-поисковиков показатель. Не случайно сортировка списка выдачи по релевантности является основной функцией на подавляющем большинстве поисковых ресурсов. Однако если мы вспомним расхожее выражение «Каков вопрос – таков и ответ», то подойдем к важному нюансу в определении соотношения релевантности и качества результатов поиска. Дело в том, что строгое соответствие условиям запроса не гарантирует качественный результат поиска. Релевантный ответ вполне может оказаться ненужным, несмотря на то что прекрасно соответствует запросу. Дело в том, что пользователь может сформулировать неудачный или слишком обобщенный запрос. Поэтому для определения качества поиска часто применяют понятие пертинентности, которое обозначает степень соответствия ответа поисковика реальной информационной потребности пользователя. Другими словами, пертинентный ответ – это ответ, который предлагает пользователю нужную информацию, даже в том случае, если запрос сформулирован пользователем не самым удачным образом. Именно на улучшения пертинентности направлен ряд новых технологий интернет-поиска C релевантностью связано также понятие информационного шума. Так принято называть попавшие по тем или иным причинам в список выдачи результаты, не соответствующие запросу.

Следующие два важных понятия – широта и глубина интернет-поиска. Широким называют поиск, который захватывает как можно большее количество источников информации. При этом достаточным считается хотя бы упоминание о том или ином подходящем запросу сайте. Глубина поиска относится к подробности индексирования и последующего поиска каждого конкретного ресурса. Например, многие поисковики по-разному подходят к индексированию разных сайтов. Крупные и популярные сайты индексируются в максимальном объеме, роботы стараются не упустить ни одной страницы такого ресурса. В то же время на других сайтах может быть проиндексирована только заглавная страница и пара страниц содержания. Эти обстоятельства, естественно, сказываются и на последующем поиске. Глубокий поиск работает по принципу «лучше включить в результаты лишнюю информацию, чем упустить какие-либо относящиеся к теме поиска данные».

Достаточно часто можно встретить такие понятия, как глобальный и локальный интернет-поиск. При локальном интернет-поиске учитывается географическое местоположение пользователя и предпочтение отдается результатам, так или иначе связанным с конкретной страной или местностью. При глобальном поиске эта информация не учитывается, и поиск ведется во всех доступных ресурсах.

При составлении запроса на интернет-поисковиках действуют различные режимы поиска. К типовым режимам поиска, которые встречаются на большинстве интернет-машин, можно отнести простой и расширенный поиск. Простой поиск позволяет в одном запросе указать только один поисковый признак. Расширенный поиск дает возможность составить запрос из нескольких условий, связав их логическими операторами.

Для уточнения поисковых запросов используются различные фильтры. Фильтрами далее мы будем называть те или иные вспомогательные средства составления запроса, которые не относятся к содержательной стороне условий запроса, а ограничивают результаты поиска каким-либо формальным признаком. Так, например, применяя при поиске фильтр типа файла, пользователь не сообщает системе сведений, относящихся к теме своего запроса, а просто ограничивает полученные результаты определенным типом файлов, указанным в условии своего запроса.

От издательства

Ваши замечания, предложения и вопросы отправляйте по адресу электронной почты comp@piter.com (издательство «Питер», компьютерная редакция).

Мы будем рады узнать ваше мнение!

Подробную информацию о наших книгах вы найдете на веб-сайте издательства http://www.piter.com.

Глава 1

Универсальные интернет-поисковики

Универсальные интернет-поисковики – это основное и наиболее известное средство интернет-поиска. Такие поисковики обеспечивают максимальный охват различных ресурсов. Именно к универсальному типу относятся крупнейшие и наиболее популярные поисковые машины. Это действительно мощные решения с большим количеством возможностей и инструментов, о которых зачастую не знают многие пользователи. Понимание особенностей и возможностей универсального поиска позволяет узнать сильные и слабые стороны таких систем и осознанно выбирать максимально эффективные инструменты поиска.

Рынок универсальных поисковиков достаточно велик. В этой главе мы рассмотрим только наиболее мощные машины, способные достойно работать с запросами на русском языке. Открывают главу рассказы о лидерах русского поиска – системах Google.ru и Яндекс. О каждом из этих поисковиков написаны книги и масса статей. Мы сосредоточимся на основных характеристиках, имеющих значение для конечного пользователя, а также попытаемся определить их сильные стороны.

Компанию им составляет новая поисковая разработка корпорации Microsoft – система Bing, которая пока заметно обделена вниманием, а также полезный и достаточно мощный поисковик Exalead, преимуществом которого является хорошая поддержка поиска в европейских интернет-ресурсах. Данная система – пока редкий гость в поисковом арсенале наших пользователей, поэтому она рассматривается подробнее остальных.

В этой главе при обзоре систем Google и Яндекс мы сосредоточимся только на возможностях веб-поиска, а поиск в специализированных базах этих проектов рассматривается в следующих главах, посвященных поиску изображений и видео. Для других универсальных поисковиков сведения о мультимедиа-поиске приводятся сразу же при знакомстве с ними.

Поскольку три из четырех героев этой главы имеют зарубежное происхождение, сразу отметим, что мы анализируем возможности только их русских версий. Дело в том, что некоторые функции зарубежных систем, особенно экспериментальные, зачастую доступны только в оригинальных, как правило, англоязычных версиях сервисов.

Google

Поисковик Google заслуженно считается мировым лидером современного интернет-поиска. Основанная в 1998 году компания Google по сей день остается среди ведущих законодателей мод в сфере интернет-поиска и веб-сервисов.

Разработчики Google всегда отличались повышенным вниманием к совершенствованию алгоритмов своего поисковика, а также разумным консерватизмом в области пользовательского интерфейса. Возможности составления запроса на Google можно назвать классическими, да и способы отображения результатов поиска также стали своеобразным стандартом. В последнее время разработчики Google предприняли серьезные изменения в этих областях – слишком уж старомодно стал смотреться крупнейший поисковик на фоне молодых конкурентов.

Google обладает одной из крупнейших в мире индексных баз, что обеспечивает широкий охват источников информации. Индексная информация Google сведена в несколько вертикальных баз. Кроме наиболее известной базы «Веб», это несколько мультимедиа-баз («Картинки», «Видео»), работающих с источниками актуальной информации и сообщениями на RSS-лентах база «Новости», а также индексирующая сетевые дневники база «Блоги». Кроме того, Google предлагает широкий выбор дополнительных ресурсов, среди которых стоит отметить картографический сервис, каталог сайтов, службу вопросов и ответов. Эти ресурсы также можно рассматривать как инструменты поиска.

В базе «Веб» для составления запроса Google предлагает режимы простого и расширенного поиска. В режиме простого поиска из дополнительных инструментов доступна только виртуальная клавиатура. Расширенный поиск предлагает больше возможностей. Поскольку форма расширенного поиска доступна практически во всех поисковых продуктах Google, остановимся на ней подробнее (рис. 1.1).

Рис. 1.1. Форма расширенного поиска Google


Данная форма разделена на четыре зоны. Первая выделенная цветом зона содержит инструменты составления запроса с использованием логических операторов. Поддерживается поиск по точной фразе. Между словами, внесенными в поле. Со всеми словами, будет автоматически поставлено логическое «И». Поле С любым из слов добавляет между словами запроса логическое «ИЛИ», а Без слов – оператор «НЕ». В этой же зоне находится выпадающее меню, позволяющее выбрать количество результатов на странице выдачи в диапазоне от десяти до ста ссылок.

Следующая зона формы расширенного поиска содержит перечень основных фильтров. С их помощью можно ограничить поиск ресурсами на определенном языке или ресурсами, относящимися к какой-либо одной доменной зоне. Полезным часто становится фильтр. Дата, с помощью которого можно отбирать веб-страницы, проиндексированные в определенный промежуток времени. Поддерживается и поиск по конкретному, указанному пользователем сайту. Фильтр Расположение слов дает возможность указать, в каком элементе веб-страницы должны находиться указанные ключевые слова. Фильтр Права использования предназначен для отбора контента, распространяемого под определенными условиями. Данный фильтр особенно актуален при поиске файлов. Предлагается и семейный фильтр под названием. Безопасный поиск; он предназначен для автоматического исключения из результатов поиска потенциально оскорбительного или неприличного контента. Данный фильтр имеет три уровня действия. Строгий уровень отбрасывает все сомнительные сайты, умеренный действует только при поиске изображений, не сказываясь на результатах веб-поиска. Кроме того, фильтрацию можно полностью отключить. Как известно, Google индексирует не только веб-страницы, но и файлы различных типов: документы в форматах Microsoft Office, Google Earth, PDF, PostScript, RTF и SWF. Включить поиск по какому-либо из этих типов файлов можно, используя фильтр. Формат файлов.

Зона поиска по странице позволяет искать сайты, ссылающиеся на указанную веб-страницу (поле Ссылки), а также сайты, содержащие ключевые слова, тематически близкие указанной в поле Похожие веб-странице.

Расположенная в нижней части формы расширенного поиска зона Поиск по темам в настоящее время предлагает доступ только к поиску по исходному коду программ, распространяющихся с открытыми исходными кодами (Open Source).

При обработке запроса на русском языке Google достаточно осторожно использует изменение морфологических форм слова. Это сознательная позиция разработчиков. Взамен предлагаются поисковые уточнения, демонстрируемые над списком выдачи, в который и предлагаются другие словоформы наравне с предложениями по исправлению орфографии, опечаток, а также слов, ошибочно набранных при неправильной раскладке.

Страница выдачи Google по умолчанию предлагает список из десяти наиболее релевантных результатов поиска. Особенность Google заключается в том, что на своей странице выдачи этот поисковик демонстрирует концепцию так называемого «универсального поиска» (Universal Search). Выполнен он по рецепту Джеймса Бонда: «смешать, но не взбалтывать». Его суть заключается в том, что набранный в Google запрос по умолчанию отправляется на все основные специализированные ресурсы поисковика, а результаты такого поиска показываются единым списком. Конечно, показывать результаты поиска картинок или видео на одной странице с результатами веб-поиска умеют большинство современных поисковиков, располагающих такими базами, однако результаты из различных баз Google показываются не отдельными блоками на странице, а выводятся единым списком, при этом позиции разнородных результатов на странице выдачи распределяются по степени общей релевантности.

Соответствующие алгоритмы пытаются определить, что важней для темы поиска: обычная веб-страница, видеоролик, новость или сообщение в блоге, что и определяет порядок следования результатов в форме выдачи.

Для каждого результата приводится заголовок найденной страницы, текстовая выдержка, адрес веб-страницы, а также ссылки на сохраненную при индексировании в кэше поисковика копию веб-страницы и тематически подобные странички. Необходимо отметить, что поиск подобных веб-страниц пока не является сильной стороной Google и здесь, как правило, можно наблюдать небольшое количество результатов, а также информационный шум.

Для изображений, включенных в «универсальный» список выдачи, приводятся только их графические миниатюры. Видеоролики сопровождаются информацией об их длительности, а также дате добавления в базу.

В нижней части страницы находится поле для поиска в найденном. Его роль – возможность уточнения запроса пользователем за счет добавления новых ключевых слов (рис. 1.2).

Рис. 1.2. Инструменты уточнения запроса Google собраны на боковой панели списка выдачи


Дополнительные инструменты уточнения запроса вынесены на боковую панель, которая содержит несколько блоков фильтров. Первый сверху блок позволяет быстро перейти к поиску в основных вертикальных базах Google. Второй блок во многом повторяет перечни фильтров формы расширенного поиска. С помощью его инструментов можно отобрать результаты, представленные на языке, установленном в браузере пользователя по умолчанию, отфильтровать ссылки по дате добавления в индекс. Если пользователь является обладателем аккаунта Google, система может разделить в списке выдачи просмотренные и еще не просмотренные им результаты.

Отдельно отметим возможность настройки внешнего вида страницы выдачи Режим Колесо обозрения делит область просмотра результатов на две части. Первая предлагает визуальную карту результатов поиска: в центре демонстрируется поступивший запрос, а вокруг располагаются дополнительные, автоматически найденные ключевые слова, способные содержательно уточнить запрос. Режим Хронология упорядочивает результаты по хронологическому признаку, при этом учитывается не дата добавления страницы в индекс, а даты событий, о которых идет речь в тексте найденных веб-страниц. Данный режим позволяет наглядно увидеть историю развития той или иной темы. Для этого служит выводимая над результатами поиска «линия времени», разделенная на отрезки по 5 лет. Щелкнув на определенном делении, можно открыть результаты, текст которых относится только к этому отрезку времени.

Дополнительные варианты настройки есть и у стандартного режима просмотра. В режиме. Сайты с картинками под заголовком каждого результата поиска демонстрируются изображения, найденные на этом же сайте. В режиме. Предпросмотр страниц рядом с каждой позицией поиска выводится миниатюрный скриншот веб-страницы, что позволяет вспомнить нужный сайт по его внешнему виду.

Последней на сегодняшний день новинкой Google в области пользовательских интерфейсов стал режим «Живой поиск». Он включается автоматически при достаточной скорости интернет-соединения. В этом режиме список результатов поиска загружается немедленно после ввода или изменения поискового запроса пользователем. Кроме того, рядом со ссылками появились кнопки с изображением лупы. Они открывают всплывающие панели со скриншотами выбранных страниц.

Более подробного рассказа заслуживает режим. Поиск с переводом, который работает с помощью сервиса Google Переводчик. При его активации на странице поиска появляется меню выбора языковых пар. Результаты поиска выводятся в двух колонках: на оригинальном языке и переведенные на указанный пользователем язык. Данная функция очень полезна при поиске по национальным сегментам интернета. После перехода по переведенным ссылкам переводятся и целевые веб-страницы. Система перевода Google отличается хорошей скоростью работы, поэтому серфинг в таком режиме проблем не вызывает.

Главный плюс переводческой службы Google – большое количество поддерживаемых языков. Качество перевода с основных европейских языков вполне сносное, правда, это относится только к текстам так называемой «общей» лексики. Как только происходит переход на тематические ресурсы, качество перевода заметно падает. Как бы то ни было, в большинстве случаев понять смысл текста можно (рис. 1.3).

Рис. 1.3. Режим поиска с переводом полезен при работе с национальными сегментами интернета


Система поиска новостей в Google работает с новостными сайтами и другими ресурсами, предлагающими соответствующий контент. В отличие от веб-поиска допускается сортировка результатов не только по релевантности, но и по дате публикации.

Для поиска в блогах Google не предлагает каких-либо необычных инструментов или возможностей, просто ограничивая поиск ресурсами популярных блог-платформ. А вот база «Микроблоги» интересна тем, что индексирует сообщения популярного сервиса Twitter. Сортировка результатов поиска идет по дате их публикации. Для удобства работы со списком выдачи предлагается визуальная «линия времени», демонстрирующая количество «твитов» за последний день и позволяющая быстро находить сообщения за определенный промежуток времени.

Локальный поиск Google тесно связан с картографическими сервисами, поэтому его эффективность напрямую связана с качеством покрытия картами Google той или иной территории. Наилучшее качество обеспечивается для Северной Америки. При локальном поиске в русских ресурсах достойный охват обеспечивается только для крупных городов. Нельзя не отметить, что данное направление развивается, и результаты постепенно становятся лучше. Для запуска поиска по картам достаточно добавить слово «карта» к своему поисковому запросу.

Обладатели аккаунтов Google при настройке поиска могут включить режим записи своих поисковых запросов. Полученные сведения о переходах по ссылкам используются для улучшения списка выдачи Google. При желании историю своего поиска можно очистить в любой момент.

Google может похвастаться хорошим выбором вспомогательных справочных инструментов. Набор в строке поиска математического выражения позволит быстро вычислить его значения. Поддерживаются основные арифметические операции. В строке поиска также работает механизм перевода значений между различными единицами измерения и конвертации валют.

Некоторое время тому назад системой Google предлагался также достаточно широкий выбор поисковых операторов, которые можно было указывать в строке поиска для уточнения запроса. Сейчас большинство таких операторов доступно в форме расширенного поиска в виде фильтров. Активными и официально поддерживаемыми остались только оператор обязательного включения слова (+) и оператор автоматической подстановки слов в запрос. В последнем случае поисковик анализирует подобные по смыслу запросы, поступавшие в систему, и постарается дополнить поступивший запрос. Оператор define: позволит найти определения заданного в строке поиска слова в крупных справочных ресурсах. В то же время многие доступные ранее операторы продолжают работать. Их перечень, характеристика и примеры использования приведены в приложении А.

Активным пользователям Google стоит обратить внимание на проект Google Experimental Search, являющийся одним из разделов Google Labs (www.google.com/experimental/). Этот проект предлагает протестировать новейшие разработки Google в области поиска. Одновременно можно принять участие только в одном из предлагаемых экспериментов. В настоящее время там представлены два проекта, касающиеся работы с Google с помощью клавиатурных комбинаций.

Среди дополнительных программ для работы с Google отметим поисковые плагины для браузеров, а также официальную панель инструментов Google. Она предлагает быстрый доступ к поиску в вертикальных базах Google и возможность работы с историей поиска своего аккаунта Google. Кроме того, предлагается быстрый доступ к другим веб-сервисам Google.

Яндекс

Официально представленный широкой публике в 1997 году поисковик Яндекс успешно развивался и через десять лет впервые попал в число десяти крупнейших поисковых машин мира. В русском сегменте интернета он добился лидирующих позиций, которые пока не собирается уступать, несмотря на возрастающую конкуренцию. Отличительными чертами Яндекса с начала его существования стали собственные оригинальные алгоритмы определения релевантности результатов поиска, гибкие инструменты работы с текстом запросов и учет особенностей морфологии русского языка при их обработке.

Яндекс опирается на собственные индексные базы. Кроме поиска по веб-документам система предлагает неплохой выбор специализированных ресурсов и дополнительных сервисов. Яндекс в настоящее время работает с изображениями, видео, новостями, блогами и словарями. Мощные поисковые возможности заложены также в собственном картографическом сервисе и в системе поиска товаров. Кроме того, Яндекс ведет собственный каталог веб-сайтов. Сильной стороной Яндекса является развитая программа локального поиска, что особенно актуально для наших пользователей. Яндекс предоставляет возможность доступа к своим базам сторонним разработчикам. Как следствие, немало русских проектов альтернативного интернет-поиска так или иначе используют ресурсы Яндекса. Кроме обычной системы поиска предлагается и сокращенный вариант Яндекса, доступный по адресу ya.ru. Интерфейс этой версии состоит только из поля ввода запроса и кнопки начала поиска.

Поиск в веб-документах предлагает режимы простого и расширенного поиска. Простой поиск не предоставляет каких-либо фильтров, что компенсируется возможностью автоматического разбора запросов на естественном языке, уверенной обработкой относительно длинных запросов, а также системой автоматического дополнения запроса. Максимальная длина запроса – сорок слов.

Форма расширенного поиска для составления запроса предлагает только одно поле. Логические операторы, связывающие слова запроса, предлагается вводить вручную, благо. Яндекс располагает достаточно подробным языком запросов. Остальные инструменты формы расширенного поиска – это различные фильтры (1.4).

Рис. 1.4. Форма расширенного поиска системы Яндекс


Поле На сайте позволяет ограничить поиск определенным сайтом. Поле В регионе является фильтром, с помощью которого можно перейти к локальному поиску в ресурсах, связанных с определенной географической областью.

Фильтр Слова позволяет гибко управлять областью поиска указанных ключевых слов. Поиск может вестись как во всем тексте веб-страниц, так и ограничиваться только их заголовками. Здесь же находится группа переключателей, отвечающая за работу механизма учета морфологии в ходе поиска. Переключатель В любой форме дает поисковику команду искать не только указанную в запросе форму слова, но и другие его варианты. Переключатель Точно так, как в запросе отключает эту функцию Яндекса для всех слов запроса. Фильтр Язык ограничивает область поиска только документами на определенном языке. Поддерживается восемь языков, в том числе украинский, белорусский, татарский и казахский – достаточно редкие гости на других поисковых системах.

Фильтр Дата обновления позволяет указать временной промежуток создания или обновления нужных веб-страниц. Помимо перечня интервалов, данный фильтр позволяет указать произвольный диапазон дат. Фильтр Формат отвечает за выбор форматов нужных документов. Кроме веб-страниц в формате HTML, Яндекс индексирует файлы Microsoft Office (DOC, XLS, PPT), RTF, PDF и Flash-ролики. Интересно, что при ранжировании результатов поиска файлов различных типов используются стандартные алгоритмы Яндекса для работы с текстом и особенностями оформления. Для проиндексированных файлов названных типов в кэше поисковика сохраняется их текстовая версия.

Под формой составления запроса выводится блок, в котором составленный с помощью перечисленных инструментов запрос формулируется в виде текста на естественном языке. Это позволяет лучше представить условия запроса и избежать логических несоответствий.

Страница выдачи результатов поиска содержит список найденных ссылок. По умолчанию он сортируется по релевантности. Поддерживается также сортировка результатов по дате публикации или обновления. Переключатель режимов сортировки находится в нижней части страницы.

Для каждого результата приводится заголовок страницы, текстовая выдержка, ссылки на сохраненную копию страницы и другие результаты этого запроса к данному сайту. Для крупных интернет-ресурсов демонстрируются также ссылки на их основные разделы Наблюдать работу этого механизма можно, например, в результатах, полученных на крупных справочных ресурсах.

Непосредственно возле поля запроса находятся переключатели режимов поиска в найденном и локального поиска. Регион для локального поиска определяется автоматически, на основе IP-адреса пользователя. Изменить его можно вручную при общей настройке механизма поиска Яндекса.

Боковая панель страницы выдачи предлагает ссылки на результаты поиска по введенному пользователем запросу в вертикальных базах изображений и видео. Каких-либо дополнительных инструментов быстрого уточнения запроса на странице выдачи Яндекса нет (рис. 1.5).

Рис. 1.5. Страница выдачи поисковой системы Яндекс


После регистрации бесплатного аккаунта открывается доступ к службе «Мои находки». Она предназначена для сохранения истории поиска с помощью Яндекса. Любопытно, что сохраненные запросы впоследствии демонстрируются в списке автоподсказок при наборе нового запроса в поле поиска.

Новостной поиск Яндекса основан на индексировании ресурсов, участвующих в партнерской программе поисковика. Для попадания в индекс ресурс должен удовлетворять ряду требований как технического плана, так и организационного. В частности, сайт должен предлагать оригинальный контент, регулярно обновляться, а также иметь определенный стаж работы в интернете.

При поиске новостей на первый план выходит оперативность обновления индексных баз. Для решения этой задачи используется особый робот-индексатор, способный обрабатывать ресурсы в течение короткого промежутка времени. В результатах поиска можно увидеть ресурсы, обновленные десяток минут назад. Правда, такая оперативность достигается не для всех ресурсов, и в среднем Яндекс индексирует новости немного медленней, чем Google.

Форма расширенного поиска в новостях значительно отличается от аналогичной формы обычного веб-поиска. С ее помощью можно выбрать одну или несколько новостных рубрик для поиска и определиться с регионом, к которому должны относиться новостные сообщения. Фильтр Источники содержит перечень новостных ресурсов, с которыми работает Яндекс. При необходимости в этом списке можно отобрать только нужные источники и ограничить ими поиск.

Страница результатов поиска в новостях также имеет свои отличия. Фильтр Результаты поиска не только выводит статистику проведенного поиска, но и позволяет одним щелчком отобрать видеосообщения, статьи или интервью. Здесь же выводятся ссылки на так называемые пресс-портреты героев новостей, найденных по запросу пользователя. Пресс-портрет содержит краткую характеристику персонажа, его основной деятельности, список доступных интервью, перечень последних новостей, а также список пресс-портретов людей, часто упоминающихся в новостях вместе с данной личностью. Необходимо отметить, что пресс-портрет – это не заранее составленная справочная статья, а результат автоматической обработки информации новостных ресурсов.

Фильтр времени публикации позволяет отбирать новости по запросу за определенный промежуток времени – от текущего дня до месяца. А вот расположенная непосредственно под полем запроса панель с перечнем основных новостных рубрик поисковым фильтром не является – это просто ссылки на тематические страницы с последними новостями.

Результаты поиска по умолчанию группируются по сюжетам – подборкам новостей, посвященных одному событию, что позволяет составить мнение о том или ином событии по материалам нескольких источников. Для каждого результата приводятся заголовок, источник и время публикации.

Сервис Яндекс. Словари является справочным ресурсом. Он предлагает поиск по крупным онлайновым словарям и энциклопедиям, а также перевод на иностранные языки. Для уточнения запроса служит фильтр типа справочного ресурса. Поиск может быть ограничен только энциклопедиями или только результатами перевода. На странице выдачи результаты группируются по видам словарей, в которых было найдено определение ключевого слова из запроса. Сначала выводятся результаты универсальных источников, затем – тематических словарей и справочников. Результаты перевода на другие языки демонстрируются на отдельной панели.

Сервис Яндекс. Блоги работает с крупными блог-площадками, а также форумами, экспортирующими информацию о своих сообщениях в формате RSS. Доступны простой и расширенный режимы поиска. Простой поиск не предлагает каких-либо дополнительных инструментов, кроме самой строки поиска. Режим расширенного поиска здесь обладает своей спецификой, отражающей особенности контента. Фильтр Область поиска позволяет выбирать для поиска конкретный вид социального ресурса: блог, микроблог или форум. Поддерживается поиск в конкретном ресурсе и в диапазоне указанных пользователем дат. Особенно интересен блок фильтров. Автор. Он позволяет искать сообщения конкретного автора или сообщества. Кроме того, предлагается фильтр персональных характеристик автора: возраст, местоположение, пол и даже музыка, прослушиваемая автором в момент публикации записи, если, конечно же, в блоге есть такая информация. При поиске в блогах поддерживаются все стандартные поисковые операторы Яндекса, а также некоторое количество специальных операторов, которые в большинстве своем воспроизводят функции фильтров расширенного поиска.

Яндекс отличается гибким и достаточно подробным языком поисковых операторов, который можно использовать при составлении запроса. Подробный перечень доступных операторов, а также примеры их использования приведены в приложении А.

Из дополнительных поисковых инструментов отметим панель для браузеров Яндекс.Бар. Она предлагает быстрый поиск на всех сервисах Яндекса, умеет подсвечивать найденные слова на веб-страницах, а также переводить выделенные пользователем слова на иностранные языки.

Bing

Историю интернет-поиска от Microsoft простой не назовешь. На последовательно предлагаемых публике сервисах неоднократно менялись алгоритмы, используемые базы данных и, конечно же, названия. До начала 2000-х поисковик не располагал собственными базами и работал с внешними индексами от AltaVista, Inktomi и Looksmart. Первоначальное имя MSN Search использовалось до 2006 года, а затем на несколько лет изменение названий поисковика стало для Microsoft традицией.

Вместе с окончательным переходом на поиск в собственных индексныхMSN Search была переименована сначала в Windows LiveLive Search. Наконец, в начале лета 2009 на смену Live Search пришел новый поисковый проект Bing.

«Bing позволит иначе взглянуть на поиск информации в интернете и поможет пользователям в принятии важных решений», – именно таким заявлением начинался пресс-релиз Microsoft, посвященный запуску Bing. Стремления разработчиков были понятны: поисковики от Microsoft, несмотря на все старания, на Западе стабильно уступали по популярности лидерам – Google и Yahoo!. Если же говорить о русскоязычных версиях предыдущих поисковых проектов Microsoft, то по количеству и качеству находимых ссылок они намного уступали крупным российским поисковикам. В попытке догнать конкурентов разработчики Bing сделали ставку на улучшение качества поиска и внедрение новых технологий, многие из которых были приобретены вместе с создавшими их фирмами.

Необходимо заметить, что русскоязычная версия Bing, как и большинство других локализованных версий, лишена ряда дополнительных функций, например поиска по магазинам. Поскольку они, по сути, работают только в Северной. Америке, подробно останавливаться на них смысла нет.

В настоящее время Bing работает по собственным индексным базам и предлагает поиск веб-страниц, изображений и видеороликов. Все эти базы представлены в виде вкладок над главным полем поиска.

При поиске веб-документов доступны режимы простого и расширенного поиска. Интерфейс такого привычного элемента, как форма расширенного поиска, в Bing выполнен достаточно интересно. Форма открывается не в новом окне, а прямо на странице выдачи, что достаточно удобно, поскольку результаты изменения запроса на странице выдачи отражаются сразу, и уточнение запроса происходит весьма быстро.

К сожалению, система Bing лишена некоторых полезных и привычных на других крупных поисковиках функций. Например, она не обрабатывает слова, по ошибке набранные в другой раскладке, что уже давно умеют делать многие конкуренты. Не справляется она и с опечатками в ключевых словах – как на русском, так и на английском языках.

Форма расширенного поиска Bing состоит из четырех вкладок. Вкладка Условия поиска предлагает работу с логическими операторами, которые выбираются в предлагаемом выпадающем меню. Новые ключевые слова с автоматически добавленными операторами присоединяются к исходному поисковому запросу. Вкладка Веб-сайт или домен позволяет вести поиск только на конкретном сайте или домене, а также исключать соответствующие ресурсы из результатов поиска. Вкладки Страна или регион и Язык в полном соответствии со своими названиями дают возможность ограничить поиск определенным национальным сегментом интернета или же веб-страницами на указанном языке. Отметим, что в отличие от Google и Яндекс, в Bing поиск можно вести одновременно по нескольким выбранным языкам. Для этого достаточно добавить несколько соответствующих условий в форме расширенного поиска.

Страница поисковой выдачи Bing состоит из области просмотра результатов и боковой панели, содержащей вспомогательные инструменты. При веб-поиске на этой панели демонстрируются предложения по уточнению запроса. Надо сказать, что данная технология действительно работает неплохо и помогает быстро уточнять запросы. Для найденных ссылок показываются заголовок и адрес веб-страницы, краткая текстовая выдержка, а также ссылка на кэшированную версию страницы (рис. 1.6).

Рис. 1.6. Форма расширенного поиска Bing открывается прямо на странице результатов поиска


Мультимедиа-поиск Bing представлен базами изображений и видео. Для поиска изображений предлагается только режим простого поиска. Инструменты уточнения запроса вынесены на боковую панель страницы выдачи Доступны несколько фильтров. К традиционным для современных универсальных поисковиков отнесем фильтры размера картинки и ее цветности. В меню фильтра размера изображения присутствует пункт. Фоновые рисунки, который позволяет отбирать картинки в стандартных разрешениях для использования в качестве «обоев» рабочего стола персонального компьютера. Фильтр Макет позволяет отобрать изображения различных форматов: квадратные, широкоэкранные, а также высокие, то есть ориентированные по вертикали.

Гораздо интересней эффект применения фильтров, анализирующих визуальные характеристики самого изображения. Фильтр Стиль достаточно успешно отличает фотоснимки от рисунков и коллажей. Любопытен поиск по наличию на изображении людей, который предлагает несколько возможностей: можно искать только лица, портреты или же изображения людей в полный рост. Работает этот фильтр весьма качественно. Отметим, что система неплохо справляется даже с рисованными изображениями.

Дополнений у поисковика Microsoft Bing немного. Предложения ограничиваются поисковыми плагинами для браузеров.

Exalead

Одной из особенностей Европы, в том числе и в сфере интернет-поиска, является большое количество национальных языков. Поисковик, претендующий на место ведущего в Европе, просто обязан хорошо индексировать национальные сегменты интернета и качественно обрабатывать запросы на многочисленных европейских языках – как крупнейших, так и менее распространенных. Именно в данной области европейская разработка может получить серьезное конкурентное преимущество по сравнению с мощными заокеанскими конкурентами. На роль такого европейского поисковика в настоящее время всерьез претендует система Exalead. Данный проект был разработан в рамках исследовательской программы Quaere, финансируемой Евросоюзом.

Exalead располагает собственными индексными базами. Основные поисковые ресурсы системы – это базы веб-документов, изображений, видео и новостей. Стартовая страница Exalead предлагает возможность персональной настройки. На этой странице можно разместить ссылки на свои любимые сайты – они будут отображаться в виде графических миниатюр-скриншотов. Правда, для этого придется бесплатно зарегистрировать аккаунт, а также разрешить браузеру хранить куки-файлы Exalead.

Веб-поиск Exalead предлагает режимы простого и расширенного поиска. Форма расширенного поиска, как и в Bing, открывается прямо на странице выдачи Отметим, что Exalead предлагает не просто привычную форму с набором дополнительных полей, а сложное выпадающее меню, которое играет роль мастера по уточнению запроса (рис. 1.7). При выборе того или иного пункта в меню мастера в строку запроса добавляются новые элементы, а при необходимости операторы и спецсимволы.

Рис. 1.7. Мастер расширенного поиска Exalead


В меню мастера выделено три тематических блока. Первый блок дает возможность определиться с вариантами уточнения запроса. Предлагаются поиск по фразе, обязательное включение и исключение заданных пользователем слов, а также поиск с помощью масок. Поддерживается использование в запросе стандартных логических операторов. Кроме этих базовых опций, предлагаются и более интересные варианты. В режиме Approximate Spelling Search ищутся слова, подобные по написанию заданным. Режим Phonetic Search позволяет найти слова, похожие по своему звучанию на указанные пользователем. Если предложения по исправлению опечаток уже давно можно найти на других поисковиках, то поиск по звуковой транскрипции слова можно назвать новинкой.

Оставшиеся два блока расширенного поиска предлагают отфильтровать результаты по дате их появления в индексе поисковика, а также ограничить поиск определенным сайтом, заголовком страницы или другим формальным признаком.

Каждую позицию в перечне найденных ссылок на странице выдачи сопровождают миниатюры-скриншоты страниц и краткая текстовая аннотация (рис. 1.8). Страница выдачи Exalead также отличается широким выбором вспомогательных инструментов, собранных на боковой панели. Первый блок фильтров позволяет ограничить выдачу результатами, найденными на сайтах и в блогах. Следующие два блока позволяют отобрать контент определенного формата. Распознается большое количество «офисных» форматов файлов, а также видео– и аудиофайлы. Фильтр даты публикации позволяет быстро просмотреть результаты, проиндексированные в определенный промежуток времени. По умолчанию шаг такого фильтра – один год. Фильтр Related Terms предлагает ознакомиться с автоматически подобранными дополнительными ключевыми словами, которые способны помочь в уточнении запроса.

Рис. 1.8. Страница результатов поиска системы Exalead


Два последних блока фильтров выполнены в виде интерактивных круговых диаграмм. Они демонстрируют процентное распределение результатов поиска по языковому признаку и по принадлежности к национальным сегментам интернета. Щелкая на секторах диаграмм или же на соответствующих позициях сопровождающих списков, можно быстро отфильтровать результаты поиска по выбранному критерию. Любой найденный сайт можно добавить в свою персональную базу закладок.

Отдельным видом поиска в Exalead является поиск в Википедии. В этом режиме на странице выдачи все найденные ссылки сопровождаются не только стандартным скриншотом и текстовой выдержкой, но и перечнем тематических категорий, персон, организаций и местоположений, упомянутых в найденной статье энциклопедии. Страница выдачи содержит боковую панель с облаком тегов, в котором также выделены названные перечни дополнительных признаков. Кроме того, поддерживается быстрая сортировка результатов по языку с помощью выпадающего меню.

Exalead предлагает хорошие возможности для поиска мультимедиаконтента – изображений и видео. Инструменты расширенного поиска изображений вынесены на специальную панель фильтров, которая располагается над списком выдачи Кроме стандартных фильтров по размеру картинки и типу файла, предлагаются возможности отбора изображений по ориентации снимка (книжная или альбомная). Есть у Exalead и визуальные фильтры. С их помощью можно отбирать картинки по цветовой гамме – соответствующая палитра доступна на панели фильтров, а также разделить фотоснимки и рисованную графику, правда, эта опция не всегда работает уверенно.

При просмотре результатов поиска изображений доступен режим вывода найденных картинок в виде бесконечной ленты. Это значит, что результаты поиска не разбиваются на отдельные страницы, а новые миниатюры просто автоматически подгружаются по мере прокрутки страницы результатов. Включить эту возможность можно при настройке поисковика, установив флажок Allow infinite scroll in image search.

Видеопоиск Exalead работает в базах крупных видеохостингов. Полного списка поддерживаемых ресурсов разработчики не сообщают, однако в результатах тестовых запросов удалось отследить примерно два десятка ресурсов. Среди них – YouTube, Metacafe, Dailymotion, Reuters, Comedy Central и ряд других. Отметим, что в результатах попадались и ролики Rutube. На боковой панели страницы выдачи предлагаются опции для отбора результатов поиска по продолжительности ролика, источнику, а также тематической категории. В последнем случае используются теги, которыми ролики помечены на хостинге-источнике. Результаты можно отсортировать не только по релевантности, но и по дате добавления, а также рейтингам роликов на видеохостингах.

Для поиска новостных сюжетов можно воспользоваться вертикальным сервисом Voxalead News. Источниками роликов служат базы трех десятков телеканалов. Представлены проекты на английском, французском, китайском и арабском языках. Диапазон достаточно широк: от CNN до Al Jazeera, есть в списке и Russia Today. Результаты можно ограничить только выбранными пользователем каналами. Такая настройка доступна в меню Select Sources. Любопытно, что кроме поиска новостного видео Exalead предлагает поиск записей новостей десятка радиостанций. Щелчок на любой позиции в списке результатов, будь то видео или аудио, открывает страницу со встроенным плеером, а также полным текстом новости. Для каждого ролика предлагается панель тегов, состоящая из трех вкладок: People, Organization и Location. На них группируются автоматически выделенные из текста новости ключевые слова, относящиеся к персонам, организациям или географическим пунктам. Щелчки на них подсвечивают соответствующие фрагменты в тексте новости, а также включают переход в ролике к данному фрагменту.

Как и положено серьезным проектам интернет-поиска, Exalead обзавелся собственной «лабораторией», в которой представлен ряд экспериментальных разработок, пока не внедренных в основной поиск.

Экспериментальный интерфейс Exalead Constellations предназначен для визуализации результатов поиска. Найденные по запросу ссылки демонстрируются в виде своеобразной «звездной карты». При ее построении учитывается количество ссылок на тот или иной сайт – они демонстрируются в виде цветных лучей. Чем их больше, тем ближе к центру «галактики» будет расположена «звезда» сайта. Над полем поиска выводятся уточнения, с помощью которых можно быстро отсортировать ресурсы, посвященные персоналиям. Кроме того, в Constellations доступны практически все инструменты фильтрации стандартного варианта Exalead. Вызвать соответствующую панель фильтров можно с помощью ссылки Refines.

Любопытен экспериментальный сервис Exalead Wikifier. С его помощью можно «викифицировать» любую веб-страницу в ходе серфинга. Смысл этой операции заключается в том, что сервис ищет на открытой веб-странице ключевые слова, значения которых есть в Википедии, после чего подсвечивает их цветным выделением. Наведя на него указатель мыши, пользователь получает всплывающее окошко с информацией из сетевой энциклопедии, а также ссылки на страницу. Википедии и результаты поиска Exalead выделенного слова. Викифицировать можно не только указанную веб-страницу, но и текст, введенный в поле на стартовой странице Wikifier. В результате получается своеобразный встроенный справочник, прозрачно работающий во время серфинга.

Проект Chromatik Search предлагает поиск изображений по визуальным признакам. Поиск можно начинать с ключевого слова, а можно сразу же воспользоваться панелью визуальных инструментов. С помощью палитры выбираются цвета, которые должны присутствовать в нужном вам изображении. Их процентное соотношение устанавливается простым перетаскиванием ползунка Adjust Proportions. В результате можно достаточно точно описать характеристики искомой картинки. Благодаря этому простому в работе средству разработчикам Chromatik удалось, с одной стороны, добиться высокой точности запроса, а с другой стороны, сделать этот процесс максимально простым для пользователя. Во всяком случае, решающий аналогичные задачи алгоритм IBM QBIC заметно сложнее в освоении. Дополнительная настройка запроса позволяет управлять цветностью искомой картинки, а также искать более светлые или более темные изображения. Интересно, что характеристики запроса, составленные с помощью графических инструментов, дублируются текстом, который выводится над областью выдачи результатов. В результате Exalead предлагает один из наиболее удобных на сегодняшний день интерфейсов для визуального поиска изображений (рис. 1.9).

Рис. 1.9. Экспериментальный проект Exalead Chromatic Search


Есть у Exalead и своя экспериментальная поисковая машина для Twitter, которая называется Tweepz. В настоящее время она индексирует более пятнадцати миллионов аккаунтов. Интересно выполнена заявка на включение в индекс. Если пользователь желает, чтобы его сообщения попадали в базу Tweepz, достаточно зафолловить канал @tweepz. Система поддерживает собственный язык запросов. Он позволяет работать с масками, вести поиск по именам и географическому местоположению пользователей. Страница результатов поиска содержит боковую панель с хорошим выбором фильтров. Результаты можно сортировать по релевантности, количеству фолловеров и языкам. Кроме того, в Tweepz работает система автоматического поиска дополнительных ключевых слов, с помощью которых можно уточнить запрос.

Если рассмотренные нами ранее проекты отличаются своей технической сложностью, то Exalead Light демонстрирует прямо противоположный подход к поиску. Это «легкая», максимально упрощенная версия поиска Exalead, предлагающая только текстовые инструменты уточнения запросов Exalead Light отличается также более высокой скоростью работы. В то же время здесь не поступились качеством поиска – доступны все вертикальные базы проекта.

Exalead обладает хорошей подборкой дополнительных программ. Букмарклет Exalead позволяет создавать закладки на веб-страницы в ходе серфинга и сохранять их в своем онлайновом профиле. Поисковый плагин Exalead предлагает стандартные опции и работает в браузерах Internet Explorer и Firefox. Для веб-мастеров предлагается поиск по сайту на основе технологии Exalead. Впечатление от него двоякое. С одной стороны, там работают многие фирменные «фишки» Exalead, например визуальные фильтры-диаграммы. С другой стороны, глубина индексирования сайтов сильно зависит от страны их происхождения. Для русскоязычных сайтов такой поиск пока практически бесполезен.

Выводы и рекомендации

Для большинства пользователей универсальные поисковики являются основным, а зачастую и единственным средством интернет-поиска. Они предлагают хороший охват источников, а также набор инструментов, достаточный для решения основных поисковых задач.

Удобными особенностями интерфейса Google являются вынесенные на боковую панель страницы выдачи инструменты уточнения запроса, а также активное использование «универсального поиска» с равноправным ранжированием по релевантности результатов, полученных из его различных специализированных баз. Заслуживает внимания и удобный режим просмотра «Живой поиск».

В безусловном активе системы Яндекс – гибкий учет морфологии русского языка в ходе веб-поиска. Кроме того, данный поисковик предлагает достаточно удачную форму расширенного поиска, а также большой выбор поисковых операторов.

От знакомства с поисковиком Microsoft Bing в его современном состоянии остаются двойственные впечатления. С одной стороны, заметного изменения качества интернет-поиска не произошло и трудно давать прогнозы о возможных изменениях в данном направлении. К минусам отнесем также отсутствие в локализованных версиях Bing ряда дополнительных сервисов, теоретически способных привлечь пользователей. С другой стороны, с интерфейсом нового поисковика поработали серьезно и достаточно успешно. Кроме того, весьма неплох в Bing мультимедиа-поиск.

Поисковик Exalead демонстрирует хорошие результаты поиска ресурсов на европейских языках. Несложно самостоятельно убедиться, что, допустим, при поиске по одинаковому запросу на итальянском языке Exalead заметно выигрывает у Google как по широте охвата веб-ресурсов, так и по степени глубины их индексации. Тестовый поиск французских и немецких ресурсов не позволяет выявить однозначного лидера: в зависимости от запроса вперед может выйти и Exalead, и Google. В англоязычном поиске сильнее оказывался Google.

При выборе универсального поисковика важную роль играет качество находимых с его помощью ресурсов. Определить предпочтительный для конкретных задач поисковик можно «методом маркера». Суть его состоит в том, что вначале составляется некий тематический поисковый запрос, после чего опрашивается группа людей-экспертов в данной области на предмет выявления лучших, по их мнению, интернет-ресурсов по избранной теме. На основе данных опроса формируется список сайтов-маркеров, гарантированно релевантных запросу и содержащих качественную информацию. Затем запрос отправляется на тестируемые поисковики. Логика оценки проста: чем выше в результатах поиска будут расположены сайты-маркеры, тем лучше конкретный ресурс подходит для поиска информации по тестовой теме.

Эту схему вполне может применить и частный пользователь. Поскольку далеко не у всех под рукой имеется группа экспертов, основная проблема заключается в определении сайтов-маркеров. Для ее решения можно проанализировать разделы полезных ссылок, часто встречающиеся на тематических сайтах. Найдя действительно серьезный тематический ресурс по интересной вам теме, загляните в такой раздел – там вы найдете ссылки, отобранные энтузиастами своего дела, что позволит выявить сайты-маркеры, а приводимые в таких разделах описания ресурсов являются хорошими заготовками для конструирования тестового запроса.

Глава 2

Вертикальный поиск

Важным направлением развития современного интернет-поиска стало появление большого количества специализированных поисковиков, предназначенных для углубленного поиска определенного тематического контента. Такие интернет-машины часто называют «вертикальными». Среди таких проектов можно найти немало полезных ресурсов.

Вертикальные поисковики удачно дополняют универсальный интернет-поиск. Если вы интересуетесь какой-либо определенной тематикой и нашли соответствующий специализированный поисковик – можете принимать поздравления: эффективность поиска заметно возрастет. Улучшение качества поиска достигается за счет обращения в первую очередь к заранее отобранным тематическим ресурсам. Это позволяет значительно уменьшить количество информационного шума в списке выдачи Кроме того, сортировка результатов поиска зачастую производится с учетом особенностей тематического контента. Исключительно заметной разница универсального и вертикального вариантов поиска становится в ситуациях, когда у ключевых слов запроса есть синонимы в других областях. Простейший пример такого запроса – слово «библиотека», которое может иметь различное значение в зависимости от контекста. Это может быть и реальное учреждение, и сетевое собрание электронной литературы, и компонент компьютерного приложения. Многие вертикальные машины обладают дополнительными алгоритмами обработки запросов, учитывающими наличие сленга, аббревиатур и других тонкостей, так или иначе присущих конкретным тематическим областям.

Необходимо заметить, что вертикальные поисковики являются хорошей альтернативой тематическим порталам, снабженным собственными системами поиска. В популярных тематических нишах таких порталов немало, и для того чтобы составить полную информационную картину той или иной темы, пользователю приходится немало поработать. Рано или поздно возникает естественное желание получить некий общий поисковик, который позволил бы собрать в едином интерфейсе информацию с нескольких ценных ресурсов. Другими словами, мы опять приходим к идее вертикального поисковика.

В этой главе рассматриваются три группы вертикальных поисковиков. Это специализированные учебные и научные поисковики, особенно актуальные для читателей, получающих образование или повышающих квалификацию. Этим же читателям, надеемся, будут полезны сведения о системах поиска в сетевых электронных библиотеках. Дополняет картину рассказ о специализированных поисковиках компьютерных программ. Эта задача универсальна и время от времени возникает у большинства пользователей.

Научный интернет-поиск

Современные универсальные системы интернет-поиска не самым лучшим образом приспособлены для поиска научной информации. В результате поиск научных публикаций с их помощью становится достаточно сложной задачей. Решить ее с максимальной эффективностью помогут специализированные научные поисковики, которые являются разновидностью вертикальных машин интернет-поиска. Сейчас можно найти немало таких машин, в основном отраслевого характера. Кроме того, на современном информационном рынке встречается значительное количество коммерческих предложений баз данных научной информации, подписка на доступ к которым может быть весьма дорогостоящей. Мы же остановимся на многоотраслевых интернет-поисковиках, специализирующихся на свободно доступном научном и учебном контенте. В ходе научного интернет-поиска кроме специализированных проектов можно использовать и вертикальные сервисы универсальных поисковиков. Пожалуй, наиболее известным ресурсом такого плана является проект Академия Google.

<p>Академия Google</p>

Когда же может потребоваться обращение к такому специализированному научному поиску? Типичные ситуации – подготовка рефератов, курсовых и других учебных работ. Представим себе студента, которому нужно подготовить такую письменную работу. Скачивать готовую курсовую – низкий класс, тем более что по узким темам готовых рефератов немного, соответственно, они хорошо известны всем, в том числе и преподавателям. Да и пользы от таких рефератов для самого студента – ноль, разве что время экономится. Итак, наш герой принимает правильное и максимально полезное для качества своего образования решение: работать самостоятельно. Первый этап подготовки любой учебной работы – поиск источников по теме. Вполне логично использовать для этих целей не только традиционные, но и интернет-источники. Однако при обращении к сетевым источникам возникает несколько проблем, главная из которых – проблема оценки качества найденных публикаций. Если искать обычными универсальными поисковиками, то отличить первоисточник от «перепева» или банального плагиата очень сложно. Кроме того, никто не дает гарантии, что приводимая информация не была искажена. Специализированный поисковик ограничит поиск только заранее отобранными ресурсами, содержащими качественную информацию. Проведем практический эксперимент и отправим одинаковые запросы в универсальном поисковике Google и в Академии Google. Тестовым ключевым словом выступит «абиогенез» – одна из концепций современной биологии, описывающая происхождение живой материи из неживой. Первые две страницы выдачи «обычного» поисковика Google будут заняты ссылками на краткие статьи словарей и энциклопедий с редкими вкраплениями предложений скачать рефераты по близким темам. Список выдачи Академии Google с первых же страниц полностью состоит из ссылок на научные и научно-популярные статьи, материалы конференций и разделы книг по теме запроса. Поскольку рядом с каждым материалом приводятся сведения о его цитируемости в других работах, это позволяет достаточно быстро найти основные работы, с которыми, по всей видимости, стоит ознакомиться в первую очередь.

Давайте подробнее познакомимся с возможностями и инструментами Академии Google. Бета-версия данного сервиса под оригинальным названием Google Scholar стартовала в октябре 2004 года. Академия Google индексирует ресурсы открытого доступа, интернет-сайты, а также издательские сервисы, предоставляющие доступ к публикациям на коммерческих условиях. Кроме того, научный поисковик Google развивает программу интеграции с электронными каталогами классических (офлайновых) научных библиотек. Данная программа предназначена для библиотек, располагающих онлайновыми электронными каталогами, поддерживающими формат OpenURL. Подключение библиотек к научному проекту Google свободное и бесплатное. В зависимости от настройки сервера библиотеки просмотр каталога может предоставляться как всем желающим, так и только зарегистрированным пользователям библиотеки. Русскоязычная версия Академии Google по умолчанию поддерживает поиск по электронному каталогу Государственной публичной научно-технический библиотеки (ГПНТБ). При настройке механизма поиска пользователь может добавить до трех собственных ссылок на онлайновые каталоги библиотек, поддерживающих названные технологии.

Интерфейс поисковика выдержан в строгом стиле и предлагает не так много дополнительных инструментов. К средствам быстрой фильтрации результатов отнесем, разве что, хронологическое меню, позволяющее переходить к просмотру публикаций определенного года выхода. Если публикация была найдена на нескольких ресурсах, то в результатах поиска появится ссылка для просмотра полного списка копий такого материала. При оценке релевантности той или иной ссылки, влияющей на ее позицию в списке выдачи поисковика, учитывается индекс цитирования публикации и ее автора, а также известность интернет-источника или издания, опубликовавшего статью (рис. 2.1).

Рис. 2.1. Страница результатов поиска сервиса Академия Google


Режим расширенного поиска. Академии Google, кроме стандартного набора инструментов формирования запроса (поиск по фразе, на включение и исключение указанных слов), предлагает поиск по именам авторов и по публикациям определенных журналов, а также позволяет указать диапазон дат публикации нужных материалов.

Каждая ссылка на странице выдачи снабжается кратким библиографическим описанием источника, счетчиком индекса цитирования данной публикации, а также ссылкой для поиска похожих материалов. При настройке системы доступен инструмент. Библиографический менеджер, позволяющий получить корректное библиографическое описание источника, которое можно использовать в списке литературы к своим работам. К сожалению, предусмотрены только зарубежные стандарты описания ресурсов, форматы наших библиографических. ГОСТов здесь не поддерживаются, что определенно смазывает впечатление от этой полезной функции.

К достоинствам. Академии Google отнесем простоту освоения, высокую скорость работы, а также функцию поиска в каталогах крупных «офлайновых» научных библиотек. Недостатками проекта является небольшой выбор дополнительных инструментов управления поиском, а также информационный шум в результатах для пользователя, ориентирующегося на источники свободного доступа. В списке выдачи этого поисковика много ссылок на коммерческие ресурсы, что означает прямую доступность только аннотаций или кратких выдержек из текста публикаций.

<p>Scholar.ru</p>

Система Scholar.ru специализируется на русскоязычном учебном и научном контенте. Поисковик индексирует различные виды документов: статьи, монографии, а также авторефераты диссертаций, представленные в широко распространенных форматах электронных книг: HTML, PDF и DjVu (рис. 2.2).

Рис. 2.2. Страница результатов поиска сервиса Scholar.ru


Пополнение индекса ведется в комбинированном режиме. Основным источником данных служат результаты автоматической индексации нескольких крупных онлайновых проектов, в том числе сети SciPeople, собирающих электронные версии научных публикаций и предлагающих их в общем доступе. Кроме того, материал может быть добавлен в поиск самим автором. Соответствующая форма предлагается на страницах проекта. Следствием такого подхода стало, с одной стороны, практически полное отсутствие информационного шума в результатах, а с другой – сравнительно небольшой объем базы проекта. На данный момент в ней порядка 80 тысяч публикаций.

Работать с сервисом Scholar.ru можно в режимах простого и расширенного поиска. Последний дает возможность использовать в запросе ряд фильтров. С их помощью можно точно указать тематический раздел базы Scholar ru для поиска, дату публикации, название журнала или адрес сайта, на котором был опубликован материал. Кроме того, можно искать работы конкретного автора или же работы, выполненные в определенном учреждении.

Страница выдачи результатов поиска содержит простой текстовый список ссылок на найденные публикации. Каждый пункт этого списка включает полный заголовок статьи, имя автора, сведения об издании, в котором была опубликована статья, а также первые фразы ее аннотации. Приведенные данные сопровождаются значками доступных для скачивания версий статьи в различных форматах и списком тематических тегов. Некоторые результаты снабжаются также примером библиографического описания найденного материала, который можно использовать в списках литературы. Кроме ссылки на саму статью предлагается и ссылка на страницу ее обсуждения на проекте SciPeople.

Данный сервис представляет собой гибрид поисковика и веб-каталога. Получить доступ к каталогу можно на вкладке-разделе Каталог научных публикаций. Предлагаемый каталог состоит из двадцати пяти основных разделов, отражающих широкий спектр наук как естественного, так и гуманитарного профиля. К сожалению, количество пустых разделов здесь достаточно велико, что не способствует эффективной работе. Разработчики предупреждают, что в каталог попадают не все статьи проекта, поэтому если важен максимальный охват доступного материала, лучше использовать не каталог, а систему поиска.

Вкладка Авторефераты и диссертации предлагает доступ к каталогу соответствующих видов документов, проиндексированных Scholar ru. Каких-либо специфических инструментов поиска или сортировки в нем не предусмотрено.

Раздел Научные области предлагает облако тегов, с помощью которого можно найти нужный материал. Любопытно, что страница выдачи при поиске в этом разделе сопровождается вспомогательной боковой панелью с перечнем тематически близких научных тематик.

Раздел Аспирантура носит справочный характер, напрямую к поиску не относится и содержит паспорта научных специальностей.

<p>Поиск на научных сайтах с использованием платформы Flexum «Поиск по научным сайтам»</p>

Тема научного поиска не прошла мимо разработчиков персональных поисковиков. Подробному рассказу о возможностях таких поисковых систем посвящена отдельная глава нашей книги (см. главу 6). Сейчас же мы остановимся на одном из примеров таких ресурсов – тематической системе научного поиска, созданной с помощью платформы Flexum. В индексе проекта на сегодняшний день несколько тысяч сайтов. Данный проект по этому показателю, кстати, является крупнейшей системой на платформе Flexum. В индексе проекта представлены тематические научные интернет-ресурсы, сайты учебных заведений, научных организаций и научных журналов.

Интерфейс поиска на научных сайтах предлагает стандартные для поисковиков на базе Flexum возможности. Стартовая страница содержит не только инструменты составления запроса, но и каталог включенных в систему сайтов. Он автоматически выстраивается на основе тегов, присвоенных сайтам автором поисковика. Всего на данном поисковике выделено несколько десятков категорий. Среди них как тематические разделы, посвященные отдельным научным дисциплинам, так и разделы, выделенные по типам интернет-ресурсов. К таким разделам относятся Форумы и блоги, а также Электронные библиотеки.

В системе научного поиска на базе Flexum доступен только режим простого поиска. Найденные веб-страницы могут выводиться единым списком с сортировкой по релевантности или группироваться по сайтам, на которых они были найдены. Рядом с каждой ссылкой в списке выдачи находится кнопка вызова формы поиска с помощью Flexum на найденном сайте. Расположенная рядом со списком выдачи панель тегов-закладок позволяет быстро переходить к поиску только на сайтах, помеченных соответствующими тегами, что повышает точность поиска.

Главное достоинство данного ресурса – хороший охват научных интернет-ресурсов на русском языке. К недостаткам отнесем отсутствие дополнительных возможностей составления сложных запросов, а также наличие информационного шума в результатах поиска. Справедливости ради отметим, что эти недостатки свойственны многим персональным поисковикам.

<p>Scirus</p>

Любой серьезный специалист не может развиваться в профессиональном плане, не получая качественной информации о сфере своей деятельности. О студенте, который пишет курсовую, мы уже говорили. Давайте теперь вспомним про его научного руководителя. Современная наука многонациональна, оставаться на гребне волны, не интересуясь зарубежными публикациями, сейчас, пожалуй, просто невозможно. Однако здесь начинаются проблемы. В мире выходит огромное количество книжных и периодических изданий научной тематики. Получить доступ к таким «бумажным» версиям зачастую сложно, иногда не помогают и библиотеки: относительно малое количество людей, интересующихся специфическими узкими темами, помноженное на традиционно высокую стоимость научной литературы не способствует полноте комплектования таких библиотек. В этой ситуации на помощь опять же приходит интернет. Даже исторически глобальная компьютерная сеть связана с академической наукой – это было, пожалуй, первое применение интернета в «мирной» жизни за пределами сферы интересов военных. Сохраняется это значение интернета и в наши дни. В. Сети находится значительное количество архивов и баз данных научной тематики. Правда, при попытке ими воспользоваться возникают новые проблемы. Во-первых, никуда не пропадает проблема оценки качества и достоверности информации. Более того, критерии качества источников в научной и профессиональной деятельности значительно повышаются. Во-вторых, сетевые базы могут быть как открытыми, бесплатными, так и коммерческими, цены на доступ к которым не отличаются демократичностью. Разделить их в списке выдачи универсальных интернет-поисковиков сложно. Справиться с новыми вызовами помогают специализированные интернет-поисковики.

Система Scirus предназначена для поиска научной информации в сферах естественных наук, компьютерных технологий, экологии, экономики, менеджмента и лингвистики. Индексная база Scirus рассчитана на специалистов и исследователей В настоящее время в нее входит порядка трехсот семидесяти миллионов документов. Это именно научные публикации, взятые из солидных источников. Если говорить о доступных видах документов, то это не только журнальные статьи и монографии, но и научные рефераты, препринты, материалы конференций, патенты. Кроме того, ведется поиск на официальных сайтах научных организаций и учреждений. К сожалению, среди источников Scirus нет русскоязычных ресурсов, поэтому для эффективной работы с найденным контентом требуется знание иностранных языков.

Замечательное качество данного поисковика состоит в том, что любая найденная ссылка обязательно ведет к полному тексту найденной публикации. Это значит, что пользуясь Scirus, вы, в отличие от многих других подобных поисковиков, не попадете в результате на страницу платной базы, где вам покажут один-два абзаца текста и ненавязчиво попросят за просмотр остального несколько десятков евро. В то же время Scirus может работать и с коммерческими источниками. Для этого предусмотрена устанавливаемая при настройке поисковика опция показа результатов, полученных, в том числе, и из коммерческих баз.

Возможности составления запросов предусматривают режимы простого и расширенного поиска. В режиме расширенного поиска можно пользоваться стандартными логическими операторами, фильтровать список выдачи по видам документов и форматам файлов. Доступен поиск введенных ключевых слов в определенных полях описания документов (автор, заглавие, ISSN и другие). Кроме того, в форме расширенного поиска присутствует несколько специфических для научной сферы фильтров. Например, можно ограничить выдачу только электронными материалами «печатных» журналов или же результатами, полученными со страниц веб-проектов, причем допускается детальный выбор используемых при поиске источников. Интересен фильтр Subject Areas. Как известно, значительный процент современных исследований проводится на стыках нескольких дисциплин. С помощью данного фильтра можно четко обозначить сферу науки, к которой должны относиться ожидаемые результаты поиска. Это позволяет гибко выделять в результатах поиска как узкие исследования, так и публикации междисциплинарного характера (рис. 2.3).

Рис. 2.3. Система Scirus предлагает поиск среди 370 млн научных публикаций


Интерфейс страницы поисковой выдачи Scirus разделен на несколько панелей. Основная часть экрана отдана списку выдачи, который можно сортировать по релевантности и по дате публикаций. Возле всех ссылок находятся флажки, с помощью которых можно отобрать нужное подмножество записей и одним щелчком мыши отправить их по электронной почте, сохранить для дальнейшей работы (не более 25 ссылок, причем для этого понадобится включить в браузере режим сохранения куки-файлов) или же экспортировать в виде списка. Раздел Refine your Search демонстрирует список дополнительных ключевых слов, автоматически найденных в результатах поиска и позволяющих быстро уточнить свой запрос. Доступны инструменты фильтрации найденного контента по признаку источника.

Возможности дополнительной настройки поисковика Scirus достаточно скромны. Можно задать количество ссылок на странице выдачи, включить режим вывода ссылок на документы из фондов библиотек-партнеров Scirus, а также управлять группировкой ссылок на странице выдачи.

Scirus предлагает несколько вспомогательных дополнений для браузеров Это стандартный простой поисковый плагин и довольно удобная панель инструментов Scirus Toolbar. У веб-мастеров есть возможность установить на своем сайте поисковую форму Scirus. Соответствующий код доступен на странице Downloads – останется только разместить его в коде своего проекта, как любой другой JavaScript-виджет.

<p>ScienceResearch</p>

Проект ScienceResearch является бесплатным и общедоступным поисковиком научных ресурсов, который обладает рядом интересных особенностей. Данный проект работает с базами данных, электронными библиотеками и другими источниками онлайновых научных публикаций. Такие источники называются на данном проекте «коллекциями». В общей сложности проект поддерживает поиск более чем на трех сотнях таких коллекций. Основные особенности ScienceResearch – это поддержка технологии Federated Search и использование кластеризации при выводе результатов поиска.

Технология «объединенного поиска» (Federated Search) разработана компанией Deep Web Technologies и реализована в поисковом алгоритме Explorit Research Accelerator, который предлагается заинтересованным разработчикам. Данная технология отличается тем, что построенные на ее основе поисковики не собирают какую-либо собственную индексную базу, а способны работать в режиме реального времени с большим количеством внешних подключаемых баз данных.

После поступления запроса от пользователя ScienceResearch отправляет его всем поддерживаемым коллекциям. Затем в полученных ответах отбрасываются дублирующиеся записи и определяются наиболее релевантные результаты. Заметим, что степень релевантности определяется с помощью алгоритмов самой системы ScienceResearch и не зависит от качества ранжирующих алгоритмов отдельных источников информации. В результате формируется страница выдачи, которая и демонстрируется пользователю.

Поскольку все эти операции выполняются в режиме реального времени, ScienceResearch предлагает несколько уникальных возможностей. Например, если за время просмотра пользователем страницы результатов поиска в какой-либо из внешних баз появляются новые записи, подходящие под условия введенного запроса, система выводит соответствующее сообщение и предлагает дополнить список выдачи новыми результатами. При составлении запросов допускается использование логических операторов и поиск по точной фразе. Режим расширенного поиска позволяет вести поиск по конкретным признакам (заглавию, автору публикации), ограничить выдачу определенным хронологическим промежутком, а также конкретной научной дисциплиной. Список основных дисциплин выводится на боковой панели поисковика. Кроме того, можно выбрать одну или несколько коллекций, на которые будет отправлен ваш запрос. К сожалению, в бесплатной версии ScienceResearch предлагается выбирать не из всех доступных коллекций, а только из нескольких основных.

Для уточнения запросов в системе ScienceResearch применяются кластерные технологии. Результаты работы алгоритма демонстрируются на боковой панели страницы выдачи Кроме тематических кластеров предлагаются разделы, группирующие статьи по авторам, источникам публикаций и другим подобным признакам. С помощью соответствующих меню можно сортировать список выдачи по различным признакам, а также переключаться в режим просмотра результатов, полученных из какой-либо одной коллекции.

<p>BASE</p>

Научный интернет-поисковик Bielefeld Academic Search Engine (BASE) имеет европейские корни. Сам сервис BASE принадлежит немецкому университету, а в основе его поисковых алгоритмов лежат разработки норвежской компании Fast Search & Transfer. Ценность данного ресурса состоит в том, что BASE является поисковой машиной международного проекта Open Archives Initiative, кроме того, этот поисковик сотрудничает с европейским научно-информационным проектом DRIVER, что способствует повышению качества включенных в индексные базы поисковика материалов.

Первый из названных проектов позволяет владельцам электронных библиотек обмениваться данными о своих собраниях и является частью движения открытого доступа (Open Access), направленного на повышение доступности научной информации. В рамках этого движения, которое приобрело популярность в начале 2000-х годов, авторы получают платформу для распространения своих идей в международной академической среде с минимальными затратами и без необходимости длительного ожидания публикаций в традиционных научных журналах. Целью проекта DRIVER является создание сводного ресурса, объединяющего европейские электронные библиотеки, специализирующиеся на научной и учебной информации. Таким образом, проект BASE является удобной точкой доступа к свободно распространяемой научной информации. Кроме названных источников, в BASE используется и собственная индексная база тематических веб-сайтов и баз данных, поэтому в результатах поиска могут попадаться ссылки на коммерческие базы данных.

Для составления запросов BASE предлагает режимы простого и расширенного поиска. В простом режиме предлагается вести полнотекстовый поиск по всем возможным полям записей проиндексированных ресурсов, а для уточнения запроса доступно только переключение сферы поиска между ресурсами BASE и поиском в базе. Академии Google через интерфейс BASE.

В режиме расширенного поиска можно вести поиск конкретных полей описания ресурсов (автор, заглавие, тема), определять географический регион и год издания публикаций. Здесь же можно определиться с типом искомого контента. Поддерживается поиск статей, книг, текстов лекций, тезисов докладов, а также карт, видео– и аудиофайлов. В систему BASE интегрирован тезаурус Eurovoc, так что при обработке запроса пользователь может получить релевантные результаты сразу на двух десятках европейских языков, а также списки синонимов и близких терминов, что позволяет при необходимости качественно уточнить запрос.

Поиск книг

Книга как форма представления информации продолжает жить и здравствовать даже в нашу эпоху глобальных сетей и гипертекста. Действительно, концентрированное и компактное освещение какой-либо темы в книге выгодно отличается от самостоятельных поисков информации среди россыпей веб-страниц.

Электронные книги – не редкость в современной Сети. Они доступны в различных форматах и на значительном количестве сайтов онлайновых библиотек. Сетевых библиотек сегодня достаточно много, среди них есть как универсальные, так и специализирующиеся на определенных видах литературы. Эффективность интернет-поиска электронных книг во многом зависит от правильного выбора библиотеки, коллекция которой должна максимально соответствовать тематике запроса. Запоминать все библиотеки и их особенности – не самый лучший путь, проще возложить эту миссию на поисковые системы. Вот только универсальные интернет-поисковики в данном случае не очень удобны, поскольку не позволяют быстро находить страницы, предлагающие ссылки на полный текст нужного произведения. Такие ресурсы иногда приходится буквально выкапывать из массы сопутствующих ссылок.

Принцип работы специализированных книжных интернет-поисковиков прост: вместо общего поиска по. Сети они ограничиваются просмотром заранее составленного списка сетевых библиотек. Это обеспечивает повышение точности поиска: за каждой ссылкой на странице выдачи будет находиться именно электронная книга, которую можно просмотреть в режиме подключения или скачать, чтобы просмотреть позже.

Сейчас можно найти достаточное количество подобных поисковых машин. Мы сосредоточимся на лучших представителях семейства, работающих с русскоязычными сетевыми библиотеками. Отобранные нами поисковики соответствуют нескольким важным требованиям. Во-первых, они работают только с теми ресурсами, которые предлагают полнотекстовые версии электронных книг в свободном доступе. Во-вторых, они умеют обрабатывать запросы с различными поисковыми признаками, в том числе специфическими именно для книг. В-третьих, они обеспечивают хороший охват сетевых источников, ведь именно в этом состоит главное преимущество специализированного интернет-поиска по сравнению с поиском в какой-либо одной сетевой библиотеке.

<p>Сервис Google Книги</p>

Сервис Google Книги позволяет не только искать книги, но и читать их в режиме подключения. Основу базы составляют отсканированные книги и электронные версии книг, предоставленные правообладателями. Важным источником пополнения базы стало сотрудничество с крупными традиционными библиотеками. Вопросы корректного использования оцифрованных Google в рамках этого проекта книг во время его становления возникали неоднократно. Обострялись они тем, что, в отличие от многих других подобных проектов оцифровки книг, компания Google работала и с современными изданиями, на которые распространялись авторские права. В итоге компромисс был достигнут и многие особенности книжного поисковика Google обусловлены именно стремлением найти баланс между поисковыми возможностями и требованиями защиты авторских прав.

Возможности составления запроса на сервисе Google Книги по внешнему виду и возможностям в основном соответствуют стандартному веб-поисковику Google. Здесь также предлагаются простой и расширенный режимы поиска. Отличия можно найти только в форме расширенного поиска книг. В ней стандартный блок составления запроса дополнен такими специфическими поисковыми признаками, как Заголовок, Автор и Издатель. Возможен поиск и по специальным индексам, относящимся к издательской продукции. Это международный стандартный номер книги (ISBN) и международный стандартный номер периодических изданий (ISSN). Такие индексы являются уникальными и позволяют однозначно идентифицировать нужное издание.

Собственно поиск ведется среди полных текстов оцифрованных книг. Страница выдачи содержит список результатов, содержащий миниатюру обложки, а также краткое библиографическое описание издания: заглавие книги, сведения об ответственности (имя автора и название издательства), количество страниц. Обязательно приводятся условия просмотра книги. Возможны три варианта, определяемые условиями, на которых издания были предоставлены Google правообладателями. Первый вариант – запрет просмотра текста книги. В этом случае рядом с таким результатом выводится сообщение «Без предварительного просмотра». Второй, наиболее распространенный, вариант предполагает возможность просмотра фрагментов отсканированных книг. Размер фрагментов может отличаться. Как правило, демонстрируются только одна-две страницы, на которых были обнаружены слова из поискового запроса. Кроме того, к показу правообладателем могут быть разрешены только определенные страницы издания. Обойти эти ограничения иногда удается подбором дополнительных ключевых слов или работой с оглавлением. Также можно найти приложения, позволяющие автоматизировать этот процесс и загружать на свой компьютер как фрагменты книг из баз Google, так и издания целиком. Третий вариант применяется к изданиям, срок действия авторских прав на которые истек или которые предлагаются правообладателями в свободном доступе. Такие книги в результатах поиска имеют пометку «Полный просмотр». Для полного просмотра предлагаются также все периодические издания, размещенные в базе Google.

Страница просмотра книги предлагает два режима отображения: простой текст, полученный в результате распознавания оцифрованных страниц, и непосредственный вывод графических файлов отсканированных страниц. Если издание разрешено для полного просмотра, в интерфейсе страницы располагается ссылка, позволяющая загрузить электронную книгу в формате PDF.

Обладатели аккаунтов Google получают также возможность добавлять нужные книги со страницы выдачи в собственную онлайновую библиотеку. Сделать это можно с помощью меню. Добавить в мою библиотеку, которое сопровождает каждый результат на странице выдачи В меню можно выбрать папку персональной библиотеки, в которой будет сохранена книга. На сохраненные книги можно составлять собственные рецензии, которые будут видны другим пользователям проекта. Предлагается также поиск среди текстов книг персональной библиотеки.

<p>eBdb</p>

Проект eBdb ведет свою историю с 2003 года, когда у его создателей появилась идея специализированного поисковика для интернет-библиотек. Первая версия проекта называлась eBoogle, однако через некоторое время имя проекта пришлось сменить из-за претензий со стороны представителей Google – слишком уж похожими были названия и дизайн. В результате проект обрел свое современное название, которое является сокращением от фразы «Electronic Books Database» – «база данных электронных книг». В настоящее время eBdb предлагает достаточно удобный поиск практически во всех крупнейших российских сетевых библиотеках. В индексе проекта сейчас насчитывается полтора миллиона электронных книг.

Рассмотрим основные возможности eBdb. Доступен только режим простого поиска, однако он дополнен рядом полезных инструментов. Некоторые из них реализованы в виде поисковых операторов. У пользователя есть возможность поиска книг внутри конкретной библиотеки. Для этого используется оператор site:, сопровождаемый адресом конкретной библиотеки. Заметим, что в таком запросе может фигурировать и группа библиотек, адреса которых в этом случае разделяются запятыми. Если же данный оператор использовать без какого-либо ключевого слова, а только с адресом веб-сайта, то страница выдачи будет содержать полный список книг из этой библиотеки, проиндексированных поисковиком. Поддерживается также стандартный поиск точной фразы. Для его запуска понадобится заключить свой запрос в кавычки.

Страница выдачи поисковика eBdb выдержана в классическом стиле. Результаты поиска выводятся в виде обычного текстового списка. Каждая позиция в списке содержит название найденной книги, краткую аннотацию, если она, конечно же, доступна на сайте библиотеки, и сведения о самой библиотеке, в которой была найдена книга, в том числе адрес сетевой библиотеки, общее количество проиндексированных в ней книг и сведения о необходимости регистрации, если для скачивания книги требуется заводить персональный аккаунт. Если книга была найдена в нескольких сетевых библиотеках, соответствующее сообщение будет показано рядом с результатом. Щелкнув на нем, можно просмотреть перечень библиотек и выбрать из них наиболее удобную для вас. Данная функция продублирована поисковым оператором group: По умолчанию ссылки в результатах выдачи группируются по одинаковым названиям книг. Такой подход позволяет избежать засорения списка выдачи дублирующимися результатами.

Кроме проекта eBdb.ru действует и аналогичный проект eBdb in English (www.ebdb.net). Заметим, что он работает с зарубежными сетевыми библиотеками, соответственно результаты поиска русской и английской версий поисковика различаются. При «иностранном» поиске книг в списке выдачи нередко можно обнаружить ссылки на файлы, которые хранятся на различных файловых хостингах. С одной стороны, это удобно, поскольку позволяет расширить сферу поиска. С другой стороны, никакой проверки работоспособности ссылок на файлы eBdb не проводит. Это значит, что вероятность наткнуться в таком режиме на «мертвую» ссылку или удаленный файл достаточно велика, что несколько портит впечатление от данного режима поиска.

Кроме собственно поисковика проект eBdb предлагает собственный каталог электронных книг. Он разделен на пять основных разделов. Наиболее крупным из них является раздел. Художественная литература, который содержит подразделы русской и зарубежной литературы, а также множество жанровых подразделов: от комиксов и манги до мемуаров. Раздел Нехудожественная литература содержит тематическую литературу по различным отраслям знаний и отдельным темам. Особенно интересны подразделы, посвященные изучению иностранных языков. Весьма богат раздел. Детям и родителям, в котором собрано одиннадцать тысяч детских книг и популярных педагогических изданий. Раздел Бизнес-книги, в полном соответствии со своим названием, предлагает литературу по экономике, финансам, организации бизнеса и другим сопутствующим темам. Раздел Foreign Books предлагает списки книг, отсортированных по языковому принципу.

Настройка механизма поиска вынесена на отдельную страницу. В процессе настройки можно определить способ открытия результатов – в новом окне или в исходном; способ группировки книг – по названию книги или без группировки, а также задать количество ссылок на странице выдачи Доступный диапазон – от десяти до ста ссылок на странице (рис. 2.4).

Рис. 2.4. Страница настройки поисковика eBdb


Проект eBdb обладает рядом приятных дополнительных возможностей и инструментов. В первую очередь отметим возможность RSS-подписки на поступившие в индекс поисковика новые книги из определенной библиотеки. Другой вариант – RSS-подписка на новые поступления eBdb, подходящие под составленный пользователем поисковый запрос. Последний вариант очень удобен, если вы постоянно отслеживаете книжные новинки определенной тематики.

Система eBdb предлагает собственный поисковый плагин, который можно установить в браузерах Internet Explorer и Mozilla Firefox. Веб-мастера имеют возможность установить форму поиска eBdb на своем сайте.

<p>Nigma</p>

Собственной системой поиска электронных книг обладает и российский кластерный метапоисковик Nigma. Система поиска Nigma, ориентированная на поиск в электронных библиотеках, еще находится в стадии разработки, и «фирменный» механизм кластеризации здесь пока работает не очень хорошо, однако его доработка применительно к особенностям поиска литературы, скорее всего, – просто вопрос времени. Что касается полноты поиска, то впечатление от данного ресурса двойственное. Как правило, Nigma находит меньше позиций, чем рассмотренный ранее проект eBdb. Однако у Nigma есть свои козыри.

Данная система включает в результаты поиска не только сами книги, но и рецензии на них, а также статьи критического плана. Такие ссылки помечаются в списке результатов рисунком с пером. Это обстоятельство весьма полезно для студентов и школьников. Из других дополнительных функций стоит отметить инструмент. Найти слова, доступный в виде ссылки, расположенной возле всех позиций в результатах поиска. Данная функция позволяет провести поиск ключевых слов из запроса в тексте найденной книги. Работает эта функция только для электронных книг, представленных в формате HTML или TXT. Возможность поиска в тексте книги весьма удобна, если первоначально поиск проводился по широкому тематическому запросу и перед скачиванием книги необходимо убедиться, что издание посвящено именно предмету вашего поиска, а не его синонимам из других областей.

<p>Biblio</p>

Сразу несколько проектов, посвященных поиску электронных книг, эксплуатируют технологии персонального поиска. Проект Biblio построен на платформе Google Custom Search.

Данный поисковик выдает не только прямые ссылки на книги или статьи, но и ссылки на страницы со списками книг, среди которых уже можно встретить прямую ссылку для скачивания нужного текста. При тематическом поиске это может быть полезно, поскольку появляется возможность найти новые книги по теме. Если же разыскивается конкретная книга, то такие ссылки только способствуют увеличению информационного шума.

Отметим, что поиск здесь полнотекстовый, а это значит, что слова из запроса ищутся во всем тексте выложенной в интернете электронной книги. Это плюс, однако не стоит забывать, что таким образом индексируются только те произведения, которые представлены в сетевых библиотеках в виде HTML– или TXT-файлов. Если же книга выложена для скачивания в виде архива, полнотекстовый поиск не работает. На популярные запросы к данным системам можно подписаться с помощью RSS.

У Biblio есть проект-близнец, который называется eBiblio (ebibLio.net). Рассматривать его отдельно особого смысла нет – результаты одинаковых запросов у данных ресурсов полностью совпадают вплоть до десятой страницы выдачи.

Особенностью данных проектов является возможность уточнения запроса с помощью перечня рубрик, расположенного над основным списком выдачи Он позволяет быстро отфильтровать в результатах поиска, например, только рефераты или справочные издания, оставив в стороне фантастику и другую художественную литературу. К сожалению, отметить сразу несколько рубрик нельзя. Кроме того, данный фильтр на Bibblio и eBiblio не всегда работает корректно, особенно в случае с аудиокнигами.

Поиск программ

Каталогов, отслеживающих новинки программного обеспечения или же собирающих соответствующие архивы, в современном интернете великое множество. Среди них есть как крупные проекты, стремящиеся к максимально полному охвату программ всевозможного назначения, так и специализированные тематические ресурсы. Такая ситуация порождает проблему: в ходе поиска или выбора какой-нибудь нестандартной программы приходится просматривать как минимум несколько каталогов программного обеспечения. Решение данной проблемы логично возложить на специализированные поисковики, которые примут запрос, отправят его на тематические ресурсы, обработают полученные результаты и представят их единым удобным списком. Подобные поисковики особенно хороши при поиске не конкретной программы, название которой вы уже знаете, а при подборе программ для решения какой-либо задачи, поскольку позволяют составить достаточно полное впечатление о состоянии рынка в выбранной области. Сразу предупредим, что речь пойдет о машинах, работающих только с легальным программным обеспечением – не важно, бесплатным или коммерческим. Так что потребителям «вареза» с комплектом «таблеток» лучше обратиться к другим источникам.

<p>SoftSearch</p>

Для поиска русскоязычного программного обеспечения имеет смысл использовать систему SoftSearch. Все-таки зарубежные машины плохо справляются с поиском наших программ, да и понятие «русификатор» им, как правило, не ведомо. Этот поисковик работает с двумя десятками каталогов программного обеспечения, в том числе Downloads.ru, Freesoft, Listsoft и многими другими крупными ресурсами, что в итоге создает достаточно широкую базу поиска.

В SoftSearch доступен только режим простого поиска. С помощью переключателей можно только выбрать тип контента: помимо компьютерных программ SoftSearch позволяет искать книги, новости и статьи. Дополнительные фильтры появляются уже на странице выдачи результатов поиска. Состав их не отличается оригинальностью, но предлагает все основные возможности, включая отбор программ с русским или английским интерфейсом, фильтрацию программ с различным типом лицензии (свободное распространение или условно-бесплатные). Отдельный фильтр посвящен выбору платформы. Поддерживается выбор различных версий Windows, Mac OS, Unix и мобильных операционных систем. Также можно задать количество ссылок на странице выдачи Диапазон допустимых значений – от классической десятки до сотни. К сожалению, одновременно указать в одном запросе несколько условий не получится, что не очень удобно.

Конец бесплатного ознакомительного фрагмента.

  • Страницы:
    1, 2, 3, 4