Современная электронная библиотека ModernLib.Net

Компьютерра - Журнал "Компьютерра" N741-742

ModernLib.Net / Компьютерра Журнал / Журнал "Компьютерра" N741-742 - Чтение (стр. 3)
Автор: Компьютерра Журнал
Жанр:
Серия: Компьютерра

 

 


      Diablo 3 представили на Blizzard Worldwide Invitational, где был показан двадцатиминутный ролик, демонстрирующий геймплей. Судя по видео, работа над игрой если и не завершена, то уже находится в финальной стадии.
      Окунуться во вселенную Diablo 3 (новая часть истории о борьбе с мировым злом перенесена в полностью трехмерное окружение) смогут владельцы Mac и PC, а вот консольщики остались с носом. О дате выхода пока ничего не говорится, можно лишь помечтать. Например, о новогодних подарках… АБ
 

***

 
      Сбываются мечты тех, кто грезил о новеньком iPhone 3G, не привязанном к конкретной сотовой сети. Теперь не только некоторые операторы в Европе, но и AT amp;T заявили о готовности продавать трубки по принципу Pay amp;Go за 600 или 700 долларов за модели с 8 или 16 Гбайт памяти на борту. Представители оператора говорят, что решились на этот шаг лишь потому, что люди сами того хотели. И правда, кто же откажется заплатить за телефон тройную цену? АБ
 

***

 
      Известия о новых сервисах от Google уже давно никого не удивляют. Не все новинки приживаются, однако некоторые становятся просто незаменимыми. Быть может, подобная судьба постигнет и проект Media Server — новую функцию Google Desktop.
      Фича позволяет транслировать медиа-контент прямиком на бытовые устройства, поддерживающие семейство протоколов Universal Plug and Play. Это, например, Sony PlayStation 3 и ряд продвинутых телевизоров. В дальнейшем тому же научат цифровые рамки, смартфоны (несколько моделей уже работают с этой технологией) и прочую электронную братию.
      Как не раз случалось,Google взяла известную задумку и приправила ее фирменным соусом. В результате, наряду со стандартной функциональностью подобного ПО, появилась возможность смотреть видеоролики с YouTube и фото из Picasa (находящиеся на локальном компьютере или в онлайн-альбомах) не вставая с кресла в гостиной.
      YouTube частенько называют убийцей традиционного ТВ. Google Media Server позволит самому популярному видеосервису еще увереннее теснить телевидение на его же территории. ТВ

тема номера: Совершенное несовершество

      Совершенное несовершествоАвтор: Илья Щуров
      Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года Если верить физикам, фундаментальные свойства Вселенной от времени не зависят. Законы, правящие материей, всегда действовали и будут действовать одинаково — вчера, сегодня или миллион лет назад.
 

Так что менять физический мир, с которым мы сталкиваемся в повседневной жизни, — занятие непростое.

 
      Кому-то это удается — и в результате вместо пещер мы живем в небоскребах, перемещаемся на дальние расстояния не бегом и даже не верхом, а в автомобилях и поездах, а для связи используем не голубиную почту, а электронную.
      Казалось бы, совсем другое дело — менять пространство виртуальное, созданное самим людьми и далекое от бренной материи и ее ограничений. Достаточно одной революционной идеи, нескольких десятков строк кода, и — добро пожаловать в новый мир! Однако, как оказывается, вселенная "чистого разума" обладает своей инерцией и тоже сопротивляется изменениям, порой с завидным упрямством.
      Сегодняшняя тема номера посвящена тому, как меняется Веб — самая известная, популярная и динамичная из существующих на сегодня "виртуальных" сред. Как те самые "революционные идеи" сталкиваются с существующими технологиями, пытаются их изменить — и сами меняются под их воздействием.
      Это противостояние неизбежно. Одним из ключевых факторов, определивших успех и даже сам факт существования современного Веба, был его "прощающий" характер, благодаря которому даже самый криворукий вебмастер мог написать свою страничку, что называется, особо не заморачиваясь соответствием стандартам, семантической разметкой и прочими глупостями. Вследствие этого несовершенства архитектуры, тормозящего сейчас наше движение в светлое будущее, мы как раз и имеем то настоящее, которое имеем. А это, наверное, тоже чего-то стоит…

Ахиллесова пята Семантического Веба

      Ахиллесова пята Семантического ВебаАвтор: Виктор Шепелев
      Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года Тим Бернерс-Ли, много лет назад создавший Веб, долгое время был привычен нам в амплуа участника комитетов, радетеля и охранителя, авторитетного, но кабинетного ученого. Однако в последние месяцы досточтимому сэру стало тесно в этом амплуа: то опубликует программную статью про Giant Global Graph — будущее Веба [См. "Обалдеть, завтра дайте три!" ("КТ" #717).], то интервью даст, с легкой руки журналистов получившее кодовое название "Создатель Веба рассказывает, где смерть Гуглова"[ ]. Нетрудно заметить, что и в этих новых статьях/интервью отец-основатель продвигает все ту же идею, которую продвигал в предшествующие семь лет: идею (фанфары!) Семантического Веба. А, простите, что это? И, кстати, почему все эти долгие годы (за которые в Интернете изменилось чуть ли не все) Прекрасный Новый Веб неизменно остается "делом отдаленного, но близкого будущего"?
 

Замах: Обыкновенный веб

 
      Как известно, Веб и составляющие его технологии — HTML (формат описания гипертекста), HTTP (протокол передачи гипертекста), URL (способ адресации гипертекстовых документов) — далеко не первая гипертекстовая система в мире. К тому моменту, как молодой выскочка-ядерщик заинтересовался темой, считалось, что известны инструменты, наработаны теории и технологии, и вообще — гипертекст это наше все и наше будущее (как только глупые люди поймут, сколько в нем преимуществ). И тут появляется Бернерс-Ли, тогда еще ни капельки не сэр, и создает систему, которая с возмутительной простотой и легкомыслием нарушает большинство принципов простоты ради — и завоевывает мир. (Заметим, что прототип Веба, персональная программа-для-управления данными Esquire, была куда более "серьезным" инструментом, нежели все достижения сегодняшних технологий, — она работала не просто со "ссылками куда-то", а со ссылками, включавшими описание отношений между данными, проверявшими наличие и релевантность "конечной точки" и т. п.) Причины, по которым эта простота и "легкомысленность" Веба стали главным залогом его успеха, мы здесь рассматривать не будем (хотя бы потому, что автор уже делал это — см. "Таинственные формулы прогресса" в "КТ" #695). А рассмотрим мы — что с сегодняшним Вебом не так, какие проблемы порождает его простота и снисходительность.
      А "не так", собственно, только одно — набор элементов, предоставляемых HTML, слишком мал и однообразен для описания богатой семантики современной веб-страницы — даже с учетом всех благих рекомендаций по отделению представления от содержания и использованию таблиц стилей (CSS).
      Ведь все элементы HTML, в общем-то, предназначены для описания только и именно текста, статьи, документа; все это богатство (абзац, заголовок, таблица и пр.) отнюдь не рассчитано на страницы сложной структуры, состоящие из многих сегментов — верхнего меню, бокового меню, подвала, панели ссылок… то есть всего, что составляет практически любой современный сайт. Таблицы стилей скрывают от нас, что с точки зрения языка разметки мы смотрим не на "страницу с меню и блоком навигации", а на сотню одинаковых блоков или (упаси господи) здоровенную таблицу из полутора сотен ячеек. Еще более проблемный элемент — собственно ссылка, основа и связующее звено гипертекста.
      Опять же, с точки зрения семантики любая ссылка выглядит одинаково, и отличить ссылки внутренней навигации от несущих смысл информационных связей (а также от ссылок "по дружбе", ссылок на "студию, которая делала этот сайт", и т. п.) может только естественный интеллект (вооруженный к тому же современным браузером, изображающим документ примерно так, как предполагал его автор). И это если не говорить о "ссылках", выглядящих как таковые, но никуда не ссылающихся, а открывающих новые окна, выполняющих AJAX-запросы и делающих много других, крайне полезных, но никак в семантику ссылки не укладывающихся дел [Некоторые из этих проблем пытается исправить будущий стандарт HTML5, вводящий, например, элемент ‹nav› для обозначения навигационной части страницы;другие проблемы решаются и в сегодняшнем HTML’е при помощи менее известных "фич" вроде возможности указать атрибут "rel"(relation) для любой ссылки, обозначив ее отношение к текущему документу. Но все это лишь случайные "поправки" — тогда как необходимо комплексное решение проблемы].
      То есть изначальная (и нынешняя) структура HTML, во-первых, не учитывает разделения любой вебстраницы на "приложение" (навигацию, служебные и информационные элементы) и его "контент"; вовторых, эта самая структура неспособна адекватно отобразить отношения между частями сложного контента, действуя лишь в терминах "это идет за этим" и "это стоит рядом с тем". Соответственно, любая маломальски нетривиальная задача по работе с информацией в Вебе не может быть выполнена автоматизированным средством анализа, а только — человеком, отличающим оформление от контента, существенную информацию от факультативной, определяющим значимость ссылок "на глаз".
      Тим Бернерс-Ли и его коллеги осознали эти проблемы уже довольно давно и, в общем и целом, сделали вывод, что "с самого начала надо было не так".
      Вот это самое "не так", которое одно время казалось будущей заменой нынешнего Веба, и получило название Semantic Web — Семантической Паутины.
 

Прыжок: Прекрасный новый веб

 
      В чем же радикальное отличие Прекрасного Нового Веба, каким он видится тем, кто "знает, как надо"?
      Разберемся для начала формально, по спецификациям и стандартам W3C.
      Итак, предполагается, что Семантический Веб состоит из ресурсов, информация на которых описана на языке RDF (Resource Description Framework).
      Грубо говоря, в каждом случае составляется нечто вроде анкеты. В случае порнокартинки [Этан Цукерман (Ethan Zuckerman) утверждает, что любая востребованная среда привлекает порнографию и социальных активистов;если нет порнографии — среда не работает, нет активистов — работает, .], например, будут описаны характеристики самого изображения, изображенных личностей и их занятий в достаточно строгом, иерархическом формате, который может быть однозначно разобран алгоритмом [Вообще говоря, распространено мнение, что RDF — подмножество языка разметки данных XML. На самом деле это не так: XML лишь один из форматов, в котором может быть сохранено RDFописание; другой, например, формат — Notation 3.Модель данных RDF, в отличие от XML, является не иерархической ("автор" является частью "картинки", являющейся частью "набора картинок"), а предикатной (автор и картинка находятся в отношениях "является автором", картинка и галерея — в отношениях "входит в"); графически данные, описанные в RDF, представляются графом, а не деревом]. Ресурс, информация на котором описана таким образом, гораздо более гибок в использовании, нежели традиционный HTML-сайт: например, в гипотетическом примере с порнокартинкой можно одним движением запросить у ресурса его данные, отсортированные и отобранные по любому из свойств этих картинок, — причем в отборе и сортировке пользователь будет полагаться не на создателей ресурса и его встроенный поисковик, а только на своего интеллектуального (программного) агента, который переберет все доступные данные, проанализирует их описания и выберет/отсортирует в соответствии с запросом пользователя.
      Но главная цель и сущность Семантического Веба не в том, чтобы информация с отдельного ресурса была представлена в логичном, машиночитаемом виде, а в синергическом эффекте, происходящем от наличия глобальной сети ресурсов, "говорящих" на общем формальном языке. Переходя от уровня отдельного ресурса на уровень всеобщей Сети, наш гипотетический любитель клубнички может получить от своего интеллектуального агента биографии понравившихся моделей (включая сразу и ссыл ки на покупку соответствующей продукции) или, скажем, описания по применению заинтересовавших подходов к проблеме, — и все это не потому, что авторы единственного сайта сочли нужным проставить соответствующие ссылки, а потому, что мы оперируем в рамках сети данных (формально описанных в терминах общих языков и словарей) вместо нынешней сети страниц.
      Чтобы все это работало, понадобятся еще некоторые компоненты, кроме собственно языка описания данных. Нужны общие термины-предикаты допустимые разделы и "поля" для "анкет" разных типов. Например, если в RDF-документе записано, что он использует схему данных[Описанную, к примеру, в формате RDF Schema. Форматов существует несколько, но главное не формат, а декларация намерений: схема может быть вообще никак не описана, а только определяться уникальным идентификатором. Например, схема дополнительных полей для описания блога от Яндекса не имеет публичного описания, но любой документ, в котором есть URL-идентификатор этой схемы — " ", — декларирует, какое значение он придает предикатам вроде "blogActivity" или "bio".], обозначаемую таким-то уникальным идентификатором (как правило, таким идентификатором служит адрес в Вебе, где выложена сама схема или документация по ней), это сразу говорит интеллектуальному агенту, какие поля он может встретить (и позволяет агенту определить, знает ли он способ обработки таких типов документов).
      Следующий компонент, позволяющий интеллектуальному агенту уверенно чувствовать себя в сети данных, — это онтологии (классификации и описания свойств) общих понятий и отношений между ними.
      Ссылки на онтологии позволяют интеллектуальным агентам понимать, что если рассматриваемые данные описывают "страну", то у нее может быть ссылка на ровно одно данное типа "столица", несколько ссылок на "граничащие страны" и т. п. Другой пример (возвращаясь к нашей клубнике): если разные ресурсы используют в качестве названий… хм… жанров не просто текстовые строки, а ссылки на термины одной общей онтологии порножанров, лежащей где-то в Сети, то программный интеллектуальный агент сможет на всех этих ресурсах выполнять едино образные запросы с гарантированным результатом, независимо от того, какими словесами обозначены жанры в пользовательском интерфейсе. Самый известный и "официальный" (в смысле наличия W3C-стандарта), хотя и не единственный язык описания онтологий называется OWL (Web Ontology Language)[Один из создателей языка о несоответствии названия аббревиатуре: "Ну, может же язык, созданный ради логичности и последовательности, быть хоть в чем-то непоследовательным?"]. В более ранних описаниях Семантического Веба OWL фигурирует как "единственно верный" язык описания онтологий, но реальность часто корректирует стандарты, делая их более вариативными, — сегодняшний FAQ на сайте указывает лишь, что "необходим язык описания онтологий, например OWL". Другие более-менее распространенные языки — SKOS, созданный европейским семантическим сообществом, и DAML+OIL, выращенный в недрах DARPA.
      Наконец, очевидно, что нужны и стандартные средства обработки RDF-данных — описания запросоввыборок [Эту роль берет на себя язык SPARQL (во многом подобный языку SQL, используемому для запросов к обычным реляционным базам данных).] и систем логических выводов[Существует предложенный, но пока не принятый стандарт Rule Interchange Format (RIF).].
      Итак, сводим воедино прекрасную картину Семантического Веба: все ресурсы Сети выглядят как "анкеты" на языке RDF, излагающие смысл, а не внешний вид; во всех имеются ссылки на схемы-описания полей этих анкет и словари общих терминов. Пользователь же вооружен не пассивным "браузером"просмотрщиком [Кстати, для установки аналогий в головах читателей — на официальном языке стандартов W3C браузер тоже называется "пользовательским агентом"], а активным интеллектуальным агентом, работающим на уровне данных (независимо от их источника), а не страниц. То есть: из онтологии популярных фотосайтов вытащил порносайты, отобрал с них изображения по восьмидесяти критериям вкуса пользователя и вывел аккуратным списочком, доступным для дальнейшей сортировки, фильтрации и вду-у-у-умчивого просмотра.
      Вот почему сэр Тимоти считает, что "Гуглу капец": буде все "интересненькое" в мире опишется формальными RDF-описаниями, методы взаимодействия с Вебом станут (могут стать) принципиально другими. Изменятся (могут измениться) даже самые что ни на есть базовые вещи: единица "браузинга" по Семантическому Вебу уже не имеет ничего общего со "страницей" (единственным документом в каком бы то ни было формате, определяемым своим адресом-URL) — она может быть как маленькой частичкой огромного "документа", так и, наоборот, огромным описанием, составленным из фрагментов десятков документов-описаний со всей Сети. По сути (в экстремуме, в идеальной сети данных), загнуться или сильно изменить бизнес-модель придется не только поисковикам, но и блоговым платформам, онлайн-магазинам, фотохостингам… Останутся лишь "голые" производители, потребители и хостеры "голых" же данных и шустрые интеллектуальные агенты между ними.
      Однако основным идеям Семантического Веба уже немало лет, а не то чтобы "экстремума", но даже стремительного роста не видать (сравните хотя бы с куда более молодым термином-вирусом "Web 2.0", знакомым любой домохозяйке). В чем же дело?
 

Где деньги, Зин?

 
      Вот вопрос: а где же, собственно, во всем этом благолепии деньги (которые, как известно, правят миром), — то есть что может завлечь сильных мира сего в Сети Семантики? Ответы есть и у , и лично у сэра , но, в общем-то, не слишком убедительные: дескать, информационные потоки любой корпорации могут быть организованы существенно эффективнее (читай — выгоднее), если будут основываться на семантически описанных данных. Но вопрос-то не в том, что Семантический Веб намного проще, а в том, где деньги для поставщиков контента? С какой стати мой непосильнымтрудом-нажитый контент должен участвовать в сети-без-сайтов, где потребитель информации не"зайдет ко мне" (и посмотрит Рек ламу!), а получит от меня лишь нужный ему кусочек данных посредством своего интеллектуального агента?
      Существует интересный прагматический ответ на этот непростой вопрос, известный под названием . Идея в том, что пользовательским "интеллектуальным агентом", интерфейсом к миру семантических данных, должен являться обычный сайт, аггрегирующий информацию с семантических сервисов и предоставляющий пользователю дружественный интерфейс для навигации по этой информации и выполнения сложнейших запросов. Именно этот сайт (точнее — множество сайтов, для каждой отрасли — свой интеллектуальный агент) и будет показывать пользователю рекламу — да не свою, а полученную из "семантической базы рекламы" и семантически же привязанную к текущему контенту. При этом деньги из кармана рекламодателя (минус процент "интеллектуального агента") будут переходить в карман поставщиков того контента, к которому семантически привязалась реклама. Не правда ли, похоже на модель Гугла с его AdWords и AdSense?
      В таком разрезе Семантическая Паутина простому пользователю представляется немногочисленным набором сайтов-аггрегаторов специализированных поисковиков, выполняющих посредническую роль не только между пользователем и информацией, но и между поставщиком контента и рекламодателем. Условный пример: на сайте-"интеллектуальном агенте" географической направленности пользователь может максимально быстрым и удобным путем найти любую информацию об интересующей его местности — от туристической до краеведческой; и при этом он увидит максимально релевантную своим поискам рекламу: человеку, просматривающему информацию об отелях, будет предложено несколько соблазнительных туров, а взыскующему исторических сведений скорее выпадет реклама книжных магазинов и обучающих фильмов. При этом, напомним, сам сайтсервис является просто универсальным интерфейсом к туче баз данных (находящихся на других серверах, принадлежащих другим хозяевам).
      Выводы о преимуществах и недостатках описанного подхода, а равно и перспективах его внедрения, оставим читателю в качестве домашнего задания.
      (Редактор попытался начать выполнять "домашнее задание" и сразу столкнулся с вопросом: с чего бы агенту что-то отстегивать поставщику контента, если только мы не планируем вступать на шаткую землю "технологий защиты от копирования"?)
 

Подача в прыжке

 
      Если попытаться дать простой ответ на прямой вопрос — побеждают ли идеи Семантического Веба? — то мы окажемся перед серьезным затруднением.
      С одной стороны, разработанные инструменты — RDF как универсальный способ машиночитаемого описания данных, OWL как способ построения онтологий, SPARQL как способ запроса к этим данным и онтологиям — вполне себе заняли место в научных и смежных областях и стали стандартом де-факто. С другой стороны, в "мэйнстрим" эти технологии не спешат — а когда и прорываются, редко обходится без конфуза. Например, всем известный RSS — формат для описания обновлений сайтов и блогов, вполне себе семантическая штука, — изначально расшифровывался именно как RDF SiteSummary; завоевание им всеобщего признания казалось началом триумфального шествия Semantic Web по планете. Однако в результате некоторых противоречий и недопониманий на данный момент существует несколько разных RSS’ов (0.90, 0.91, 1.0,2.0), которые, даром что отличаются только номерами версий, имеют совершенно разную внутреннюю структуру и даже разную расшифровку аббревиатуры. Из этих форматов только 0.90 и 1.0 по-прежнему основаны на RDF. А RSS 0.91 (Rich Site Summary) и RSS 2.0 (Really Simple Syndication) — более простые форматы, не связанные с ключевыми технологиями Semantic Web. (Вдобавок существует еще и альтернативный и популярный формат Atom, тоже не имеющий с RDF ничего общего.)
      Вообще говоря, превалирующим "сторонним взглядом" на перспективы идей Семантического Веба долгое время был абсолютный пессимизм и неприятие[Еще полтора года назад автор писал колонки на тему "почему Семан- тического Веба нет, не было, и не надо" — .]. Причины, в общем, можно легко предпо ложить: среди всего разнообразия сайтов, созданных разнообразнейшими методами, руками авторов с разнообразнейшей квалификацией, трудно ожидать вспышки интереса к "правильной", осмысленной выдаче данных — тем более что выгоды каждого конкретного сайта/сервиса от собственной семантичности малоочевидны, а квалификации создателей не всегда хватает на семантически правильное использование элементов простого HTML, вроде заголовков и списков. Да и сама идея полной (или, по крайней мере, существенной) замены современного Веба Новым Вебом казалась утопией — при полном отсутствии так называемого killer app, привлекательного и общеполезного приложения (не гипотетического, а работающего "здесь и сейчас"), которое делало бы преимущества Нового Веба очевидными любому.
      Но в новейшее время в семантичности Веба определенно происходят положительные сдвиги — хотя "семантические" технологии W3C играют в этих сдвигах далеко не первую роль. Killer app’ом, чья популярность только зарождается, оказались, вопервых, поиск, а во-вторых — переносимость данных.
      Средством и основной технологией — микроформаты и простые API популярных сервисов. Средством структурирования — (контролируемые) фолксономии.
      Результатом — не новая "сеть данных", но и не старая "сеть страниц", а гибридная "сеть страниц с (мета) данными".
      Итак, семантическая информация в сегодняшнем Вебе-не-только-для-ученых преимущественно записывается в виде микроформатов — стандартов, позволяющих к существующей HTML-странице добавить информацию о смысле данных. Например, ‹a href=''/go.php?url=http%3A%2F%2Fvasya.com''› — это "какая-то ссылка"; а ‹a href=''/go.php?url=http%3A%2F%2Fvasya.com'' rel=''colleague''› [Помните "малоиспользуемый и забытый атрибут rel" из первого раздела? ] это та же ссылка, но семантически описывающая мои отношения с блогом-по-ссылке в формате XFN (XHTML Friends Network — натурально, формат задания информации о френдах), — при этом, с точки зрения простого браузера, страница выглядит все так же, но "понимающие" XFN боты[Или браузеры со специальным плагином, например Operator для Firefox.]"увидят" дополнительную информацию и смогут ее использовать. Существуют микроформаты для описания, например, контактной информации (hCard), календарной (hCalendar), информации о "Creative Commons"-лицензировании данного контента и множество других.
      Смежный способ "придания дополнительной информации" обычной странице — задание "альтернативных представлений этой страницы" в ее заголовке.
      Именно так в блогах указывают их RSS-потоки (тоже ведь — ссылка на "семантическое изложение" того же, что мы видим в HTML); именно так на страницах профилей в разно образных социальных сетях (в том же ЖЖ, например) указывают ссылки на FOAF документы[ FOAF (Friend of a Friend) — схема RDFдокументов, указывающих, опять же, информацию о френдах и ссылки на них. То есть FOAF и XFN — это конкурирующие технологии.].
      Хорошо, допустим, кто-то решил описать таким образом часть контента на странице. Возникает закономерный вопрос (точнее — даже два): какая обычному инфопутешественнику [Это автор так предпочитает называть веб-серферов. И красивше, и семантичнее] польза и радость с этой семантики? и даже если она есть, много ли страниц, в которых заложена такая информация?
      Действительно, даже Firefox+Operator, честно показывающий "в этой странице заложена контактная информация, хотите ее экспортировать?" или "здесь используются такие-то теги", кажется скорее "вспомогательной фенькой для гика", нежели "признаком качественно другого веба"[Впрочем, есть мнение, что скрытый потенциал семантических микроформатов еще раскроет себя в интеграции виртуальной и физической реальности на мобильных устройствах. Самыми простыми и очевидными примерами представляются мобильник, умеющий одним кликом позвонить по записанному на веб-странице телефону, или КПК, по геоинформации описания достопримечательности в путеводителе немедленно запускающий навигатор.]. Но — вспомним, что было сказано выше о killer app’ах Настоящего Семантического Веба["Настоящего" — не в смысле "истинного", а в смысле существующего здесь и сейчас (в отличие от утопического Полностью Семантического Веба).]: поиск и перенос данных.
      Семантическим поиском (то есть поиском, учитывающим свойства данных, а не только встречаемость слов в документе) многие из нас пользуются ежедневно. Это, например, Яндекс-поиск по блогам, индексирующий RSS-потоки блогов и форумов и позволяющий находить отдельные посты (независимо от того, как они сгруппированы в HTML-страницы), причем вести поиск можно не только по встречающимся словам, но и по "семантическим" (смысловым) атрибутам записи — заголовку, имени автора, тегам и пр. Другой пример — множество сторонних сервисов для "сложного" поиска по Flickr или del. icio.us: здесь играет большую роль открытый и простой API, ставший одним из почти обязательных признаков Web2.0-сервиса. И породивший новую разновидность сервисов: машапы (mash-ups, помеси сервисов), извлекающие семантически описанную информацию из нескольких популярных сервисов и объединяющие ее по этим самым семантическим признакам[Навязший в зубах пример — показать чтонибудь, снабженное геоинформацией (например, записи-статусы Twitter), на картах Гугла.], — при этом, заметим, смешиваемым сервисам достаточно описать свою информацию в рамках своей области и вовсе не нужно договариваться об общем языке данных и общей онтологии допустимых значений.
      Вот, кстати, и слово сказано — ответ на вопрос "кто вообще будет этим заниматься?" (в смысле — добавлением/экспортом семантической информации). Отдельный пользователь-автор — вряд ли (точнее — не стоит рассчитывать на всех и каждого). Но если наш пользователь-автор — участник крупной Web2.0-системы — будь то блог-хостинг, фотохостинг, голая "социальная сеть", энциклопедия, — создатель сервиса может озаботиться тем, чтобы ПО самой системы экспортировало метаинформацию (описание блоговых записей, фотографий на хостинге и т. п.).
      Зачем? Чтобы потрафить семантическим поисковым системам, настоящим и будущим, и в конечном счете увеличить посещаемость и прибыли (чувствуете разницу с целями Идеального Семантического Веба — изничтожить само понятие "посещаемости отдельного сайта"?). Завтра создавать новый блог-хостинг/социальную сеть (или автономный движок для личного блога, например), не представляющую информацию о френдах в общеизвестном формате (FOAF или XFN), будет такой же глупостью, как сегодня — блог-хостинг без RSS-лент.
      К вопросу "экспорта ради поиска" примыкает вопрос "экспорта ради миграции и интеграции", все больше волнующий пользователей — они жаждут возможности единожды записанные данные переносить между разными сервисами — для чего, опять-таки, все эти сервисы должны поддерживать общепонятные стандарты "описания данных по смыслу". Наиболее объемлющая инициатива такого рода — проект DataPortability, ставящий своей целью описать, какие открытые стандарты, микроформаты и протоколы (hCard, FOAF, OpenID, RSS, RDF…) должен "понимать" уважающий себя современный сервис, чтобы пользователю легко было "прийти" и "уйти" со своими данными. Учитывая, что этот молодой (основан в ноябре 2007-го) проект уже получил широчайшую поддержку рынка (по крайней мере, на словах) — от Google и Microsoft до Facebook и Twitter, — можно ожидать постепенного нарастания массы семантической информации, экспортируемой и импортируемой популярными сервисами. А вслед за "грандами" подтянутся и стандарты "хорошего тона" индустрии. Так победим!
      Наконец, нельзя не упомянуть о двух последних громких проектах Настоящего Семантического Веба: OpenSocial от Google (стандарт интеграции социальных сетей — как раз через экспорт социальной информации в общепонятных форматах) и недавно анонсированном будущем семантическом поиске от Yahoo (поисковик, понимающий и индексирующий микроформаты и другую семантическую информацию, который наконец-то обобщит проблему поиска "контактов человека по имени Вася Пупкин и людей, его знающих"). Так, пока автор идеи Семантического Веба рассуждает о том, как он (Semantic Web, а не автор) убьет современные поисковики, эти самые поисковики находятся впереди планеты всей в задаче введения семантических элементов в Веб обыкновенный. Такие вот дела.
 

Вслед за уходящим паровозом

 

  • Страницы:
    1, 2, 3, 4, 5, 6, 7, 8, 9