Оправдал ли XML возложенные на него надежды? Взгляд на то, как некоторые Web-издатели используют возможности нового языка.
В области издательства для Web, которая в избытке насыщена различными сокращениями, не существует другой аббревиатуры, возбуждающей больший интерес — и надежду — чем язык XML (сокращение от Extensible Markup Language — расширяемый язык разметки), провозглашенный наследником HTML. Если верить многим апологетам XML, то можно считать, что святой грааль Web-издательства наконец найден — а Internet готов выполнить свое предназначение как более интеллектуальная, с расширенными возможностями поиска и значительно более полезная информационная среда.
Практически за «одну ночь» XML буквально ворвался на стенды издательских выставок, таких как Seybold Seminars и Web Design and Development. Разработчики программ — включая Microsoft с ее шумно разрекламированным Internet Explorer 5.0 и SoftQuad с только что представленной версией XML-редактора XMetal 1.0 — поспешили вскарабкаться на ступеньки отходящего поезда с надписью «XML». Готовится к выпуску основанная на XML издательская система Omnex компании Atex. А вслед за ними на рынок хлынет множество других программ редактирования XML, систем управления цифровыми архивами и издательских систем для Web, различающихся по размеру и сфере приложения — от однопользовательских до программ масштаба предприятия.
Но многое еще не ясно: что же произошло после того, как граждане Web впервые услышали чарующую легенду об XML? Много ли существует узлов Web, где действительно используется XML? И как это происходит?
Пришло время отделить мифы от фактов. Ниже рассматриваются два масштабных узла, Wall Street Journal Interactive Edition и Financial Times. Кроме того, читателю предлагается обсудить вопрос о том, на что способен XML сегодня, и какую пользу может принести для издательских технологий этот язык в будущем.
Но вначале важно понять, что такое XML. А чтобы разобраться, для чего он нужен, и что означает его внедрение для будущего Web, нужно вернуться к его истокам.
Имена для данных
Впервые XML привлек к себе общее внимание около трех лет назад, когда Web-издатели начали подумывать о подходящей замене для HTML. Хотя можно утверждать, что HTML является одним из самых успешных из когда-либо созданных языков для электронного издания, его возможности существенно ограничены. Используя все что угодно — от 1-пиксельных GIF-изображений до динамического HTML — Web-дизайнеры уже выжали максимум возможного из существующего языка.
«Совершенно очевидно, что HTML не подходит для приложений электронной коммерции и сложных программ, которые многим людям хотелось бы разместить в Web. К середине 1996 года это стало понятно всем», — рассказывает Тим Брей. Независимый писатель и программист из Ванкувера (Британская Колумбия), Брей является одним из редакторов XML 1.0 и других стандартов World Wide Web Consortium. «Значительно менее очевидной, — продолжает он, — была судьба более общего стандарта SGML [Standard Generalized Markup Language, «отец» HTML], который обладал многими возможностями, необходимыми в Web».
Тогда почему бы просто не использовать SGML? Потому что обилие опций делает его слишком тяжеловесным для ограниченной полосы пропускания каналов Web. Web-издателям нужно подмножество SGML, которое можно было бы расширять новыми наборами тегов, но при этом не отягощать каналы связи полной функциональностью SGML. «XML претендует на роль золотой середины [между HTML и SGML] и, похоже, справляется с ней успешно», — считает Брей.
В HTML теги описывают, как должны выглядеть данные; в XML теги описывают сами данные. Например, тег AUTHOR позволяет подписчикам выполнять в Wall Street Journal Interactive Edition поиск статей, написанных определенным автором, причем в результаты поиска не будут отобраны статьи, где фамилия автора просто упоминается. Дело в том, что XML дает возможность выполнять поиск определенных типов данных, в то время как HTML позволяет просто искать определенные данные, в данном случае — имя автора.
П. Г. Бартлетт, вице-президент по маркетингу компании Arbotext, разрабатывающей в числе других программ и XML-редактор Epic, говорит: «XML обладает чудесным качеством — его можно использовать для представления любых видов данных, как неструктурированных — из документа в произвольной форме, так и высокоструктурированных — из базы данных».
Это значит, что на XML можно описать части иерархически структурированных документов, а также представить данные в виде строк и колонок. Поэтому XML подходит не только для управления тем, что известно как «содержание» (content), но и для управления обменом практически любыми видами данных через Web. Например, в мире XML врачи смогут проверять состояние своих пациентов через Web, а также копировать эту информацию непосредственно в базу данных больницы.
Другими словами, XML одинаково хорошо интерпретируется машинами и людьми, что исключительно полезно для обслуживания и обмена данными. Многие банки и финансовые организации уже используют различные формы XML для обмена данными с другими организациями через Web.
Кроме того, различные формы XML являются основой для других языков разметки. XML, как и его родитель, SGML, не столько язык разметки, сколько словарь для создания таких языков. В то время как HTML — традиционный язык разметки — обладает определенным набором тегов, XML может иметь любое количество тегов. Самое хорошее в этом языке то, что вы можете создавать новые теги, а браузер или издательская система, которые прочтут данные XML, всегда поймут их. (Подробнее об этом см. во врезке «Кухня тегов»).
Приближение к реальности с XML
Очевидно, что XML обладает огромным потенциалом, но насколько эти обещания выполнимы? Многие профессиональные Web-издатели, не колеблясь, дают на этот вопрос положительный ответ.
Хотя издательские системы для Web высшего класса с поддержкой XML только начинают пробиваться на рынок, издатели уже описывают содержимое своих узлов на XML, комбинируя возможности некоторых готовых продуктов и приложений собственной разработки.
Алан Карбен, один из руководителей разработки интерактивных средств для Wall Street Journal Interactive Edition, говорит, что в его компании используются как XML, так и SGML. Все работники создают публикации в виде документов XML, которые затем преобразуются в HTML для издания в Web.
XML уже работает на Уолл-стрит |
В Wall Street Journal Interactive Edition уже три года работают одновременно с форматами XML и SGML, комбинируя возможности некоторых готовых продуктов и приложений собственной разработки. Вся информация сохраняется в формат |
По словам Карбена, в его компании выбрали XML частично из-за того, что «это не только стандартный формат документов, но и формат, который действительно воплощает в себе знание самого документа. Происходит обмен настоящими интеллектуальными документами».
В редакции лондонской Financial Times недавно решили использовать XML для координирования информации, полученной из различных источников. Кроме того, XML будет использоваться для перенаправления готовых материалов из газеты на узел Web. Вместо смешанной технологии, реализованной в Wall Street Journal Interactive Edition, в Financial Times предпочли издательскую систему Omnex компании Atex.
Крис Парселл, один из редакторов Financial Times, говорит, что сейчас происходит процесс преобразования содержания из обычного формата газеты для системы Web. Персонал занимается внедрением системы Omnex, где информация хранится в виде документов XML. «Наличие полностью совместимой с XML системы неизмеримо облегчает и удешевляет эксперименты с новыми формами представления информации», — отмечает Парселл.
XML расширяет возможности Financial Times |
Персонал газеты Financial Times, которая публикует на своем узле Web массу информации в виде текстов и графиков, в настоящее время работает над внедрением издательской системы на основе XML Omnex компании Atex. По |
Парселл считает, что разработка инструментов для XML несколько сдерживается недостаточным распространением на рынке издательских систем для Web на основе XML. «Процесс разработки такого рода продуктов может быть очень долгим, — говорит он. — Я думаю, что в ближайшие год-два с системой Omnex будут сравнивать все остальные подобного рода программы».
Парселл и Карбен из Wall Street Journal весьма оптимистично оценивают перспективы XML. По словам Парселла, XML даст газете Financial Times «более интересные способы продажи информации и интеллектуальной собственности». Дополняя его, Карбен говорит, что существуют другие приложения, которым будет значительно легче обрабатывать данные в формате XML. «Уже сейчас гораздо проще сохранять XML в базах данных, а системы управления цифровыми архивами также будут лучше работать с этим форматом».
Брей, один из редакторов стандарта XML, утверждает, что хотя HTML остается одним из основных форматов «доставки» для большинства данных XML, «ваш интеллектуальный капитал будет сохранен при любом развитии событий, поскольку вы будете готовым ко всему».
Web-издателям известно, что большие перемены могут быть не за горами, особенно если учесть все более широкое распространение таких тенденций, как синтез различных типов информации и развитие электронной торговли.
Бартлетт из Arbortext считает: «Поскольку будет выработан общий способ обмена информацией о продуктах, их поиск в Web — и сравнение цен, а также характеристик — будут значительно облегчены».
Более того, поскольку XML происходит от SGML, его внедрение откроет доступ к огромному множеству документов, которые раньше были практически «закрыты». В таких документах не обязательно будут устаревшие данные; многие из них вполне современны для размещения в Web. Это потому, что «XML уменьшает время задержки между внесением изменений в информацию и доставкой ее тем людям, которым она нужна, — говорит Бартлетт. — XML дает возможность сохранять информацию в такой форме, в которой она может быть автоматически размещена в Web или выведена на печать».
К новой, лучшей Web?
Неужели поход за идеалом издания в Web завершен? Почти. Похоже, XML станет реальностью для многих узлов Web, особенно после выхода популярных браузеров с поддержкой XML. Однако большинство создателей содержания пока не торопятся воспользоваться преимуществами XML. Чтобы сделать это, им придется не только продолжать свой бесконечный труд над макетированием текста и графики, но и создать описания типов документов (наборы тегов XML), определения метаданных, план-схемы и связать воедино базы данных с хранилищами содержания.
Итак, хотя мир узрел мерцание святого грааля издательской технологии для Web, предстоит еще немало работы, прежде чем каждый сможет припасть к святому сосуду.
Подробности о стратегиях в области издательских технологий на основе XML можно почитать по адресу: http://www.publish.com/conference99.
Кухня тегов |
Одной из особенностей, делающей XML по-настоящему удобным языком (в отличие от HTML), является возможность написания собственного набора тегов. Вы пишете DTD или описание типа документа (document type definition) — строку исходного текста (что ненамного сложнее, чем написать стандартный исходный текст на HTML), которая сообщает браузеру или другой системе отображения, что означают ваши теги. Уже сейчас существует много готовых DTD, иногда называемых словарями, но предприимчивые Web-дизайнеры могут с легкостью создавать их сами. XML обладает еще одной великолепной возможностью, отличающей его от HTML: системой механизмов, которая гарантирует, что в процессе написания исходных текстов не будет допущено ошибок. В общих чертах, документ XML должен быть правильно сформированным и допустимым. Правильно сформированный документ должен удовлетворять нескольким простым правилам: начинаться с декларации XML (такой как ?>?>?>); иметь корневой элемент или тег, который содержит все остальные элементы (вы можете представить себе это правило, как включение в документ тегов HTML или /HTML); а все элементы должны быть правильно вложены. Это значит, что набор тегов, который начинается внутри другого набора тегов, должен заканчиваться раньше окружающего его набора тегов. Чтобы проверить свой исходный текст и убедиться, что вы не нарушили ни одно из этих правил, можно использовать программу разбора, такую как Lark, написанную одним из редакторов стандарта XML Тимом Бреем. Допустимый XML-документ — это тот, в котором все теги окружают реально существующие данные. Приложение для определения допустимости, такое как MSXML компании Microsoft, должно предупреждать о существовании набора тегов, не содержащих данных. Попробуйте-ка сделать это с HTML. |
XSL: настоящий макет |
Точно так же, как для HTML существует CSS или каскадные списки стилей, для XML разработан Extensible Style Language (XSL, расширяемый язык стилей). Рабочий вариант этого нового стандарта создан организацией World Wide Web Consortium, органом, ратифицировавшим XML и HTML. Но точно так же, как XML пока не заменил HTML, XSL не заменяет CSS; вместо этого XSL дополняет CSS. CSS работает, задавая стили для всего документа HTML. XSL особенно хорошо подходит для описания стилей в документах XML, данные которых содержатся в наборах тегов. XSL может использоваться для идентификации и форматирования данных, отобранных из определенных тегов XML. Например, на узле электронной торговли одеждой XSL можно применить для форматирования всех данных в теге SWEATERS одним способом, а в теге SLACKS — другим. По мере распространения XML в Web и появления совместимых с XML браузеров, будет широко внедряться и XSL. |