Цифровые издания и семантическая разметка — Анастасия Бонч-Осмоловская

События

Вспомогательные дисциплины Вспомогательные исторические дисциплины

В цифровых гуманитарных технологиях, которые еще принято называть Digital Humanities (этот термин плохо переводится на русский и все остальные языки), есть очень важная серия задач — сохранение культурного наследия, или Digital Heritage. С одной стороны, она включает в себя все, что касается изобразительного искусства (например, создается много виртуальных музеев), с другой — это работа с текстами, сохранение рукописей, редких изданий и их дигитализация. И именно об этом и хотелось бы рассказать подробнее.

Дело в том, что, с точки зрения обывателя, оцифрованные рукописи — это просто их очень качественная фотография. И если задаться целью, скажем, найти архивы газет 80-х годов XX века в Сети, то можно обнаружить, что они действительно оцифрованы таким образом: каждая страничка, например, газеты «Известия» сфотографирована и выложена в Сеть. Она хранится онлайн и как бы сохранена.

Но такие фотографии — это несколько устаревшее представление о том, как нужно сохранять редкие и ценные источники. И в современном мире под оцифровкой подразумевают прежде всего распознавание самих данных и, главное, их разметку. Эта разметка называется семантической. Слово «семантическая» не должно здесь смущать: это не совсем та семантика, которая имеется в виду в лингвистике. То есть это не наука о смысле, а скорее некоторая технически осмысленная разметка. Текст сам по себе, с картинкой или заметками, сделанными другим человеком, — все эти данные представляются не как некоторый набор букв, а как упорядоченные наборы букв, про каждый из которых мы знаем, что это за слова, к какому уровню текста они принадлежат, кто их сделал, почему они вообще тут. Всегда есть некоторая важная информация про текст, которую мы как читатели часто можем вывести из того, как, например, в тексте расположены абзацы, буквы: вот это заглавие, это эпиграф, это основной текст. Когда мы переводим текст в цифровой вид — в файл, в текстовый документ, — мы эту информацию теряем. Мы теряем ту информацию, которая подспудно содержится в редакторском форматировании, не говоря уже о той информации, которая содержится в материальном источнике, — например, что-то неразборчивое, накарябанное, но предположительно, скажем, авторства Пушкина. То есть какие-то очень ценные нюансы могут не сохраняться. Экспертное знание о том, что именно было дополнительно написано, какие там могут быть буквы и кто это мог сделать, — это тоже очень важная информация, которую можно сохранить.

Таким образом, сохранение данных источника — будь это древняя рукопись, существующая в единственном экземпляре, или почтовая открытка, которая была прислана вашей бабушке, когда она была маленькой девочкой, или 90-томное собрание сочинений Толстого (так называемое юбилейное собрание, которое является библиографической редкостью и семантической разметкой которого я много занималась), — начинается с того, что этот источник структурируется, причем достаточно сложным образом. Для этого используется специальный язык — язык разметки TEI (эта аббревиатура значит Text Encoding Initiative). С появлением этого языка связана замечательная история про долговечные инициативы в нашем очень быстро меняющемся мире. Дело в том, что TEI возникла в конце 1980-х годов, когда еще не было ни интернета, ни даже Microsoft Word. Группа ученых-историков собралась и решила, что нужно как-то договориться о том, как при создании баз данных с историческими текстами отмечать, откуда этот текст, кто его писал, какие существуют сомнения насчет конкретных букв или цифр и других непонятных мест. Для каждого текста есть очень много разной информации, которой хочется дополнить этот документ. И ученые договорились делать это все некоторым стандартным образом, чтобы они и их потомки могли делать это так же и считывать нашу информацию. Как оказалось, это все было не зря.

Инициатива оказалась удивительно успешной, потому что, в отличие от множества подобных затей, она не только не умерла, но и процветает. И сейчас совершенно очевидно, что если кто-то хочет заняться подготовкой электронного размеченного издания, то никакого другого способа, кроме как использовать стандарт TEI-разметки, просто нет. Например, у нас есть два способа измерения температуры — Цельсий и Фаренгейт. И придумывать какой-то третий способ измерения температуры достаточно бессмысленно и очень сложно. Или есть энное количество типов розеток, и новая компания, которая будет изобретать новые электроприборы, будет ориентироваться на те розетки, которые уже есть, а не изобретать какую-то свою розетку. Наша история именно об этом — о совместимости, которая является очень важным свойством глобального стремления к объединению знания, особенно знания, существующего в интернет-пространстве.

Что дает нам эта структурированность и машиночитаемость разметки? Когда мы используем некоторый стандарт, это значит, что этому же стандарту мы можем обучить и компьютер. Можем написать какие-то правила, по которым программа будет знать, что эта текстовая информация такая-то, а это то, что написано на полях, это то, что написано в эпиграфе, этот человек, который упоминается, на самом деле связан с той же самой личностью в этой базе данных, там-то можно посмотреть и про то, когда он родился, когда женился и когда умер, какие произведения написал и так далее. То есть семантическая разметка важна потому, что, если у нас большие коллекции произведений, мы можем использовать принципиально другой вид поиска — семантический, поиск по смыслу, а не просто по совпадению букв. И это очень важно, когда у нас есть разные гуманитарные исследовательские задачи. Нам важно отделять Владимира-человека от Владимира-города, например, и бывает удобно, когда это размечено. Нам важно понимать, в каком году какой текст был написан, и уметь сортировать, фильтровать тексты по этому параметру.

Второе — это то, о чем мы уже говорили: стандарт дает нам возможность объединять знания, которые мы получаем. Если из разметки 90-томника Толстого мы получаем еще и размеченный огромный указатель с огромным количеством людей, которые так или иначе были с Толстым связаны, и получаем какую-то информацию об этих людях, ту информацию, которая содержится в 90-томнике и просто раскидана по разным страницам (ее мы получаем в агрегированном виде), то мы можем некоторым стандартным образом эту информацию выложить в какую-то глобальную сеть и попытаться связать этих людей с какими-то другими людьми, с которыми они, наверное, были связаны. В общем, мы можем получить некоторую модель связей и взаимоотношений, скажем, людей в прошлом, или объектов культуры, или разных рукописей, или писем и так далее.

Примером такого проекта является замечательный проект Europeana — это огромное европейское собрание самых разных объектов культуры, причем не только текстовых, но и изобразительных, музыкальных, которые друг с другом связаны. Они связаны именно благодаря тому, что их данные и метаданные, то есть их описание и разметка, сделаны стандартизованным образом. И дальше они собирают из музеев, частных коллекций и от волонтеров разные объекты оцифрованного наследия.

Возвращаясь к семантической разметке: как она устроена? Что она вообще позволяет делать? Она устроена так, что есть очень важный блок метаданных. В текстовом файле, в котором у нас просто отображается наш текст, например «Война и мир», мы можем сверху этого текстового файла с помощью специальных слов разметки записать ту необходимую информацию, которую мы хотим сохранить про этот текст: что это за текст, какая это редакция текста, кто его написал, кто его оцифровал, а если это дневниковая запись, то кто ее расшифровывал. Этот комплекс информации хранится в некотором специальном месте в начале этого документа.

Что мы еще можем сделать? Мы можем отображать материальные свойства носителя, с помощью специальных знаков описать, что здесь полстраницы порвано и здесь мы уже ничего сказать не можем. А вот тут у нас начинается, например, стихотворный текст, он написан таким-то специальным образом. А вот здесь авторский текст кончился и пошли замечания редактора. Все это можно отобразить стандартизованно.

Важно, что, когда эти семантически размеченные тексты выкладываются в онлайн-доступ, с помощью семантической разметки мы можем отображать как бы уровни текста, слои работы над текстом. Если, например, мы говорим про рукописи, то можно показать, что сначала было некоторое слово, потом оно было зачеркнуто и поверх него было написано другое, потом еще что-то перечеркнуто. Все это мы можем отобразить стандартным образом, так что потом можем написать программу, которая это будет отображать уже визуально. И мы дадим возможность самому пользователю сайта, читателю, который придет на этот сайт, выбирать, какую именно редакцию он хочет видеть. Более того, если, например, это слово написано как-то непонятно, то есть возможность не мучиться, а честно сказать: «Кажется, здесь буква A, но это неточно, редактор такой-то».

Работа над текстом и возможность разных редакторов давать свою интерпретацию — это некоторая принципиально новая вещь, которую нам дают семантические электронные издания. Потому что в аналоговом, в бумажном издании мы, безусловно, имеем критический аппарат, комментарии к тексту. Но он, во-первых, существует отдельно от текста и, во-вторых, принципиально закрыт. Комментарий сделан, книга опубликована — дальше что? Можно, наверное, издать маленькую заметку, что в комментарии таком-то была допущена ошибка и, по нашему мнению, здесь читается не так. Но надо еще, чтобы эта заметка была связана с ним, чтобы люди прочитали и то и другое.

За счет того, что у нас есть семантическая разметка и возможность аккумулировать то, что мы знаем про текст, в само хранение этого текста, в сам файл, где хранится этот текст, и дальше представить это тем или иным образом на сайте, — за счет всего этого, собственно говоря, экспертные знания про текст становятся гораздо более доступными. В принципе семантическая разметка — это такой очень демократический инструмент. Потому что теперь мы с вами можем прийти в архив, скажем, Уолта Уитмена, открыть рукопись его стихотворения и дальше посмотреть, как именно его можно расшифровать, потому что некоторые рукописи неспециалист вообще прочесть не может. Но все варианты прочтения у нас есть, и мы просто двигаем тумблер и видим, как это все устраивается. И в этом есть высокий демократизм идеи сохранения культурного наследия.

Источник postnauka.ru