Интервью с профессором МГУ им. М.В. Ломоносова Владимиром Александровичем Плунгяном : Богослов.RU

Интервью с профессором МГУ им. М.В. Ломоносова Владимиром Александровичем Плунгяном

С российским лингвистом, членом-корреспондентом РАН, заведующим отделом корпусной лингвистики Института русского языка им. В.В. Виноградова РАН, профессором МГУ им. М.В. Ломоносова Владимиром Александровичем Плунгяном о возможностях корпусной лингвистики побеседовал корреспондент портала «Богослов.Ru» иеромонах Адриан (Пашин).

Статья

Религия и мир Религия и наука

Вспомогательные дисциплины Культурология

Вспомогательные дисциплины Литературоведение

Вспомогательные дисциплины Лингвистика (языкознание)

Вспомогательные дисциплины Библиотечное дело

Иеромонах Адриан (Пашин): Владимир Александрович, расскажите о таком понятии в современной лингвистике, как корпуса.

Владимир Александрович Плунгян: Корпусная лингвистика возникла сравнительно недавно, собственно, после того, как в исследовании языка стали широко использоваться компьютеры и основанные на этом методы автоматической обработки текстов. Корпус в современном понимании — это, в принципе, очень простая вещь. Это, прежде всего, собрание текстов в электронной форме, но, сверх того, еще и специальным образом обработанное — для обеспечения поиска внутри него. Вот в том, как оно обработано, суть корпуса и заключается. Если мы просто соберем тексты в электронной форме и ничего с ними делать не будем (а такие собрания тоже бывают), — это будет называться не корпус, а электронная библиотека. Это вещь тоже полезная, электронных библиотек сейчас довольно много. Они существуют в первую очередь для читателей, потому что в электронном виде книгу часто проще прочитать, проще найти, и много таких книг можно собрать вместе, даже можно искать что-то в такой библиотеке простыми способами, такими же, как в обычных текстовых редакторах — например, какое-то имя редкое, какое-то слово. Это немного удобнее в практическом отношении, чем бумажный вариант книги. Но не более того.

А корпус нужен не столько тем, кто хочет просто читать тексты, сколько тем, кто хочет их изучать или с ними работать. Т.е. в первую очередь, наверное, он полезен для лингвистов — хотя и далеко не только для них: литературоведы, историки, профессиональные переводчики и журналисты, словом, представители почти любой гуманитарной профессии — все сейчас начинают осваивать корпусные технологии; я уж не говорю о программистах и специалистах по информатике. Ну вот, лингвистам (ограничимся пока только ими) корпус нужен, чтобы с его помощью изучать язык. Но для того, чтобы такое изучение было эффективным, с текстами предварительно следует кое-что сделать — «разметить» их, или «аннотировать», как это принято называть, т.е. обогатить тексты дополнительной информацией, которая в них изначально в явном виде не содержалась. Лингвисты, создавая корпус с учетом своих потребностей, размечают, естественно, языковые признаки: морфологические, синтаксические, лексические особенности, грамматические категории, и т.п. И если мы внесем в корпус эту информацию, то мы сможем искать и находить не только, как в электронной библиотеке, какие-то отдельные слова, но и, например, формы глаголов совершенного вида прошедшего времени, формы дательного падежа множественного числа имен, и многое другое подобное. Это достаточно простой пример, но понятно, что можно придумать гораздо более сложные задания для поиска. Собственно, почти всё то, что изучают специалисты по языку, что им интересно и важно, в хорошем корпусе можно искать и находить. И для специалистов по языку такой новый инструмент — это колоссальное подспорье, потому что технические возможности, которые дает корпус, несопоставимы с тем, что было у нас в докорпусную эпоху, когда мы просто вручную искали в текстах то, что нам нужно, медленно прочитывая страницу за страницей с карандашом в руках и выписывая примеры на карточки — многие еще хорошо помнят, как это происходило. Понятно, что между темпами и возможностями того времени и нынешнего — колоссальный качественный разрыв, ведь корпус позволяет исследовать то или иное языковое явление на несопоставимо более масштабном массиве текстов и в несопоставимо более быстрые сроки. Более того, корпус позволяет ставить и решать такие задачи, к которым традиционная лингвистика и не очень-то даже знала, как подступиться — например, связанные с оценкой частотности употреблений, динамики изменений языка во времени, да и многие другие, может быть, сейчас мы даже и не все эти возможности осознаем и можем оценить, ведь корпусные исследования только начинаются.

Иером. Адриан: Сама разметка предполагает и объект поиска. Что делать, если мы хотим найти то, что не было учтено при разметке?

В.А. Плунгян: Это очень важная проблема, искать, действительно, можно только то, что ты в корпус заложил. И это известная проблема в науке вообще — как получить по-настоящему новое знание? Ведь обычно ищут там, где светло, а не там, где спрятано...

Ну, можно сказать, что создание корпусов в этом смысле представляет собой такой сложный двунаправленный процесс. Если, работая с корпусом, мы понимаем, что нам для исследования оказывается нужен какой-то новый тип информации, то мы пытаемся дополнить наш корпус так, чтобы можно было эту информацию тоже искать. Конечно, мы можем вначале и не подозревать, что нам нужно именно это, но когда мы такую необходимость осознаем, то, в общем, как правило, ничто не мешает немного улучшить наш корпус — как любят говорить современные программисты, «заточить» его под эту новую задачу. Тут существенно, на мой взгляд, вот что: сами эти изменения делаются всё-таки именно благодаря корпусу. Без корпуса, может быть, нам бы даже не пришло в голову, что нам может понадобиться такая новая информация о языке. Поэтому корпус — это не только практический инструмент, это и для развития науки, для теоретической лингвистики инструмент очень важный. Он как бы немного меняет стиль мышления, меняет подход к языку, если угодно. Так что корпус — это не просто игрушка, не просто удобный инструмент, это вещь гораздо более серьезная.

Иером. Адриан: Таким образом, инструмент повлиял на саму науку?

В.А. Плунгян: Разумеется. Так часто с инструментами происходит. Все помнят, как, например, с изобретением микроскопа сильно изменились почти все естественные науки, от биологии и химии до медицины, или, допустим, историю ядерной физики можно вспомнить. Инструменты — это ведь не такая примитивная вещь, в науке они нередко влияют и на сам подход к объекту изучения. Это целая философская проблема. И корпус, безусловно, находится в ряду тех инструментов, которые способны изменить, как сейчас модно говорить, научную парадигму. Поэтому корпусная лингвистика — это не только наука о том, как создавать корпуса и как ими пользоваться, но и некоторая, если угодно, идеология; корпусная лингвистика предлагает нам немного другой взгляд на язык по сравнению с классическими теориями XX века, Это не вполне обычный для многих пока подход к языку, при котором, грубо говоря, язык в целом сам рассматривается как некоторый очень большой корпус. Но тут, я боюсь, чтобы быть убедительным, мне придется углубиться в очень специальные вопросы, касающиеся истории того, как менялись теоретические взгляды на природу языка. Это тема необычайно увлекательная, но нас она слишком далеко в сторону увести может...

Иером. Адриан: А может ли корпус помочь не профессиональному лингвисту, которому интересны языковые правила, развитие их и вообще языка во времени, а простому читателю найти какую-то информацию в корпусе, просто что-то прочесть?

В.А. Плунгян: Безусловно. Если отвлечься от сложных материй, которые важны специалистам по языку, то людям, которые просто что-то ищут, просто интересуются текстами, корпус, конечно, тоже оказывает колоссальную поддержку. Такие люди уже привыкли к электронным библиотекам, узнали их, полюбили и практически уже часто не могут без них обходиться. Но нужно просто отдавать себе отчет в том, что корпус для простого читателя — это удобная и современная справочная система, которая позволяет ответить на многие вопросы, относящиеся к языку, на котором написаны тексты. Мы ведь, когда читаем книги, пользуемся словарями и справочниками? А корпус — эта такая же полезная вещь, как словарь, и привычка им пользоваться у современного читателя должна быть такой же, как привычка пользоваться словарем. Те возможности, что есть в корпусе, очень пригодятся и обычному читателю, но в особенности — читателю квалифицирован-ному, то есть такому, которого интересует не только содержание текста, но и его, так сказать, форма, вообще какие-то особенности текста, выходящие за пределы простого интереса типа «о чём это написано?».

Одним словом, корпус — это очень удобный инструмент для работы с различными признаками текста. В тот момент, когда вас начинает интересовать не текст целиком, а какие-то его параметры (в широком смысле этого слова), вы становитесь потенциальным пользователем корпуса и можете получить от корпуса разнообразную отдачу. Правда, надо понимать, что большинство корпусов отличаются от электронных библиотек вот чем: хотя в корпусе гораздо больше возможностей для поиска по словам, по конструкциям, по грамматическим признакам и по многому другому, тем не менее корпус, как правило, не дает возможности сплошного чтения всех содержащихся в нём текстов. Поиск в корпусе выдает пользователю только небольшой фрагмент текста, содержащий поисковый запрос (скажем, пример употребления нужной вам формы, по объему ограниченный одним-тремя предложениями). Это связано и с техническими причинами и, если речь идет о корпусах современных языков, не в последнюю очередь и с юридическими проблемами авторских прав, ограничивающих свободный доступ к целому тексту. Но можно, в принципе, объединить корпус и библиотеку в рамках одного продукта, это вопрос скорее технический, вопрос удобства и ваших конечных целей.

Иером. Адриан: В Интернете мы тоже можем найти много литературы, это тоже огромная библиотека. В нём есть и различные поисковые системы, в том числе и в русскоязычном Интернете, в котором поиск отличается от других языков с менее развитой грамматикой.

В.А. Плунгян: Не столько грамматика менее развита, сколько морфология. Грамматика, вообще говоря, в любом языке присутствует, а вот развитая морфология, т.е. богатство и сложность строения слова — это далеко не универсальная черта языков. Русский язык (как и латинский, и греческий) относится к флективным, во всех этих языках есть так называемые «формы слова», или «словоизменение». Современные европейские языки, романские и германские, во многом эти свойства утратили, морфология в них проще и играет меньшую роль в грамматике. Поэтому и поиск в русских текстах более сложный.

В принципе, и в русском сегменте Интернета существуют возможности искать формы одного слова или, говоря языком программистов, одной леммы. Это делается с помощью программ «лемматизации», которые понимают, какие формы, встреченные в тексте, относятся к одной лемме, к одному слову. Хорошие средства лемматизации, например, имеются в поисковой системе Яндекса — эта компания, кстати, поддерживает и наш Национальный корпус русского языка, это вообще одна из самых приятных и интеллигентных компаний русского Интернета, ценящая и уважающая лингвистов и лингвистику.

Но лемматизация — это ведь только одна сторона проблемы. Да, в хороших поисковых системах русского сегмента Интернета вы можете отождествить разные формы одного слова. Если, например, вы задаете в поисковой строке слово идти, по этому запросу найдется и идём, и шёл, и шедший, и идущий и т.д. (и при этом отсеется внешне похожий «шум», например, такие слова, как иды из древнеримского календаря или древнерусский шелом). Это очень хорошо и удобно, но более сложные запросы, связанные с грамматикой, средствами простого поиска в Интернете выполнить всё же нельзя. Например, вы не можете простым способом найти все причастия русских глаголов — и даже найти все причастия от одного только глагола идти. И это понятно, потому что поиск в Интернете нацелен, прежде всего, на потребности обычного человека, которому такой запрос вряд ли придет в голову. Если обычный человек пишет в строке запроса слово идти, то, скорее всего, он (часто даже сам того не осознавая) хочет найти не только ту форму, которая стоит в запросе, но и вообще все формы этого слова — и шёл, и идём, и т.п. Поисковые системы это учитывают. А такой изысканный запрос, как найти все причастия, обычному читателю текстов в голову вряд ли придет. Это уже более сложная потребность — не читателя, а специалиста, исследователя. И отвечает такой потребности именно корпус. Как поисковая система, он находится на более высокой ступени, чем простой поиск, пусть даже с лемматизацией.

Еще одно очень важное преимущество корпуса вот в чём. В корпусе вы свободно можете искать нужные вам слова и формы не только по всему массиву текстов, но и по любому его фрагменту — например, только у определенных авторов или только за определенный период времени. Это называется «пользовательский подкорпус». Простой поиск в Интернете таких возможностей, как правило, не предоставляет, а корпусные технологии позволяют это делать очень легко. Скажем, если наш корпус отражает существование языка на протяжении достаточно большого промежутка времени, то может быть интересно взять только самый ранний или только самый поздний слой текстов и посмотреть, как меняется значение и употребление каких-то слов или грамматических форм. Есть, конечно, и многие другие преимущества в таком «гибком» пользовательском подкорпусе. В общем, я думаю, понятно, чем отличается поиск в корпусе от простого поиска в Интернете — поиск в корпусе гораздо эффективнее и его возможности гораздо богаче.

Наконец, скажу еще об одном очень существенном отличии корпуса. В Интернете вы работаете с теми текстами, которые там в данный момент находятся. А про Интернет ведь не зря говорят, что это одновременно и большая сокровищница — и большая помойка. Вы не можете контролировать ни количество, ни качество тех текстов, по которым вы ведете поиск (не говоря уже о том, что их количество и качество ежесекундно меняется). Опять же, если вы ищете в Интернете только информацию, это не так существенно — рано или поздно вы ее найдете, а о существовании множества бесполезных для вас текстов вы даже не узнаете. Но если вас интересуют языковые особенности текстов, то далеко не безразлично, с какими текстами вам приходится иметь дело, ведь поисковая система просматривает их сплошь. Неприятно также, когда одни и те же тексты повторяются в Интернете много раз, целиком или с небольшими изменениями — это тоже искажает реальную картину.

В корпус же тексты специально отбираются; каким образом — это зависит от его целей, но отбор всегда устроен так, чтобы исследовательская задача решалась оптимально. И мы уже не зависим от случайностей, от того, что в мировую паутину что-то нужное нам по какому-то стечению обстоятельств не попало (или, наоборот, попало множество раз подряд).

Иером. Адриан: Какие сейчас в мире существуют корпуса?

В.А. Плунгян: Первые корпуса стали появляться на заре компьютерной эпохи, вместе с первыми компьютерами. Самый первый корпус, так называемый Брауновский (по одноименному университету), был создан в США, еще в 1960-е годы. Но эти корпуса были очень мало известны и очень мало популярны. Да и выглядели многие из них, с нашей современной точки зрения, достаточно странно — такие аккуратно нарезанные равные кусочки английского текста без начала и без конца, и практически безо всякой разметки. Создавали эти корпуса первоначально не лингвисты, а программисты и специалисты по статистике и другим прикладным областям — в основном, для разных подсчетов, например, средней частоты английских слов, букв, знаков препинания и т.д. Лингвисты, особенно теоретические лингвисты, такими вещами не слишком интересовались. И довольно долгое время лингвисты считали, что электронный корпус — это лишь забавная игрушка программистов, которая им, серьезным теоретикам, всё знающим про язык, не слишком-то и нужна. И только в 1990-е годы положение изменилось, когда компьютеризация стала массовой. Тогда и стали возникать крупные корпуса нового типа. Их часто называют «национальными», хотя в это прилагательное не надо вкладывать какой-то специальный смысл, это просто термин, означающий большой представительный корпус, отражающий язык данной страны в целом, во всём разнообразии его возможностей и на всём протяжении его истории. Название восходит к первому крупному корпусу нового поколения — Британскому национальному корпусу (British National Corpus, BNC), а для создателей этого корпуса слово «national» означало просто «ориентированный на стандарт английского языка Великобритании» (а не, допустим, США или Австралии). Отсюда и пошло расширительное терминологическое использование этого сочетания, «национальный корпус». Фактически, по-русски лучше было бы в том же самом смысле говорить, например, «представительный корпус» или даже еще проще — «большой корпус», но такая уж сложилась традиция.

Кроме Британии есть еще ряд других стран с хорошими национальными (или подобными им) корпусами. Например, разнообразные и очень качественные корпуса есть в Японии (там это тоже давняя традиция), а из европейских стран — вы, может быть, удивитесь, но прежде всего я бы назвал Финляндию и Чехию. Это маленькие страны, где очень трепетно относятся к своему национальному языку и где создание корпуса, как правило, получает серьезную государственную поддержку и финансирование. Чешский корпус интересен еще тем, что это один из лучших корпусов славянского языка, и когда мы делали русский корпус, то именно чешский опыт был нам особенно полезен.

Иером. Адриан: В Чехии ведь очень хорошая филологическая школа, в которой было и значительное русское влияние.

В.А. Плунгян: Да, можно вспомнить, что когда-то именно там возник знаменитый Пражский лингвистический кружок (при активном участии замечательных русских лингвистов Р. О. Якобсона, Н. С. Трубецкого, Н. Н. Дурново и ряда других), правда, это уже скорее история, это довоенный период. Но традиции высокой научной культуры и тщательной работы с текстовым материалом остались; кроме того, успех чешского корпуса объясняется тем, что его делали лингвисты в тесном сотрудничестве с математиками и программистами, а это всегда дает хорошие результаты. Поэтому неудивительно, что Чехия долгое время оставалась лидером корпусной лингвистики не только в славянском мире (где она намного опередила другие страны), но и в целом.

А вот, скажем, во Франции есть хорошие специалисты по корпусной лингвистике, ведутся интересные научные исследования, а национальных корпусов в том смысле, в каком мы определили это понятие выше, там нет. Нет по разным причинам, отчасти по политическим или финансовым, потому что корпус — это как производство, сделать корпус — всё равно, что завод построить и запустить. Нужен, как теперь говорят, менеджмент, нужны деньги, нужно согласие правообладателей текстов, это далеко не только чистая наука. И вот, видите, по разным причинам даже некоторые крупные и богатые европейские страны этого сделать не сумели.

Но Вы, наверно, про Россию теперь хотите спросить?

Иером. Адриан: Да-да, конечно.

В.А. Плунгян: В России любопытная ситуация, в каком-то смысле характерная для состояния нашей науки вообще. Сама идея электронного корпуса в России возникла очень рано, одной из первых. У нас ведь на уровне идей всегда всё неплохо в науке было. Был такой академик Андрей Петрович Ершов, ныне уже покойный. Он много занимался информатикой, кибернетикой, для организации этих исследований много сделал в свое время. И он придумал такую вещь, которую называл «машинный фонд русского языка». Это было еще до всяких персональных компьютеров, когда были огромные ЭВМ, которые занимали целые залы, кто-то, может быть, еще помнит. И вот уже тогда он сказал, что нужно перевести в электронную форму все важнейшие тексты, которые существуют на русском языке, и сделать их пригодными для научных исследований. Это тогда была крайне смелая идея. Примерно в то же время, что и в Америке, эту идею он высказывал, когда о корпусах еще почти ничего не знали и не слышали. Но если в Америке похожие идеи стали плавно воплощаться в действительность, медленно, конечно, не сразу, но стали, то у нас, как часто бывает, почти всё так и осталось на уровне обсуждений. Правда, в Институте русского языка чуть позже даже создали Отдел машинного фонда, что-то начали делать, но тогда, в 1980-е годы, развивать этот проект было очень трудно. И мы стали сильно отставать в этой области. Долгое время единственным общедоступным электронным ресурсом по русскому языку был сравнительно небольшой корпус, сделанный в Швеции и хранившийся на сервере Тюбингенского университета в Германии.

В конце концов, многие лингвисты в России стали это отставание осознавать, стали объединяться, искать средства. И первой нас поддержала компания Яндекс, о которой я уже говорил, а потом, представьте себе, и Российская академия наук откликнулась. В общем, сначала долго запрягали, зато уж потом так довольно дружно поехали. И мы, за сравнительно короткий срок, всё-таки сделали Национальный корпус русского языка, он открылся для свободного доступа в Интернете в апреле 2004 года, как видите, уже в новом тысячелетии. Но зато догонять было отчасти легче, потому что мы старались учесть ошибки, свои и чужие, и чужой опыт использовать — применительно к нашей ситуации, конечно. И сейчас наш корпус, в общем, при всех его пока безусловно многих и многих недостатках, о которых мы хорошо знаем и стараемся, чтобы их было меньше, всё-таки, ну скажем так, не худший в мире, а в чём-то даже и на переднем крае корпусного дела он оказался. И слависты во всём мире его оценили и полюбили, пользуются им активно. Некоторые виды разметки в нем уникальны и практически не имеют аналогов в мире — такова семантическая разметка, например, или метрическая разметка поэтических текстов.

Словом, нынешнее состояние корпусного дела у нас вселяет определенные надежды и на появление новых интересных исследований русской грамматики и лексики на базе корпуса, и вообще на какое-то более эффективное и современное распространение знаний о языке. Школьникам нравится посещать наш корпус, молодежь с удовольствием им играет.

Иером. Адриан: Только играет или создание корпуса повлияло и на преподавание русского языка?

В.А. Плунгян: Начинает влиять. Во всём мире преподавание филологических дисциплин, основанное на корпусе, — это огромная и процветающая отрасль. Выходят журналы и монографии на эту тему, проводятся международные конференции. И это именно потому, что корпус стал хорошим инструментом не только для изучения языка, но и для обучения ему. Употребление слов, грамматические правила, поиск примеров, показ контекстов — всё это с помощью корпусов делается быстрее, эффективнее и увлекательнее. Преподаватели это очень быстро оценили во всём мире. Именно поэтому на нашем сайте Национального корпуса русского языка мы только что открыли специальный портал «Национальный корпус в преподавании». Думаю, что перспективы здесь очень хорошие.

Иером. Адриан: Какие тексты вы отбираете в корпус?

В.А. Плунгян: Короткий ответ — все. Я немного уже говорил об этом. Ну, не буквально все, конечно, но интерес корпуса в том, чтобы в нём было как можно больше разнородного материала. Не «хорошие» и «правильные» тексты, не те тексты, что нам лично нравятся и нам приятны, а те, которые существуют в языке на данном этапе его развития и характерны для языкового коллектива, т.е. отражают какие-то постоянно воспроизводимые модели. Модели эти могут очень сильно отличаться от представлений, например, о языковой норме, которые сложились у филологов в «докорпусную» эпоху и сложились на достаточно ограниченном (по сравнению с корпусом) материале. Корпус должен быть адекватной моделью языка, чтобы мы имели право, например, сказать: это есть в корпусе, значит, это есть в языке. Конечно, здесь есть некоторое понятное преувеличение или, скажем так, упрощение. Но в науке такие упрощения бывают очень важны, они часто стимулируют очень значительный прогресс. И поэтому было бы желательно, чтобы, располагая очень большим и очень хорошо подобранным корпусом, можно было бы поставить такой условный знак равенства и считать, что русский язык как предмет научного описания — это и есть наш корпус. Тогда язык будет легче изучать, потому что это окажется конечной и проверяемой задачей: описать русский язык — это будет значить описать всё то, что есть в большом русском корпусе, и в тех пропорциях, в которых разные явления там представлены. Оценить качество и полноту такого описания будет несравненно легче, чем для исследования «докорпусной» эпохи.

Итак, в нашем корпусе есть и художественные тексты (поэзия, проза, драматургия), и нехудожественные (деловые, научные, технические, учебные), и письменные, и устные (от записей спонтанной устной речи до записей докладов и лекций и транскриптов кинофильмов), и частные письма и дневники, и тексты электронной коммуникации (блоги, форумы, чаты, электронная переписка)... Кстати, и религиозные тексты у нас представлены. Сейчас это часть Синодального перевода Евангелия, работы митрополита Платона (Левшина), святителя Игнатия (Брянчанинова), отца Сергия Булгакова, Г. Флоровского, отца Иоанна Мейендорфа, митрополита Антония Сурожского, публикации современных православных СМИ. Но это не предел, конечно.

Так что всё, что на русском языке возникло с XVIII века, — всё может войти в наш корпус.

Иером. Адриан: Это с Ломоносова?

В.А. Плунгян: Да, это время Ломоносова и его тексты, то есть, начиная, грубо говоря, с Екатерининской эпохи. Так считается у лингвистов, что современный русский язык возник в XVIII веке, после Петровских реформ. Это, конечно, условная граница, никто не может указать ее с точностью до года — вот, до этого года у нас еще среднерусский, а после — уже современный русский язык, изменения часто очень плавные и незаметные. Но в целом в текстах Екатерининской эпохи уже заметно преобладают те черты, которые мы считаем свойственными именно современному русскому языку по сравнению со среднерусским или древнерусским.

Иером. Адриан: А древнерусский язык?

В.А. Плунгян: Замысел древнерусского корпуса существовал давно, и многое делается в этом направлении, но надо отдавать себе отчет в том, что это на порядок более сложная работа по сравнению с корпусом современного языка. Над древнерусским корпусом работают и у нас в Институте русского языка РАН, и в Ижевске есть сильная команда, которая этим занимается, и, например, в Германии (в Регенсбурге) неплохой древнерусский корпус сделан. Так, благодаря общим усилиям, уже сейчас кое-что доступно. Еще электронный корпус новгородских грамот имеется — это, правда, пока скорее, очень хорошая электронная библиотека, чем собственно корпус, но лингвистическая информация к ней будет разработчиками вскоре добавлена, и в целом это уже сейчас очень полезный ресурс. «Слово о полку Игореве» есть в Интернете со всеми основными его переводами. Так что в этой области делается много, но, конечно, работа идет гораздо медленнее.

Что пока, так сказать, выпадает почти полностью — это среднерусский язык. Это очень интересный период, примерно с XIV по XVII век (т.е. с начала «московского» периода русской истории), когда в языке происходили бурные изменения в разных направлениях, которые, собственно, и привели в конце концов к появлению той системы, которую мы называем современным русским языком. Это эпоха от московских великих князей до Смутного времени и царствования Алексея Михайловича, когда русский язык не только интенсивно менялся, но и интенсивно подвергался разнообразным внешним влияниям — и восточным, и западным. Чтобы лучше понимать современный русский язык, крайне необходимо заняться этим периодом и иметь надежную электронную базу текстов по нему, но пока, насколько я знаю, никто на эту работу не отважился. Впрочем, хорошие электронные версии таких известных памятников среднерусского языка, как, например, «Хожение за три моря» Афанасия Никитина (XV в.) или сочинения протопопа Аввакума (XVII в.), в открытом доступе уже имеются.

Иером. Адриан: Является ли корпусом Thesaurus Linguae Graecae (TLG)?

В.А. Плунгян: В каком-то смысле, да: TLG — это не только электронная библиотека греческих текстов, в ней есть некоторые инструменты грамматического поиска, прежде всего, хорошая лемматизация. Правда, во многих современных корпусах эти инструменты более мощные. Но вообще следует сказать, что филологи-классики всегда были своего рода стихийными корпусными лингвистами, и традиция изучения мертвых языков для корпусной лингвистики очень важна. Современность, казалось бы, далекая от классической филологии, многим ей обязана и продолжает обращаться к ее опыту. Ведь что такое, по сути, древнегреческий или латинский языки? Это языки, на которых существует конечное число текстов, т.е. фактически это языки, равные некоторому — пусть и достаточно большому, но ограниченному — корпусу текстов. И что такое хорошее знание древнегреческого или латинского языка? Фактически, это умение держать в голове важнейшие тексты на этих языках, т.е., опять-таки, владение корпусом. Старые филологи это хорошо понимали, и во многом вырабатывали те же методы, например, изучения грамматики, которые сегодня берет на вооружение корпусная лингвистика. Тем самым, можно сказать, что классическая филология проникнута корпусным духом. Для филолога прошлого главным в языке всегда были сами тексты, а не их структура, не та абстрактная система правил, которая из них извлекается и собственно и называется обычно языком. Лингвистика XX века, структурная лингвистика, больше обращала внимание на живые языки, объем текстов на которых казался бесконечным, и самые известные теории XX века утверждали, что тексты — не главное, а главное — языковая интуиция говорящего и стоящая за ней система правил; в центр ставилась система, а результат ее работы, конкретный текст, объявлялся ну как бы таким производным, вторичным феноменом. В таком подходе было много верного, структурная лингвистика вообще много сделала для утверждения лингвистики как науки, но, как это часто бывает, ее недостатки прямо следовали из ее достоинств. Во многих теориях такого рода акценты оказались расставлены как-то так, что конкретные факты, в общем, постепенно стали интересовать исследователей всё меньше, а теории и абстрактные правила — всё больше, и тексты, единственный объект лингвистики, существующий в реальности и доступный прямому наблюдению, как-то стали отходить на второй план, как будто их и вовсе не существует.

Когда же корпуса стали доступны, то это, помимо всего прочего, стало означать, что тексты стали ближе к исследователю. И мы увидели, сколько на самом деле в текстах неожиданного и не предсказываемого нашими правилами и даже нашей интуицией. Ведь интуиция одного человека, даже самая хорошая и правильная, не может сравниться с корпусом текстов, созданных усилиями не одного только носителя, а многих сотен и тысяч. То есть, в каком-то смысле корпус вернул лингвистам их настоящий объект — и позволил и в теории языка немного по-другому расставить акценты. И лучше верифицировать эти теории. Мне кажется, это очень плодотворное изменение. И поэтому опыт классической филологии сейчас тоже востребован. А существующие электронные ресурсы по классическим и древним языкам — и Perseus, и TLG, и ряд других (можно вспомнить еще немецкий проект Titus, например) — выполнены на очень неплохом уровне, на таком, который и современная корпусная лингвистика считает близким к своим стандартам.

Иером. Адриан: Возможно ли создание в рамках одного корпуса оригинальных святоотеческих текстов и их русских переводов?

В.А. Плунгян: Я думаю, вполне возможно. В корпусной лингвистике есть такое понятие — «параллельный корпус». Это корпус, который включает оригинальные тексты и их переводы на другие языки. Как оригинал, так и перевод проходят процедуру обычной разметки, но дополнительно делается еще так называемое «выравнивание» — по предложениям или по абзацам, т.е., например, для каждого предложения оригинала находится соответствующее ему предложение перевода и особым образом в корпусе помечается. Легко понять, что эта процедура не такая тривиальная и не такая простая, ведь структура переводного текста не обязана быть зеркальной копией структуры оригинала, мелкие расхождения есть всегда, а в каких-то случаях расхождения оказываются очень значительными. Поэтому выравнивание обычно делается с помощью специальных компьютерных программ с последующей коррекцией человеком, и это достаточно трудоемкое занятие.

Параллельные корпуса сейчас в большом количестве создаются и очень активно используются. Они очень нужны как теоретикам — для исследований в области сравнительной грамматики, типологии языков, так и практикам — для улучшения качества переводов и создания современных систем автоматического или полуавтоматического перевода. У нас, в составе Национального корпуса русского языка, тоже есть корпуса параллельных текстов, выровненных по предложениям — русско-английский и русско-немецкий уже доступны, почти готов к размещению русско-итальянский, и есть предложения по созданию русско-испанского и русско-греческого корпусов, которые мы сейчас обдумываем. И существующие методики, конечно, можно использовать, с необходимыми изменениями, для создания параллельных святоотеческих корпусов — русско-греческого и русско-церковно¬славянского. С лингвистической точки зрения это был бы очень интересный проект.

Кстати, в классической филологии и эта идея издавна тоже существовала, параллельные тексты активно издавались и считались педагогически очень полезными. Такая практика была и в старых русских изданиях святоотеческих текстов — русский перевод выходил под одной обложкой с древнегреческим оригиналом. Дело по сути всего лишь за тем, чтобы перевести такие издания в более удобную электронную форму.

Иером. Адриан: Большое спасибо за беседу. Мы будем думать, как можно применить возможности корпусной лингвистики в построении инструментария для патрологических и богословских исследований.

В.А. Плунгян: Рады будем вам в этом помочь.

Беседовал иеромонах Адриан (Пашин)