Федеральное государственное бюджетное учреждение науки
«Санкт-Петербургский Федеральный исследовательский центр
Российской академии наук»

Проект был анонсирован на пресс-конференции Петербургского Регионального информационного центра  ТАСС. О разработке решений на основе искусственного интеллекта для проекта "Пушкин цифровой" рассказал старший научный сотрудник лаборатории интегрированных систем автоматизации Санкт-Петербургского федерального исследовательского центра РАН (СПб ФИЦ РАН) Николай Тесля.

23 мая на пресс-конференции также выступали участники команды проекта "Пушкин цифровой": директор Института русской литературы (Пушкинский дом) РАН Валентин Головин, заместитель директора, куратор проекта Светлана Николова, научный сотрудник Пушкинского дома, участник проекта Гавриил Беляк и руководитель образовательной программы "Цифровые методы в гуманитарных исследованиях" Университета ИТМО Полина  Колозариди. Они рассказали о целях и этапах реализации проекта, создании ресурса, посвященного литературному наследию Александра Пушкина, и о его возможностях.

Александр Пушкин (1799-1837 гг.) оставил после себя огромный корпус письменных произведений, а также черновиков, писем, книг, записок и прочих материалов. Исследователи ИРЛИ РАН, в распоряжении которых находится значительная часть пушкинского наследия, инициировали междисциплинарный проект "Пушкин цифровой" – мультимедийный ресурс о жизни и творчестве автора. Его цель — создать новый инструментарий передачи гуманитарного знания, поскольку традиционные формы репрезентации (например, собрание сочинений) хотя и не утратили своей научной ценности, однако не используют потенциал современных цифровых средств коммуникации.

“Портал "Пушкин цифровой" будет доступен осенью. Мы предполагаем, что 19 октября – это точка запуска. А работа над ресурсом не закончится: он продолжит пополняться и усложняться. В свою очередь, пользователи смогут погрузиться в пушкинские рукописи, наблюдать за творческим процессом и далее осмыслять его, создавать собственные интерпретации”, – пояснил Валентин Головин.

Как уточнила на пресс-конференции Светлана Николова, основу ресурса составили оцифрованные материалы из фондов ИРЛИ РАН, сведенные  в  единую базу данных. В частности, на сегодня оцифровано более 15 тыс. рукописей Александра Пушкина, а также более 2 млн страниц комментариев и научной литературы. Кроме того, разработано порядка 20 сюжетов интерактивного комментария для просветительской части проекта. 

“Проект “Пушкин цифровой” направлен на решение двух основных задач: научной и пользовательской”, – отметила Светлана Николова. По ее словам первая решается за счет того, с помощью ресурса исследователи могут быстро получить доступ сразу ко всему массиву данных, избежать ошибок и потерь информации. 

“Пользовательский эффект состоит в том, что мы пытаемся преодолеть “гибель научного знания”, когда то что выходит из под пера ученых либо не доходит, либо не привлекает интерес у нового поколения. Чтобы компенсировать этот эффект, у нас предусмотрен формат подачи данных с позиции не только научного, но и научно-популярного формата для широкой аудитории. Чтобы пользователь мог преодолеть разрыв между простым знанием фамилии Пушкина, к тому, чтобы побольше узнать о нем и его творчестве, а может даже в будущем заинтересоваться филологией”, – добавила Светлана Николова.

Важно отметить, что ресурс “Пушкин цифровой” предполагает не просто создание цифровой онлайн библиотеки, где читатель сможет быстро найти нужную информацию по ключевым словам, а разработку сложной и разветвленной структуры представления информации о произведениях, в которой тексты внутри всего массива данных связаны общими элементами. Для решения технической стороны этой задачи к проекту подключились специалисты СПб ФИЦ РАН.

“Коллеги из Пушкинского дома подсчитали, что только для прочтения всего объема материалов пушкинского наследия требуется порядка 58 лет. Чтобы их анализировать вручную нужно еще больше времени. Однако если применить к этому массиву данных современные методы обработки текстов и методы поиска связей между текстами, то задача укладывается в существенно меньший отрезок времени. Так как разнотипных материалов было очень много, то основным вызовом стало построение общей модели. Она совместила в себе как исходное понимание текстов Пушкина, так и возможность построения новых связей между этими материалами. Причем не только простых связей от одного произведения к другому, но и выделения новых соответствий, о которых раньше не задумывались, не замечали или откладывали в сторону”, – рассказал Николай Тесля на пресс-конференции.

Для достижения этой цели ученые СПб ФИЦ РАН создали специальную нейросетевую модель, которая осуществляет поиск общих сущностей в материалах масштабного массива, оцифрованного исследователями из ИРЛИ РАН.

Затем Полина Колозариди рассказала об основных целях визуальной стороны ресурса “Пушкин цифровой”. “Университет ИТМО занимается разработкой интерфейса, то есть тем как там будут воплощены информационные сущности пушкинского наследия. Ведь важно не только сжать те самые 58 лет, необходимых для постижения пушкинского наследия, о чем говорили коллеги, но и сделать так, чтобы с этим материалом можно было удобно и эффективно работать и  работать удобно и эффективно”, – отметила она.

Запись пресс-конференции доступна по ссылке.