Специалисты Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) создали программный комплекс распознавания речи для карельского языка (ливвиковского наречия) по аудиоматериалам. Разработка направлена на документирование и сохранение карельского языка. Кроме того, предложенная система может стать важным инструментом в области автоматизации лингвистических исследований культур коренных народов РФ. Результаты исследования опубликованы в научном журнале “Информатика и автоматизация” (2 уровень Белого списка).
Языковая ситуация в России представляет собой достаточно тревожную картину с точки зрения языкового разнообразия: несмотря на наличие примерно полутора сотен языков и диалектов, большинство из них находятся под угрозой исчезновения.
Один из таких языков – карельский. Сегодня на нем говорят около 30 тысяч человек по всему миру, порядка 25 тыс. человек из которых проживают в России, а в повседневной жизни этот язык используют от силы 5-7 тыс. человек, что ставит язык под угрозу исчезновения.
“Мы создали систему автоматического распознавания речи для ливвиковского наречия карельского языка (распространено на юге и юго-западе Карелии). Изучение карельского языка имеет огромное значение не только для сохранения культурного наследия, но и для поддержки языковой традиции его носителей. Создание системы распознавания карельской речи – один из способов если не возродить, то хотя бы задокументировать этот язык”, – рассказывает старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Ирина Кипяткова.
Карельский язык является малоресурсным, то есть сегодня для него существует крайне мало электронных данных — текстов, аудиозаписей, словарей, — что осложняет обучение системы распознавания речи . Распознавание речи на таких языках – это особое направление компьютерной лингвистики, в рамках которого разрабатываются методы, позволяющие добиться хорошей точности распознавания речи при сравнительно небольшом количестве обучающих ресурсов.
Обучение нейросетей проводилось на базе данных карельского языка, в основу которой легли материалы карельских периодических изданий, текстов на ливвиковском наречии из открытого корпуса вепсского и карельского языков ВепКар, а также ряда других открытых письменных источников. Кроме того, ученые собрали два набора данных разговорной речи. Первый – на материале радиопередач «Родной берег» ГТРК «Карелия», объем этого корпуса составил 4,5 часа. Второй был специально собран в ходе исследования – это записи карельской речи, содержащей включения русскоязычных слов (длительность 3 часа). Речевой материал обработан участниками проекта, владеющими ливвиковским наречием карельского языка.
“Кроме нашей системы, в мире есть лишь одна модель, поддерживающая карельский язык. Однако она является многоязычной, ее обучение базировалось на очень небольшом объеме данных, что существенно снижает точность распознавания именно карельской речи. Мы же учитываем реальные условия использования карельского языка, где часто встречается переключение между карельским и русским. Многие носители карельского в повседневной речи смешивают два языка, и мы обучаем нашу систему корректно обрабатывать такие случаи”, – отмечает Ирина Кипяткова.
Разработанная система в перспективе может применяться для автоматического стенографирования речи на карельском языке, например, для расшифровки аудиоархивов и устной карельской речи, в том числе для лингвистических исследований, что безусловно должно способствовать сохранению карельского языка и упростить создание лингвистических корпусов для дальнейшего исследования этого языка. Результаты исследования также могут быть использованы для разработки ассистивных систем, систем машинного перевода, анализа медиаконтента.
Проект поддержан грантом РНФ (№ 24-21-00276). В состав участников проекта вошли сотрудники Карельского научного центра РАН.