Аспирантура

Данные аспиранта

Год поступления:

2024

Фамилия, имя, отчество:

Долгушин Михаил Дмитриевич

Лаборатория подготовки:

Лаборатория речевых и многомодальных интерфейсов

Фамилия, имя, отчество, ученая степень, ученое звание научного руководителя:

Карпов Алексей Анатольевич, д.т.н., проф.

Срок обучения в аспирантуре:

3 года, 01.10.2024 - 31.08.2027 гг.

Шифр и наименование направления подготовки:

2.3.5. Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей

Отрасль науки, шифр и наименование группы научных специальностей:

Технические науки. 2.3. Информационные технологии и телекоммуникации

Научная специальность:

2.3.5. Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей

Тема научно-квалификационной работы:

Методы и программная система многомодального распознавания когнитивных нарушений людей

Сведения о предыдущем образовании:

федеральное государственное бюджетное образовательное учреждение высшего образования "Санкт-Петербургский государственный университет"
квалификация – магистр
направление – 45.04.02 Лингвистика
год окончания – 2024

Сведения о научных исследованиях:

1. Публикации статей:
1.1. Статьи, опубликованные в изданиях, индексируемых в WoS, Scopus:
1) Кипяткова, И. С., Кагиров, И. А., & Долгушин, М. Д. (2025). Применение предварительно обученных многоязычных моделей для распознавания карельской речи. Информатика и автоматизация, 24(2), 604-630. https://doi.org/10.15622/ia.24.2.9
2) Долгушин М.Д., Карпов А.А. Аналитический обзор речевых и многомодальных методов распознавания когнитивных нарушений людей // Информатика и автоматизация. 2025, 24(6), С. 1683-1720. DOI: 10.15622/ia.24.6.6. URL: https://www.doi.org/10.15622/ia.24.6.6

1.2. Статьи, опубликованные в изданиях из перечня ВАК:
1) нет

1.3. Другие публикации:
1) Аксенов А., Долгушин М.Д., Рюмин Д. NeRF-LipSync: A Diffusion Model for Speech-Driven and View-Consistent Lip Synchronization in Digital Avatars // Труды 6-ой международной научно-технической конференции «Методы фотограмметрии и машинного зрения для мониторинга окружающей среды, биометрии и биомедицины» (PSBB25), Москва, 2025. URL: https://doi.org/10.5194/isprs-archives-XLVIII-2-W9-2025-25-2025
2) Смолянинова А.В., Павлова Т.А., Доровских И.В., Карпов А.А., Долгушин М.Д., Краснослободцева Л.А., Сейку Ю.В., Болдаков Д.Ю. Распознавание речи искусственным интеллектом у пациентов, страдающих легким когнитивным расстройством и деменцией // Психиатрия и психофармакотерапия. 2025. 4, С. 50-54. URL: https://psychiatr.ru/news/1774?ysclid=mkqutj42ny49836903
3) Долгушин М.Д., Гусева Д.Д., Карпов А.А. Исследование методов автоматизированной диагностики когнитивных нарушений на материале видеоинтервью // Труды 11-го междисциплинарного семинара «Анализ разговорной русской речи» АР3-2025, Санкт-Петербург, 2025. С. 25-30. URL: https://disk.yandex.ru/i/Cl-z4ml6XhtAgg
4) Ryumina Elena., Markitantov Maxim., Axyonov Alexandr., Ryumin Dmitry, Dolgushin Mikhail, Karpov Alexey. Zero-Shot Multimodal Compound Expression Recognition Approach using Off-the-Shelf Large Visual-Language Models // Proc. IEEE/CVF International Conference on Computer Vision (ICCV 2025) Workshops. 9th ABAW Workshop, USA, 2025. pp. 71-79. URL: https://openaccess.thecvf.com/content/ICCV2025W/ABAW/papers/Ryumina_Zero-Shot_Multimodal_Compound_Expression_Recognition_Approach_using_Off-the-Shelf_Large_Visual-Language_ICCVW_2025_paper.pdf
5) Kipyatkova Irina, Kiseleva Kseniia, Dolgushin Mikhail, Kagirov Ildar. Modeling Intra-word Code-Switching for Karelian ASR // Lecture Notes in Computer Science / Proc. 27th International Conference on Speech and Computer SPECOM 2025, Szeged, Hungary. 2026. pp. 104-117. DOI: 10.1007/978-3-032-07959-6_8. URL: https://www.doi.org/10.1007/978-3-032-07959-6_8
6) Dolgushin Mikhail, Guseva Daria, Karpov Alexey. Investigation of Explainable Multimodal Methods for Detecting Mental Disorders // Lecture Notes in Computer Science / Proc. 27th International Conference on Speech and Computer SPECOM 2025, Szeged, Hungary. 2026. 16187. pp. 173-187. DOI: 10.1007/978-3-032-07956-5_12. URL: https://www.doi.org/10.1007/978-3-032-07956-5_12.
7) Bukreeva, L., Guseva, D., Dolgushin, M., Evdokimova, V., Obotnina, V. (2025). RuOHQA: Creating QA Corpus in Russian Based on Oral History Archives. In: Eismont, P., Khokhlova, M., Koryshev, M. (eds) Literature, Language and Computing. Springer, Singapore. https://doi.org/10.1007/978-981-96-0990-1_16
8) Guseva, D., Mitrofanova, O., Dolgushin, M. (2025). Human and Machine Keyphrase Perception in Russian Text and Speech. In: Karpov, A., Delić, V. (eds) Speech and Computer. SPECOM 2024. Lecture Notes in Computer Science(), vol 15299. Springer, Cham. https://doi.org/10.1007/978-3-031-77961-9_20
9) Kipyatkova, I., Kagirov, I., Dolgushin, M., Rodionova, A. (2025). Towards a Livvi-Karelian End-to-End ASR System. In: Karpov, A., Delić, V. (eds) Speech and Computer. SPECOM 2024. Lecture Notes in Computer Science(), vol 15299. Springer, Cham. https://doi.org/10.1007/978-3-031-77961-9_4

2. Участие в конференциях/семинарах:
1) 27th International Conference on Speech and Computer SPECOM 2025. Oral report «Investigation of Explainable Multimodal Methods for Detecting Mental Disorders». 13 – 14 October 2025. Szeged, Hungary
2) Междисциплинарный семинар «Анализ разговорной русской речи». Устный доклад по теме «Исследование методов автоматизированной диагностики когнитивных нарушений на материале видеоинтервью». 30 июня–1 июля 2025 г. Санкт-Петербург. Россия
3) 9th Workshop and Competition on Affective & Behavior Analysis in-the-wild (ABAW) in conjunction with the International Conference on Computer Vision (ICCV). Oral report «Zero-Shot Multimodal Compound Expression Recognition Approach using Off-the-Shelf Large Visual-Language Models». 19 – 23 October 2025. Honolulu. Hawai'I. USA.

3. Интеллектуальная собственность (патенты, свидетельства):
1) нет

4. Участие в НИР, грантах и т.п.:
1) Исполнитель, Проект РНФ 25-11-00319, Интеллектуальная система многомодального распознавания когнитивных нарушений людей. 2025-2027
2) Исполнитель, Проект МОНГ РНФ 24-21-00276, Автоматическое многоязычное распознавание речи с переключением кодов (на примере русского и карельского языков). 2024-2025
3) Исполнитель, НИОКТР Шифр FFZF-2022-0005, Разработка теоретических и технологических основ анализа неструктурированных данных и многомодального взаимодействия пользователей, интеллектуальной поддержки целенаправленного коллективного поведения участников в человеко-машинных сообществах, 2024-2024

Личные достижения:

Результат аттестации:

Результат промежуточной годовой аттестации:
Переведен на 2 курс

Дата заполнения:

20.02.2026

Портфолио аспиранта

Данные аспиранта