КИПЯТКОВА И. С., РОДИОНОВА А. П., КАГИРОВ И. А., КРИЖАНОВСКИЙ А. А. ПОДГОТОВКА РЕЧЕВЫХ И ТЕКСТОВЫХ ДАННЫХ ДЛЯ СОЗДАНИЯ СИСТЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ КАРЕЛЬСКОЙ РЕЧИ // Учёные записки Петрозаводского государственного университета. 2023. Том 45, № 5, С. 89–98. URL: https://uchzap.petrsu.ru//journal/article.php?id=924. DOI: 10.15393/uchz.art.2023.924


Теоретическая, прикладная и сравнительно-сопоставительная лингвистика


ПОДГОТОВКА РЕЧЕВЫХ И ТЕКСТОВЫХ ДАННЫХ ДЛЯ СОЗДАНИЯ СИСТЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ КАРЕЛЬСКОЙ РЕЧИ

КИПЯТКОВА
ИРИНА СЕРГЕЕВНА
Санкт-Петербургский федеральный исследовательский центр Российской академии наук
РОДИОНОВА
АЛЕКСАНДРА ПАВЛОВНА
Санкт-Петербургский федеральный исследовательский центр Российской академии наук
КАГИРОВ
ИЛЬДАР АМИРОВИЧ
Санкт-Петербургский федеральный исследовательский центр Российской академии наук
КРИЖАНОВСКИЙ
АНДРЕЙ АНАТОЛЬЕВИЧ
Санкт-Петербургский федеральный исследовательский центр Российской академии наук
Ключевые слова:
карельский язык
ливвиковское наречие
автоматическая обработка естественного язы- ка
обучение системы распознавания речи
наборы данных
корпусная лингвистика
Аннотация: Описывается процесс сбора и подготовки языковых материалов по ливвиковскому наречию карельского языка, необходимых для обучения системы автоматического преобразования карельской речи в текстовую форму. Актуальность создания подобных технологий для карельского языка обусловлена его статусом малоресурсного языка, что является серьезным препятствием для изу- чения и сохранения. Основной задачей на текущем этапе исследования является первичный сбор и аннотация речевого и текстового корпусов, а также создание словаря транскрипций. В состав рече- вого корпуса вошли аудиозаписи 15 дикторов (6 мужчин и 9 женщин). Аудиозаписи расшифрованы и сегментированы на отдельные фразы. Объем речевого корпуса после удаления не подходящих для использования фрагментов составил 3,5 часа. Объем текстового корпуса после обработки и уда- ления повторяющихся предложений составил более 5 миллионов словоупотреблений. На базе со- бранного текстового корпуса был сформирован словарь для системы распознавания карельской речи. Для всех слов, вошедших в словарь, были автоматически созданы фонематические транскрипции. В дальнейшей работе собранные текстовые и речевые данные будут использоваться для обучения и тестирования системы автоматического распознавания речи на ливвиковском наречии карельского языка.




Просмотров: 565; Скачиваний: 4;