Исследование трансформации речи на казахском языке в текстовые данные

Авторы

  • A. Курсабаева Satbayev University, Казахстан

DOI:

https://doi.org/10.51301/ce.2023.i3.06

Ключевые слова:

распознавание речи, казахский язык, VOSK, аудио

Аннотация

В этой статье исследуется трансформация речи на казахском языке на основе VOSK. В частности, в ней приводится сравнительный анализ двух вариантов модели распознавания речи VOSK: VOX big и VOSK small. Оценка проводится в рамках казахского языка с использованием набора данных KazakhTTS, подготовленного в 2021 году командой ISSAI. Результаты эксперимента, представленные в виде коэффициента ошибок в словах (WER), показали, что VOSK big показывает лучший результат (51%) по сравнению с VOSK small (55%). Однако было указано, что существуют ограничения в распознавании окончаний слов и что при распознавании речи возникают некоторые ошибки. Обсуждение результатов подчеркивает потенциал модели и указывает на необходимость дальнейшей доработки и обучения на более разнообразных данных. В заключении изложены ключевые выводы, а также потенциальные направления для дальнейшего изучения в области распознавания казахской речи.

Загрузки

Опубликован

2023-09-30

Как цитировать

Kursabayeva, A. . (2023). Исследование трансформации речи на казахском языке в текстовые данные. Computing &Amp; Engineering, 1(3), 29–35. https://doi.org/10.51301/ce.2023.i3.06

Выпуск

Раздел

Инновационные вычислительные системы и инженерные решения