Исследование трансформации речи на казахском языке в текстовые данные
DOI:
https://doi.org/10.51301/ce.2023.i3.06Ключевые слова:
распознавание речи, казахский язык, VOSK, аудиоАннотация
В этой статье исследуется трансформация речи на казахском языке на основе VOSK. В частности, в ней приводится сравнительный анализ двух вариантов модели распознавания речи VOSK: VOX big и VOSK small. Оценка проводится в рамках казахского языка с использованием набора данных KazakhTTS, подготовленного в 2021 году командой ISSAI. Результаты эксперимента, представленные в виде коэффициента ошибок в словах (WER), показали, что VOSK big показывает лучший результат (51%) по сравнению с VOSK small (55%). Однако было указано, что существуют ограничения в распознавании окончаний слов и что при распознавании речи возникают некоторые ошибки. Обсуждение результатов подчеркивает потенциал модели и указывает на необходимость дальнейшей доработки и обучения на более разнообразных данных. В заключении изложены ключевые выводы, а также потенциальные направления для дальнейшего изучения в области распознавания казахской речи.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2023 Computing & Engineering

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
<div class="pkpfooter-son">
<a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc/4.0/80x15.png"></a><br>This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc/4.0/">Creative Commons Attribution-NonCommercial 4.0 International License</a>.
</div>