coding: Python-библиотеки для распознавания речи offline

среда, 22 января 2020 г.

Python-библиотеки для распознавания речи offline

#python #speech_recognition

Ищу библиотеку для распознавания русской речи (ASR) в аудиозаписях длительностью
до 30 минут.
Работать нужно offline (т.е. без использования API - сервисов).

Что было найдено и какие возникли проблемы:

Kaldi, а точнее враппер на python под названием pykaldi. Честно, не смог разобраться
в ней. Насколько я понял, реализованы математические инструменты обработки звука, но
знаком с ними поверхностно, так что буду рад хорошей инструкции по использованию.
PocketSphinx. Тут проблема оказалась в качестве распознавания - оно было отвратительным.
Возникли вопросы: работает ли вообще эта библиотека с длинными аудио? (Видел бесчисленное
множество работы с ограниченным набором команд. Например, для умного дома). В туторе
есть описание "Адаптации" акустической модели языка, повлияет ли она на качество распознавания?

Собственно, есть ли ещё варианты? Я никогда не исключаю, что проморгал что-то очевидное.

P.S. Имеется обширный набор данных вида Аудио + Текст из этого аудио, который, возможно,
может быть применён для настройки точности (Например, для русской модели в pocketsphinx

Ответы

Ответ 1


Русскую модель для Kaldi скачать здесь.

Для декодирования длинного файла его нужно разделить сначала на pywebrtcvad, затем
скормить в kaldi через os.system.

Pykaldi не нужно, слишком навороченный интерфейс, можно попробовать py-kaldi-simple.

coding

Страницы

Поиск по вопросам

среда, 22 января 2020 г.

Python-библиотеки для распознавания речи offline

Ответы

Ответ 1

Комментариев нет:

Отправить комментарий

Страницы

Поиск по вопросам

среда, 22 января 2020 г.

Python-библиотеки для распознавания речи offline

Ответы

Ответ 1

Комментариев нет:

Отправить комментарий

среда, 22 января 2020 г.