Аллофоны - LangTown

Как уже говорилось раннее, аллофон – это реализация фонемы в конкретном ее окружении. Тем не менее, распознавание аллофона не столь простая задача, как это может показаться на первый взгляд.

Основная проблема при распознавании отдельных аллофонов – это различные коартикуляции, возникающие во время произношения. Для успешного распознания речи, на уровне аллофонов, необходимо использовать один из аллофонов, в качестве эталона. Такой эталон называется «основным аллофоном». Необходимо отметить, что для гласных основной аллофон – изолированное произнесение, а для согласных – произнесение перед ударным «а».

Проблем при разработке алгоритмов для анализа речи не возникает, однако использование моделей Маркова для борьбы с коартикуляциями не самая простая задача, поэтому попробуем использовать более продвинутые технологии – нейронные сети.

Искусственная нейронная сеть (ИНС) – это упрощенная модель биологических нейронных сетей. Нейронная сеть способна к самообучению, однако применить какой-либо стандартный интерфейс не представляется возможным, т.к. в зависимости от размерности нейронной сети интерфейс будет отличаться.

Для обучения ИНС необходимы примеры и чем больше размер сети, тем больше необходимо примеров.

Итак, для того чтобы нейронная сеть выучила связи между десятками фонем, сотнями аллофонов и тысячами дифонов и троифонов необходимо огромное количество времени, а также очень большая обучающая база.

Как обойти эту проблему?

Путем сопоставления нечетких образов и методом интерполяции вершин, определим схожесть произнесенного звука с основным аллофоном.

После чего ИНС сможет определить входной участок анализа, что позволит нам сократить количество входов до числа, равного числу фонем.

Таким образом, разделим слово на небольшое количество фонем.

С помощью этого метода мы можем произвести высокоточный контекстный анализ, что позволит нам бороться со многими ошибками, возникающими при распознавании.