Как уже говорилось раннее, аллофон – это реализация фонемы в конкретном ее окружении. Тем не менее, распознавание аллофона не столь простая задача, как это может показаться на первый взгляд.
Основная проблема при распознавании отдельных аллофонов – это различные коартикуляции, возникающие во время произношения. Для успешного распознания речи, на уровне аллофонов, необходимо использовать один из аллофонов, в качестве эталона. Такой эталон называется «основным аллофоном». Необходимо отметить, что для гласных основной аллофон – изолированное произнесение, а для согласных – произнесение перед ударным «а».
Проблем при разработке алгоритмов для анализа речи не возникает, однако использование моделей Маркова для борьбы с коартикуляциями не самая простая задача, поэтому попробуем использовать более продвинутые технологии – нейронные сети.
Искусственная нейронная сеть (ИНС) – это упрощенная модель биологических нейронных сетей. Нейронная сеть способна к самообучению, однако применить какой-либо стандартный интерфейс не представляется возможным, т.к. в зависимости от размерности нейронной сети интерфейс будет отличаться.
Для обучения ИНС необходимы примеры и чем больше размер сети, тем больше необходимо примеров.
Итак, для того чтобы нейронная сеть выучила связи между десятками фонем, сотнями аллофонов и тысячами дифонов и троифонов необходимо огромное количество времени, а также очень большая обучающая база.
Как обойти эту проблему?
Путем сопоставления нечетких образов и методом интерполяции вершин, определим схожесть произнесенного звука с основным аллофоном.
После чего ИНС сможет определить входной участок анализа, что позволит нам сократить количество входов до числа, равного числу фонем.
Таким образом, разделим слово на небольшое количество фонем.
С помощью этого метода мы можем произвести высокоточный контекстный анализ, что позволит нам бороться со многими ошибками, возникающими при распознавании.