Google обновляет технологию голосового поиска, чтобы сделать ее быстрее и точнее

Google создал новую технологию для голосового поиска, которая, по словам компании, сделает ее еще быстрее и точнее. Новая технология использует методику Connectionist Temporal Classification (CTC) и методы распознавания последовательностей. В 2012 году Google переключился с модели Gaussian Mixture Model (GMM) на Deep Neural Networks (DNN), что позволило компании лучше оценить, какой звук воспроизводил пользователь в то время, и повысило точность распознавания речи.

Наши улучшенные акустические модели основаны на рекуррентных нейронных сетях (RNN). RNN имеют петли обратной связи в своей топологии, что позволяет им моделировать временные зависимости: когда пользователь говорит / u / в предыдущем примере, его артикуляционный аппарат исходит из / j / звука и из / m / звука раньше. Попробуйте сказать это вслух - «музей» - он течет очень естественно на одном дыхании, и RNN могут это уловить. Используемый здесь тип RNN - это RNN с долговременным кратковременным запоминающим устройством (LSTM), который с помощью ячеек памяти и сложного стробирующего механизма запоминает информацию лучше, чем другие RNN. Принятие таких моделей уже значительно улучшило качество нашего распознавателя.

Изменения в технологии были внесены Google и теперь используются для голосового поиска в приложении Google на iOS и Android, а также для диктовки на устройствах Android.

Источник: Google Research Blog