Конь Ти Дон
Конь Ти Дон
Как это работает?
Конь Ти Дон — голосовой ассистент, созданный в рамках студенческих соревнований “Нехакатон”, где он получил сертификат победителя. Ассистент представляет собой гида по Ростовской области, рассказывает о достопримечательностях и отвечает на вопросы. Перед началом работы была поставлена цель разработать голосового помощника с использованием отечественных технологий, который будет выполнять функции экскурсовода. Голосовой помощник должен общаться с туристами и рассказывать о Ростовской области.
Как разрабатывался проект?
Прежде чем начать работу над программой, необходимо было выбрать инструментарий. Для разработки был выбран Python, так как этот язык программирования хорошо подходит для проектов искусственного интеллекта. Изначально планировалось использовать библиотеку silero-models для озвучки текста, но она была отклонена из-за неразрешимых проблем с синтезом речи. Рассматривалось решение от Google (Google Cloud Speech-to-Text), однако эта библиотека не обеспечивала хорошего качества синтеза речи на русском языке. В итоге был выбран вариант от Яндекса — Yandex SpeechKit. Эта модель успешно решала все поставленные задачи, включая высокую скорость синтеза речи и высококачественный результат на русском языке. Также использование данного решения позволило решить проблемы потокового распознавания речи с микрофона. Непосредственным преимуществом библиотеки Yandex SpeechKit является её облачное вычисление, что делает её подходящей даже для слабых систем. Также использовалась LangChain для реализации векторной базы данных. Распознавание речи в системе реализовано с помощью потокового распознавания. Этот режим позволяет одновременно отправлять аудио и получать результаты распознавания в рамках одного соединения, а также получать промежуточные результаты, пока фраза ещё не закончена. Записанный аудиосигнал представлен на слайде. Записанная речь часто подвергается воздействию лишних шумов, а в местах большого скопления людей её распознавание становится затруднительным. В разработанной системе был использован модуль RNNoise, который применяет рекуррентную нейронную сеть с ячейками GRU для подавления шума в аудиозаписи в реальном времени. Стандартная модель обучена на 6,4 ГБ зашумленных аудиозаписей. Одним из главных её преимуществ является возможность работы на слабых системах, таких как Raspberry Pi. На слайде представлены спектрограммы звука до и после обработки нейросетью RNNoise. Ответы голосового ассистента формируются с использованием модели RAG, которая интегрирует базу знаний и искусственный интеллект Yandex GPT. Retrieval Augmented Generation — это генерация ответа пользователю с учётом дополнительно найденной релевантной информации. Методология работы с высокоуровневыми языковыми моделями включает пользовательский ввод в виде вопросов, к которым программно добавляется дополнительная информация из внешних источников. Затем полный запрос, содержащий как исходный вопрос пользователя, так и дополнительные контекстуальные данные, подается на вход языковой модели. Это обогащает контекст запроса дополнительной информацией, позволяя модели предоставить более подробный и точный ответ. Такой подход способствует повышению контекстуальной обоснованности ответов и улучшает общую эффективность взаимодействия. Аппаратная часть реализована на Raspberry Pi 4. Поскольку Raspberry сама по себе не умеет оцифровывать сигнал, было решено использовать направленный микрофон и USB-звуковую карту. Таким образом, голосовой ассистент Конь Ти Дон становится надежным помощником для туристов, предлагая им уникальные экскурсии и информацию о Ростовской области. Использование современных технологий, таких как Yandex SpeechKit и RNNoise, позволяет обеспечить высокое качество взаимодействия, даже в условиях шума.