Вот вопрос, который многим может быть интересен
Когда мы говорим о слухе у искусственного интеллекта, важно понимать разницу между физическим слухом и обработкой звука.
Все нейросети в одном окне • Карты РФ • Без VPN • Первый шаг — всего 290₽
💜 Попробовать Chad AI• Реклама • Партнёрская программа
OpenAI Whisper и новые аудио-модели лидируют по точности. Whisper показывает ~92% точность (WER 8%), а в 2025 году вышли gpt-4o-transcribe и gpt-realtime — они лучше работают с акцентами, шумом и реал-тайм разговором. Realtime API в общем доступе с августа 2025, поддерживает full-duplex (слушает и говорит одновременно, как живой).
Full-duplex и сверхнизкая задержка. NVIDIA PersonaPlex (2026) и Moshi-подобные модели работают с latency ~160 мс (быстрее среднего человеческого отклика). ИИ теперь естественно прерывает, вставляет "угу" и ведёт разговор без очереди.
Microsoft MAI-Transcribe-1 (апрель 2026). Новая модель бьёт Whisper по 25 языкам (средний WER ~3.8%). Плюс MAI-Voice-1 для генерации голоса. Microsoft активно догоняет OpenAI в аудио.
Слуховые аппараты на стероидах. Phonak Infinio Sphere, Aris AI с G3 Gen AI Neuro Processor (в 4 раза быстрее обработка). DNN и нейропроцессоры отделяют речь от шума как мозг — +30% понимание речи в шуме.
Мультимодальность — главный тренд. Модели вроде Gemini 3.1, SAM Audio (Meta) одновременно видят + слышат. Показываешь видео/фото и говоришь — ИИ понимает контекст. SAM Audio разделяет звуки по текстовым или визуальным подсказкам.
В 2026 году ИИ не просто "слышит" — он ведёт естественный разговор, работает на устройстве, понимает эмоции и контекст вместе с видео. Голос становится главным интерфейсом, а точность и скорость продолжают расти.