Най-новият аудио модел на Google осигурява естествени разговори с изкуствен интелект в Google Meet, Google Translate и за разработчици чрез Gemini Live API
Google обяви пускането на Gemini 3.5 Live Translate – най-новият си авангарден аудио модел за превод от реч към реч в близко до реалното време. Технологията позволява плавна комуникация на над 70 езика, като превръща науката за езика в „магията на човешката връзка“.
Gemini 3.5 Live Translate се отличава от традиционните системи за превод по своята способност да работи непрекъснато, вместо да изчаква говорещия да приключи изречението си. Моделът автоматично разпознава езиците и генерира естествено звучаща реч, която запазва интонацията, темпото и височината на оригиналния глас, оставайки само на няколко секунди зад говорещия през цялата сесия.
„Gemini 3.5 Live Translate преработва начина, по който общуваме в глобален мащаб,“ се посочва в съобщението на компанията. „Моделът балансира нуждата от контекст за постигане на високо качество с необходимостта от незабавен превод, за да поддържа синхрон между участниците в разговора без неудобни паузи“.
Достъпност и интеграция в продуктите на Google Gemini 3.5 Live Translate започва да се разпространява от днес в ключови платформи:
• За разработчици: Вече е наличен в публична предварителна версия (public preview) чрез Gemini Live API и в Google AI Studio.
• За бизнеса: Този месец започва частна предварителна версия (private preview) за клиенти на Google Meet, където ще се поддържат над 2000 езикови комбинации. Корпоративните клиенти ще се възползват и от подобряването на интерфейса на Live Translation функцията в Google Meet, за да бъде по-лесно достъпна.
• За потребителите: Функцията се внедрява глобално в приложението Google Translate за Android и iOS. За потребителите на Android се въвежда и нов „режим на слушане“, който предава превода директно през слушалката на телефона, точно като при обикновен разговор.
Трансформация за бизнеса и екосистемата Водещи компании вече внедряват Gemini 3.5 Live Translate, за да премахнат езиковите бариери. Grab, водеща платформа в Югоизточна Азия, тества модела, за да улесни комуникацията между шофьори и пътници, които провеждат над 10 милиона гласови разговори месечно. Партньори като LiveKit, Agora и Vision Agents също интегрират модела в своите платформи, позволявайки на разработчиците лесно да изграждат приложения за гласов превод.
Сигурност и отговорност В съответствие с ангажиментите на Google за безопасност, цялото аудио съдържание, генерирано от модела, е маркирано с цифрови водни знаци чрез технологията SynthID. Този невидим за човешкото ухо маркер е вграден директно в аудио изхода, което позволява откриването на генерирано от ИИ съдържание и помага за предотвратяване на дезинформацията.
