Nowa funkcja bazuje na modelu Gemini 3.5 Live Translate opracowanym przez Google DeepMind. W przeciwieństwie do klasycznych systemów tłumaczeń głosowych nie wymaga ona zakończenia całego zdania przez rozmówcę przed wygenerowaniem przekładu. Model analizuje mowę na bieżąco i niemal natychmiast generuje tłumaczenie w wybranym języku.
Największą zmianą jest sposób przekazywania tłumaczonej wypowiedzi. Odbiorca słyszy głos zachowujący charakterystyczne cechy mówcy, takie jak intonacja, tempo mówienia czy akcent emocjonalny. Dzięki temu rozmowa ma przypominać naturalną komunikację, a nie kontakt za pośrednictwem syntetycznego lektora.
Według informacji przedstawionych przez Google model pozostaje jedynie kilka sekund za wypowiedzią rozmówcy, co pozwala prowadzić swobodną konwersację nawet podczas dynamicznych spotkań biznesowych, prezentacji czy negocjacji.
Ponad 70 języków i ponad 2000 par językowych
Dotychczasowe możliwości tłumaczenia mowy w Google Meet były stosunkowo ograniczone. System obsługiwał jedynie kilka języków i koncentrował się głównie na tłumaczeniach z języka angielskiego oraz na język angielski.
Wraz z wdrożeniem Gemini 3.5 Live Translate sytuacja zmieni się diametralnie. Google zapowiada obsługę ponad 70 języków oraz ponad 2000 kombinacji językowych dostępnych podczas jednego spotkania. Oznacza to możliwość prowadzenia wielojęzycznych rozmów bez konieczności korzystania z języka pośredniego.
To szczególnie istotna zmiana dla międzynarodowych firm, organizacji oraz instytucji publicznych prowadzących regularne spotkania z partnerami z różnych krajów.
Gemini 3.5 Live Translate rozpoznaje język automatycznie
Jednym z najważniejszych elementów nowego modelu jest automatyczne wykrywanie języka. Użytkownik nie musi ręcznie wybierać języka źródłowego przed rozpoczęciem rozmowy.
System sam identyfikuje używany język i rozpoczyna tłumaczenie. Jednocześnie został zaprojektowany tak, aby radzić sobie z zakłóceniami dźwiękowymi oraz rozmowami prowadzonymi w mniej sprzyjających warunkach akustycznych. Google podkreśla, że model zachowuje wysoką skuteczność także w głośnym otoczeniu.
Może to znaleźć zastosowanie nie tylko podczas wideokonferencji, ale również w edukacji, obsłudze klienta, międzynarodowych wydarzeniach czy transmisjach online.
Nowy interfejs Google Meet
Wraz z rozbudową możliwości tłumaczeniowych Google zapowiada również zmiany w samym interfejsie Google Meet. Funkcja tłumaczenia mowy ma być dostępna bezpośrednio z poziomu głównego widoku spotkania.
Celem jest ograniczenie liczby kroków potrzebnych do uruchomienia tłumaczenia oraz zwiększenie dostępności narzędzia dla użytkowników biznesowych. Według firmy aktualizacja trafi początkowo do wybranych klientów korporacyjnych korzystających z Google Workspace w ramach programu private preview, a następnie będzie udostępniana szerzej w kolejnych miesiącach.
Rosnąca rola sztucznej inteligencji w komunikacji
Nowe rozwiązanie wpisuje się w szerszy trend rozwoju narzędzi wykorzystujących sztuczną inteligencję do komunikacji między użytkownikami posługującymi się różnymi językami. W ostatnich latach systemy tłumaczeń maszynowych osiągnęły poziom umożliwiający nie tylko przekład treści, ale również zachowanie kontekstu, stylu wypowiedzi oraz naturalnego rytmu rozmowy.
Google wdraża Gemini 3.5 Live Translate równolegle w kilku produktach. Oprócz Google Meet model jest udostępniany również programistom za pośrednictwem Gemini Live API oraz w aplikacji Google Translate na urządzeniach z Androidem i iOS.
Źródła:
- Blog Google: „Fluid, natural voice translation with Gemini 3.5 Live Translate”
- Google DeepMind
- Google Meet
- Google Workspace
- Gemini Live API
- Google AI Studio
- Dokumentacja Google AI Developers dotycząca Gemini 3.5 Live Translate
- Materiały prasowe Google z 9 czerwca 2026 r.