Dziennikarze „Economista” nie nazwali potwora, jednak branża zrobiła to już dawno temu: to technologia rozpoznawania mowy przez maszyny. Gdyby się posłużyć tolkienowską metaforą: może stać się ona tym samym, czym był magiczny jedyny pierścień. W książce rządzi 19 pozostałymi, technologia rozpoznawania mowy pozwoli sterować innymi urządzeniami. Bo przenosząc się ze świata fantasy do rzeczywistości: dotychczas rządził hardware (sprzęt), ale nadeszły – jak ujął to Marc Andreessen, jeden z najbardziej znanych inwestorów z Doliny Krzemowej – czasy magii, czyli software’u. Nowe oprogramowanie zmieni świat.

– To następna rewolucja. Wszystkie urządzenia zostaną podpięte do internetu i wyposażone w technologię rozpoznawania mowy, rozróżniającą wiele języków i głosów. To zmieni nie tylko proste doświadczenia użytkowników, lecz także biznes i społeczeństwa w znacznie szerszym wymiarze – ogłosił Arvind Sodhani, prezes Intel Capital, największego funduszu venture capital świata, inwestującego co roku w start-upy ok. 500 mln dol. Obserwowało go tysiąc prezesów firm, którzy brali udział w Intel Capital CEO Global Summit. Sodhani podszedł do komputera i głosem kazał odnaleźć mu w sieci utwór koreańskiego wykonawcy PSY „Gangnam Style”, a potem go odtańczył. Odkładając jednak żarty na bok: na początku roku fundusz zainwestował 100 mln dol. w technologię łączącą rozpoznawanie mowy z gestami, która instalowana będzie w samochodach przyszłości.

Mowa destrukcji

Kto z państwa włada biegle jednym obcym językiem? – Ireneusz Piecuch, partner kancelarii CMS Cameron McKenna, zwrócił się do słuchaczy, głównie studentów, warsztatów dziennikarskich Akademii im. Lesława Pagi. W sali notowań rynku NewConnect w budynku giełdy w Warszawie przed jego oczami wyrósł las rąk. Wtedy zapytał, ile osób mówi dwoma obcymi językami. Tym razem rąk w górze było znacznie mniej. – Szczerze państwu współczuję, bo może się okazać, że ponieśliście daremny trud. Też myślałem o zapisaniu córki na mandaryński, ale jak ona będzie dorosła, może jej to nie być w ogóle potrzebne. Do tego czasu powszechne staną się technologie, które będą tłumaczyć w czasie rzeczywistym to, co mówimy. To będzie zmiana na niespotykaną dotychczas skalę – stwierdził.

Technologia, która na to pozwala, istnieje, choć jest jeszcze niedopracowana i zbyt droga, by trafić pod strzechy. Mimo to eksperci dopatrują się w niej potencjału tzw. twórczej destrukcji – nawiązując do teorii austriackiego ekonomisty Josepha Schumpetera – która potrafi wywrócić do góry nogami dotychczasowy porządek, wprowadzając innowacyjne usługi o nowej jakości. Dotychczas taką funkcję spełniały: Google – który pozwolił na przeglądanie sieci, zapewniając dostęp do różnego rodzaju informacji; Apple – bo zrewolucjonizował pojęcie smartfonu, wywracając przy okazji do góry nogami kilka branż; Amazon – który urzeczywistnił ideę globalnego handlu przez internet nie tylko fizycznymi, lecz także cyfrowymi produktami (książki czy gry); Facebook z Twitterem – które zmieniły komunikację, przenosząc ją do wymiaru niespotykanej dotąd intensywności.

Co zmieni rozpoznawanie mowy? Wyobraźmy sobie negocjacje firm z krajów o kompletnie różnych kulturach i językach – czyli Polaka z Chińczykiem. Dziś, jeśli nie ma w takiej sytuacji wspólnej platformy komunikacji, czyli znanego przez wszystkich języka, niezbędni są tłumacze. Gdy do użycia wejdzie nowa usługa, tłumacz ani wspólny język nie będą już potrzebni. Osoby korzystające z iPhone’ów otrzymały technologię Siri, która pozwala na sterowanie telefonem za pomocą głosu. Jay Yarow, dziennikarz internetowego serwisu „Business Insider”, testował tę usługę. – Każdego ranka sprawdzam pogodę, więc teraz zacząłem pytać o to iPhone’a: „Jaka będzie dzisiaj pogoda?”. I szybko otrzymywałem odpowiedź: „Czeka nas dzisiaj ładna pogoda”, a po chwili temperaturę – opowiada. Jednak zarówno gdy pytał o miejsce pobytu, jak i o wyniki ulubionej drużyny futbolu, Siri zawodził. – Dużo się mówi o tym, że rozpoznawanie głosu będzie innowacyjną rewolucją, ale stanie się tak dopiero wtedy, gdy wydawanie komend głosem będzie w swoich efektach tak precyzyjne jak sterowanie myszką komputera – podkreśla Louis Bedigian z magazynu „Forbes”.

Firmy starają się rzecz jasna dopracowywać technologię. Wprawdzie gdy chodzi o bardziej skomplikwane kwestie, to systemy jeszcze nie dają rady, jednak w prostszych sprawach, gdzie od maszyny nie wymaga się „inteligencji”, idzie im lepiej. Na przykład w prostych, acz użytecznych narzędziach edukacyjnych. Nuance Communications, jedna z największych na świecie firm zajmujących się rozpoznawaniem głosu, stworzył komputerową aplikację Dragon Dictation – mówiony tekst przekłada na słowo pisane w czasie rzeczywistym.

Jest rewolucja, jest biznes

Rozwojem technologii rozpoznawania mowy zajmuje się wiele firm. Są wśród nich giganci świata IT – Microsoft, Google i AT&T. Istnieją jednak także mniejsze firmy, które na rozwoju technologii rozpoznawania mowy opierają swoją działalność. Można wymienić wśród nich także polskie przedsiębiorstwo Ivona Software. Co ciekawe, nie tylko nie ustępuje ono zagranicznym konkurentom, ale niemal pod każdym względem ich przewyższa. W raporcie dokładności komercyjnych syntezatorów mowy, przygotowanym przez organizację Voice Information Associates i magazyn „ASRNews”, w którym przetestowano produkty dziesięciu firm, Ivona zdobyła najwyższe noty, z łącznym wynikiem 94,5 proc. Usługa polskiej firmy była najlepsza we wszystkich kategoriach, od interpretacji liczebników, homogramów, wyrażeń obcojęzycznych, po akronimy, skróty, nazwy i adresy.

Firmę założyli w 2001 r. dwaj absolwenci Politechniki Gdańskiej Łukasz Osowski oraz Michał Kaszczuk. Ich sztandarowym produktem jest ciągle rozwijany syntezator IVONA TTS zamieniający tekst na mowę. W technologii Ivony mówić ma w tym roku 50 głosów na świecie (w ubiegłym było 29), czyli cyfrowych awatarów, stworzonych na konkretne zamówienie. Pierwsze były Amy, Emma i Brian – zamówiła je brytyjska organizacja Royal National Institute of Blind People, aby za ich pomocą pomagać ludziom niewidowym.

Spółka stosuje opatentowaną technologię BrightVoice, która zapewnia brzmienie bardziej zbliżone do naturalnego, ludzkiego. Do tego stopnia, że głos z syntezatora jest trudny do odróżnienia od głosu żywego człowieka. Firma zarabia na dwa sposoby. Z jednej strony sprzedaje głosy do użytku domowego. Za ok. 100 zł można kupić np. program, zainstalować go na komputerze i odczytywać przy jego użyciu dowolne teksty, np. w drodze do pracy. Nuance ma nawet opcję dla dziennikarzy zachęcającą do dyktowania tekstów, co jest podobno trzy razy szybsze niż pisanie.

O ile technologia ta do celów prywatnych ma ostatecznie raczej ograniczoną liczbę zastosowań, o tyle w biznesie wszyscy widzą większy potencjał i wiążące się z tym pieniądze. Zarówno Ivona, Nuance, jak i inne firmy liczą, że ich rozwiązania zmienią wiele procesów biznesowych. Ivona oferuje np. rozwiązania do obsługi call center, automatycznych skrzynek kontaktowych czy IVR – systemów pozwalających na interakcję z użytkownikiem (obecnie trzeba wybierać numery na klawiaturze). Głosy Nuance mówią w systemach geolokalizacyjnych w samochodach takich producentów jak BMW, Audi czy Ford. Lotnisko w Dublinie zastosowało technologię rozpoznawania mowy, by poradzić sobie bez zwiększania zatrudnienia ze wzrostem ruchu o 30 proc. Przychodzące połączenia przechodzą przez filtr i są rozdzielane, w zależności od skomplikowania sprawy, między prawdziwych konsultantów a cyfrowe awatary.

Komputeryzacja percepcyjna

Największe firmy technologiczne widziały potencjał rozpoznawania mowy od dawna i rozwijały ją w swoich laboratoriach, by zacząć ją stosować w urządzeniach elektronicznych codziennego użytku. Intel, największy producent procesorów na świecie, zakłada, że cienkie laptopy (ultrabooki) sterowane będą głosem, dotykiem i spojrzeniem. Ma to być kolejna rewolucja w komputerach osobistych, dla której specjaliści wymyślili nawet nazwę: komputeryzacja percepcyjna. – Zaczyna się już proces odchodzenia od myszki i klawiatury. Ekrany dotykowe to początek. Komputery przyszłości będą nas rozpoznawać, śledzić ruchy naszych oczu i gesty oraz rozumieć, co do nich mówimy – tłumaczył Dadi Perlmutter, wiceprezes Intela odpowiedzialny za nowe technologie, podczas październikowego Intel Developers Forum. – Ludzie to pokochają – stwierdził.

Mark Papermaster, szef AMD, konkurenta Intela, nazywa nadchodzący czas Erą Wszechobecnej Komputeryzacji. – Ostatnie 10–20 lat branża informatyczna spędziła na rozwoju komputerów i ich siły obliczeniowej, by jak najlepiej symulować realny świat. Następną dekadę lub dwie spędzimy na rozwoju możliwości interpretacji otoczenia i rozumienia kontekstu, by zapewnić lepsze doświadczenie i funkcje urządzeń – powiedział podczas jednej z branżowych konferencji. Podobnie jak Perlmutter, szef AMD też spodziewa się świata bez klawiatur i myszek, bo wszystko robić będziemy głosem i gestem.

Sterowanie głosem komputerem, lodówką, pralką czy całą domową infrastrukturą (dawny kamerdyner mógłby wrócić w postaci cyfrowego awatara sterującego domem: „Janie, włącz kaloryfer w łazience”) to jedne z przykładów zastosowań rozpoznawania głosu. Innym będzie niewątpliwie rozrywka. Producenci gier i konsol do gier już nad tym pracują. David Quinn z Microsoftu zajmujący się Kinectem, urządzeniem do rozpoznawania ruchu, które można podłączyć do konsoli xBox 360, przyznał branżowemu serwisowi Gamasutra.com, że ze wszystkich możliwych do wyobrażenia udoskonaleń w grach, jakich spodziewa się w najbliższym czasie, rozpoznawanie mowy zajmuje pierwsze miejsce.

Amerykański magazyn „Fortune” niedawno zatytułował artykuł: „Czterej jeźdźcy technologicznej apokalipsy”. Towarzysząca mu ilustracja nawiązywała do biblijnej Apokalipsy św. Jana: jednak jeźdźcy zagłady nie mieli twarzy śmierci, wojny, głodu oraz choroby, tylko prezesa Amazonu, IBM, Apple’e i Google. Niektórzy twierdzą, że za kilka lat twarz jednego z jeźdźców może zastąpić twarz szefa którejś z firm rozwijających technologię rozpoznawania mowy – może będzie to Paul Ricci, szef Nuance, ale kto wie – może twórcy Ivony Software Łukasz Osowski i Michał Kaszczuk.