Współczesne urządzenia mobilne umożliwiają wykonywanie wielu różnorodnych czynności, w tym przeglądanie Internetu, odtwarzanie materiałów wideo, granie, wysyłanie i odbieranie SMS-ów, a także korzystanie z usług lokalizacji. Coraz większa popularność sieci bezprzewodowych oraz sieci komórkowych umożliwiających szybki przesył danych oznacza, że w przyszłości urządzenia mobilne będą również wykonywać gros innych, wymagających obliczeniowo zadań, które do tej pory pozostawały domeną tradycyjnych komputerów osobistych. Tablety i smartfony umożliwiają odtwarzanie filmów w wysokiej rozdzielczości (1080p), uruchamianie gier i odtwarzanie filmów w technologii Flash, obsługę bogatych wizualnie gier, edytowanie materiału wideo, symultaniczne pobieranie, kodowanie i przesyłanie materiału wideo w wysokiej rozdzielczości, a także prowadzenie wideo-konferencji realizowanych w wysokiej rozdzielczości i w czasie rzeczywistym.

Obecna generacja procesorów mobilnych nie jest w stanie sprostać ogromowi tych zadań, gdyż wymagają one wysokiej wydajności. Uruchomienie wielu aplikacji jednocześnie lub jednego, acz wymagającego programu (czyli np. gry, aplikacji do wideo-konferencji, czy też aplikacji do edytowania materiałów wideo) na urządzeniu z procesorem jednordzeniowym skutkuje drastycznym spadkiem wygody użytkowania. Inżynierowe projektujący urządzenia mobilne stosują szereg technik mających na celu zwiększenie wydajności procesora centralnego: używają szybszych i mniejszych półprzewodników, zwiększają częstotliwość zegara i napięcie rdzenia, a także montują większe rdzenie lub więcej pamięci podręcznej układu.

Zwiększenie rozmiaru rdzenia czy ilości pamięci podręcznej procesora centralnego zapewnia wzrost wydajności, tego zabiegu nie można stosować jednak w nieskończoność. W pewnym momencie projektanci urządzeń mobilnych napotykają barierę: duże układy wydzielają zbyt wysoką temperaturę. Trudności w jej odprowadzeniu sprawiają, że dalsza rozbudowa staje się niepraktyczna. Według podstawowych zasad fizyki półprzewodnikowej, zwiększenie wydajności pracy i napięcia w urządzeniach opartych na półprzewodnikach skutkuje wykładniczym wzrostem poboru energii. Zwiększenie wydajności poprzez podniesienie częstotliwości zegara oraz napięcia układu skutkowałoby więc drastycznym skróceniem czasu pracy na akumulatorach. Należy również pamiętać, że procesory zużywające więcej energii wymagają zastosowania odpowiednio większych układów chłodzenia, co wymusza niepożądany rozrost gabarytów urządzenia. W obliczu tych faktów można stwierdzić, że proces zwiększania częstotliwości zegara procesora w celu zaspokojenia potrzeb coraz bardziej wymagających aplikacji mobilnych nie jest rozwiązaniem możliwym do zastosowania w przyszłości.


W tej sytuacji producenci urządzeń mobilnych, chcąc zaspokoić rosnące zapotrzebowanie na wydajne i ultra-cienkie urządzenia mobilne, sięgnęli po nowocześniejsze technologie – mechanizm przetwarzania symetrycznego (SMP) oraz heterogeniczną architekturę wielordzeniową. I tak postała druga odsłona Tegry. To najbardziej zaawansowany procesor mobilny na świecie, stworzony od podstaw na heterogenicznej architekturze wielordzeniowej, która stanowi kompletny układ elektroniczny typu SoC (System-On-a-Chip) i zawiera dwa rdzenie procesora centralnego Coterx A9 ARM wraz z szeregiem innych, wyspecjalizowanych rdzeni, przeznaczonych do obsługi dźwięku, wideo i grafiki. Konstrukcja wyspecjalizowanego rdzenia potrzebuje mniej tranzystorów, a jego zegar pracuje z niższą częstotliwością, lecz mimo to przy realizacji zadań przetwarzania dźwięku, wideo i grafiki taki układ zapewnia wyższą wydajność i zużywa mniej energii w porównaniu do procesorów ogólnego zastosowania.

Jeżeli użytkownik posiadający telefon komórkowy oparty na architekturze dwuprocesorowej z obsługą przetwarzania symetrycznego zechce uruchomić jednocześnie aplikację do strumieniowania dźwięku oraz aplikację do nawigacji, to system operacyjny urządzenia będzie w stanie rozdzielić obsługę tych aplikacji na dwa procesory. Aplikacje jednowątkowe również pracują szybciej na procesorach wielordzeniowych, ponieważ system operacyjny może przydzielić wątki takich aplikacji dwóm procesorom jednocześnie. Rozdzielenie obciążenia na dwa układy skutkuje szybszą realizacją zadania. Ponieważ obciążenie pracą zostało rozłożone na dwa rdzenie, oba układy mogą pracować z niższa prędkością. W ten sposób można zapewnić doskonałą wydajność przy niskim poborze energii, ponieważ wolniejsza częstotliwość zegara umożliwia stosowanie niższego napięcia, co skutkuje zmniejszeniem poboru mocy o pierwiastek kwadratowy wartości zmniejszenia napięcia

NVIDIA Tegra to pierwszy procesor mobilny na świecie z dwurdzeniowym procesorem centralnym. Dwurdzeniowy procesor centralny zastosowany w układzie NVIDIA Tegra to wysoce zoptymalizowana wersja architektury Cortex A9 MPcore™ firmy ARM, która zapewnia prawie dwukrotnie wyższą wydajność w porównaniu z procesorami mobilnymi dostępnymi w dzisiejszych urządzeniach. Dzięki funkcjom przetwarzania symetrycznego, wykonywania poza kolejnością oraz wysokowydajnym mechanizmom przewidywania zoptymalizowane rdzenie ARM umożliwiają szybkie ładowanie stron internetowych oraz zapewniają przyjemność z obsługi urządzenia,

Pobór energii i wydajność obu rdzeni są kontrolowane przez złożone i wysoce inteligentne algorytmy dynamicznej regulacji napięcia i skalowania częstotliwości. Algorytmy zostały wdrożone zarówno na poziomie programowy, jak i na poziomie sprzętowym. W ten sposób oba rdzenie zawsze będą pracować z optymalnymi wartościami napięcia i częstotliwościami w czasie wykonywania bieżącego zadania, zużywając przy tym jak najmniej energii. Opisywane algorytmy zostały stworzone przez firmę NVIDIA w wyniku dogłębnych badań i rozwiązywania rzeczywistych problemów użytkowania urządzeń mobilnych. To dzięki nim rdzenie zawsze pracują z maksymalną efektywnością – zapewniając najwyższą wydajność, gdy jest to konieczne i pozostając przez resztę czasu w trybie bardzo niskiego poboru energii.

Procesor NVIDIA Tegra wykorzystuje technologię SMP, która umożliwia przekazywanie i współdzielenie zadań przez dwa rdzenie procesorów. Dzięki temu żaden procesor nie jest w pełni obciążany, więc nie musi pracować z wysoką prędkością. W takiej sytuacji układ logiczny zarządzania energią nie musi zwiększać napięcia ani częstotliwości zegara rdzeni, co owocuje znacznymi oszczędnościami energii.

Przy realizacji zadań równoległych architektura NVIDIA Tegra może rozdzielić obciążenie na dwa rdzenie procesorów centralnych, wykonując zadanie dużo szybciej niż urządzenie oparte na rozwiązaniu jednoprocesorowym. Oznacza to, że dwurdzeniowy procesor centralny w układzie NVIDIA Tegra może szybko wykonać przydzielone zadanie, a następnie natychmiast przejść w tryb niskiego poboru energii. Procesor jednordzeniowy postawiony przed takim samym zadaniem musiałby pracować w trybie wysokiego poboru energii dużo dłużej.W przypadku mało obciążających zadań, czyli np. takich, które które wymagają zastosowania wyłącznie jednego rdzenia, istnieje możliwość wyłączenia nieaktywnego rdzenia i zmniejszenia poboru energii do poziomu typowego dla procesorów jednordzeniowy