Home / Tech / L'imagination renforce le parallélisme dans les GPU pour accélérer les graphismes mobiles et l'IA

L'imagination renforce le parallélisme dans les GPU pour accélérer les graphismes mobiles et l'IA

Imagination-max-config-AXT-64-2048

L'implémentation phare, baptisée IMG AXT-64-2048, est évaluée à 2Tflop / s pour le calcul, à 64Gpixel / s pour le traitement graphique et à 8Tops pour le traitement de l'intelligence artificielle.

IMG A-Series offre des améliorations à la même vitesse d'horloge et au même processus comparés aux appareils PowerVR actuels, déclare l'entreprise, qui offre 2,5 fois plus de performances, un traitement d'apprentissage automatique 8 fois plus rapide et une consommation d'énergie réduite de 60%. Il s'agit de «la propriété intellectuelle des GPU la plus rapide jamais publiée», a déclaré Imagination, qui répertorie les domaines suivants: automobile, intelligence artificielle IdO, télévision numérique, décodeur, over-the-top, téléphones et serveurs.

Imagination-ASeries-geometry-processingTraitement de la géométrie dans la configuration maximale GPU A-Series (à gauche)

L'augmentation des performances 2,5x est en vitesse de calcul / mm2 Comparé à un récent noyau de la série 9, exécutant le test de référence de Manhatten, le directeur de produit de PowerVR, Kristof Beets, a déclaré à Electronics Weekly.

Selon Beets, dans le langage utilisé pour comparer les cœurs de processeur, les cœurs de GPU précédents d'Imagination ressemblaient à des processeurs CISC (ensemble d'instructions complexes), alors que les nouveaux GPU de la série A ressemblent à ceux de RISC, avec un jeu d'instructions réduit et donc un matériel plus simple. .

«Les GPU avaient traditionnellement des UAL (unités arithmétiques et logiques) complexes – comme le CISC par rapport au RISC. Si vous simplifiez le jeu d'instructions, vous obtenez une utilisation matérielle supérieure », a-t-il expliqué.

Avec le CDCI, il incombe au compilateur de garder le matériel rempli de travail. Avec une architecture RISC-ish dans la série A et une très grande portée également – la série A compte 128 ALU fonctionnant en parallèle – «La série A est beaucoup plus facile à compiler», a déclaré Beets.

Avec tous ces bus en parallèle, n’aura-t-il pas besoin de beaucoup de silicium en couches de métal?

Non, a déclaré Beet: «En réalité, la congestion est bien meilleure dans cette conception (série A), car tout est beaucoup plus régulier. Les anciens GPU ont moins d’ALU, mais beaucoup de multiplexeurs. ”

ALU série A

  • 128 ALUs de large
  • Pipelines ALU simples
  • Un parallélisme massif au niveau des fils
  • Optimisations simples du compilateur
  • Utilisation élevée en ALU
  • Augmentation de la densité d'ALU (FP32 / mm2)
  • Efficacité énergétique améliorée (flop 32 bits / W)

À titre de comparaison, l’ancien ALU (Rogue)

  • 16 à 32 ALUs de large
  • Pipelines ALU complexes
  • Parallélisme au niveau de l'instruction
  • Optimisations complexes du compilateur
  • Utilisation réduite d'ALU

Bloc Imagination-ASeriesOutre 128 ALU, il existe 32 types de machines appelées «plus que des ALU» (diagramme à droite), beaucoup plus capables que les versions simples et destinées à des calculs sinus, cos, de log et d'opérations atomiques, parmi: d'autres fonctions. Les deux pipelines peuvent être utilisés en même temps.

Imagination-max-config-AXT-64-2048En regardant la configuration maximale (AXT-64-2048, diagramme à gauche), il existe quatre blocs identiques – des unités de traitement évolutives (SPU).

Dans chacune de ces SPU se trouve un carré représentant 128 ALU de 32 bits, pouvant chacune effectuer des opérations de multiplication et d’addition simultanées, ce qui donne 256 flop.

En regardant de plus près, il y a une autre case derrière chaque UPE – une deuxième série d'ALU, poussant la capacité à 512 flop en parallèle.

Les configurations sont disponibles avec un, deux, trois ou quatre de ces doubles SPU ALU. Dans la configuration maximale illustrée, il y en a quatre, ce qui porte sa capacité à 2 048 opérations simultanées en virgule flottante de 32 bits, auxquelles il est possible d'ajouter la capacité des unités ALU associées.

Flux de processus Imagination-ASeries-pixelFlux de processus de pixels dans la série A – le rendu de la surface dorée (en haut à droite) sur la géométrie mosaïque par mosaïque (droite)

L’imagination revendique, bien que pas encore quantifiée, des économies d’énergie réalisées par l’architecture de la série A («elle a« une puissance inférieure à celle de ses concurrents au même moment et au même processus ») et elle prévoit que cela lui donnera un avantage sur les téléphones utilisés pour les jeux.

«La plupart des GPU mobiles ont du mal à offrir des expériences de jeu cohérentes en raison de contraintes thermiques. Ils sont rapides pendant un moment, puis lents, puis ne récupèrent jamais », a déclaré Imagination. "La série A d'IMG offre des performances soutenues pour des parties prolongées à des cadences constantes, en évitant les ralentissements thermiques, les problèmes ou la surchauffe."

Le rendu différé basé sur les tuiles de la société, qui ne dessine que ce qui doit être visible à l’écran, fait partie de l’économie d’énergie, tout comme la mise à l’échelle dynamique de la tension et de la fréquence, contrôlée par des algorithmes de planification des délais de latence faible. "Si certaines parties du processeur graphique ne sont pas pleinement utilisées ou nécessaires, elles sont immédiatement ralenties, voire mises en veille, pour assurer l'efficacité énergétique", a déclaré Imagination.

Pour le développement, il existe un ensemble d'outils et un SDK (kit de conception logicielle) ainsi que du matériel sur GPU – par exemple, des compteurs ont été inclus pour signaler le traitement par mosaïque (sous la forme d'une "carte thermique" visuelle). outils) pour permettre aux développeurs d’applications de focaliser du matériel supplémentaire sur des parties difficiles d’une image. Les normes API, notamment OpenGL ES, Vulkan et OpenCL, sont prises en charge.

Imagination-ASeries-compute-flowFlux de calcul dans la série A (à droite)

Les suffixes de la nomenclature antérieure Series-n sont conservés.

La série A sera divisée en:

  • AX – bas de gamme – optimisé pour le taux de remplissage / mm2
  • AXM – calcul accru – optimisé pour compute / mm2
  • AXT – haut de gamme – optimisé pour l'efficacité énergétique et de hautes performances pour les téléphones haut de gamme, les serveurs et la conduite automatisée

Les noyaux IMG A-Series sont:

  • IMG AXT-64-2048 (schémas ci-dessus et ci-dessous)
    2Tflop / s, 64Gpixel / s et 8Tops pour AI
    performance phare
  • IMG AXT-48-1536
    1,5 Tflop / s, 48Gpixel / s et 6Tops pour AI
    prime mobile;
  • IMG AXT-32-1024
    1Tflop / s, 32Gpixel / s et 4Tops pour AI
    haute performance mobile et automobile
  • IMG AXT-16-512
    500Gflop / s, 16Gpixel / s et 2Tops pour AI
    hautes et moyennes performances mobiles et automobiles
  • IMG AXM-8-256
    250GTflop / s, 8Gpixel / s et 1Tops pour AI
    mobile de milieu de gamme
  • IMG AX-2-16
    2 PPC, 16Gflop / s et 2Gpixel / s
    IoT premium, entrée DTV / STB, affichage et autres applications basées sur le taux de remplissage
  • IMG AX-1-16
    1 PPC, 16Gflop / s et 1Gpixel / s
    entrée de gamme mobile et IoT et le GPU le plus rapide compatible Vulkan de sa classe

Imagination-ASeries-tâche-simultanéitéTâches simultanées dans la série A

Au sein de chaque groupe de 128 ALU parallèles, tous les ALU effectuent la même opération simultanément. Ainsi, tout travail multitâche dans un bloc de 128 ALU est découpé dans le temps.

Pour économiser de l'énergie et du temps lors du changement de tâche, les ALU ont une banque de registres permettant de conserver les données d'un «grand nombre de threads» en local, a déclaré Beets.

Pour mapper et hiérarchiser les tâches sur les différentes tranches de temps disponibles sur quatre SPU au maximum, Imagine a créé un système d’exploitation appelé HyperLane, capable de traiter toutes les ressources GPU disponibles comme jusqu’à huit GPU virtuels, appelés HyperLan, chacun pouvant être exécuté. plus d'une tâche.

En plus des données à virgule flottante 32 bits, pour le traitement de l'intelligence artificielle, chaque unité ALU peut fonctionner avec des données pondérées à 8 bits. HyperLane est doté d’une fonctionnalité appelée AI Synergy qui permet d’obtenir des performances graphiques suffisantes pour le processeur graphique, tout en allouant des ressources supplémentaires à la mise en œuvre de l’IA programmable. «‘ AI Synergy ’fournit une IA programmable dans la zone de silicium la plus basse, tandis qu’une pile logicielle unifiée offre souplesse et performance», a déclaré le cabinet. La répartition des ressources entre les graphiques et le traitement de l'intelligence artificielle peut être dynamique. «La technologie HyperLane peut également isoler un contenu protégé pour la gestion des droits. Tous les GPU IMG série A prennent en charge jusqu'à huit HyperLanes. ”

HyperLane interagit également avec le matériel de virtualisation, qui est contrôlé par un microcontrôleur intégré séparé exécutant du code d'hyperviseur. Séparés par la virtualisation matérielle, jusqu'à huit programmes peuvent être exécutés indépendamment.

Source

About admin

Check Also

Les nouveaux marchands d'expansion de Gwent à Ofir arrivent en l'air

Merchants of Ofir présente 70 nouvelles cartes Une nouvelle extension pour le Witcher le jeu …

Laisser un commentaire