Dans la course à la conduite autonome, la puissance brute ne suffit plus. Le véritable défi n’est pas seulement de créer une IA intelligente, mais de la rendre assez efficace pour tenir dans le « cerveau » électronique d’une voiture de série.
C’est tout l’enjeu de la dernière percée de XPENG, présentée lors de la prestigieuse conférence AAAI 2026. Avec un taux d’acceptation de seulement 17,6 %, l’article scientifique co-écrit avec l’Université de Pékin marque un tournant : XPENG a trouvé le moyen de réduire la charge de calcul des modèles de langage visuel (VLA) sans sacrifier leur intelligence.
Le « Regard Humain » : L’innovation FastDriveVLA
Les modèles VLA (Vision-Language-Action) sont les nouveaux piliers de la conduite autonome. Ils permettent à la voiture de « comprendre » son environnement comme un humain. Cependant, traiter chaque pixel de chaque caméra en temps réel demande une puissance de calcul colossale.
La solution de XPENG ? FastDriveVLA.
Ce nouveau cadre technologique utilise un mécanisme appelé ReconPruner. Au lieu de tout analyser avec la même intensité, l’IA imite l’attention humaine :
- Priorité au vital : Elle se concentre sur les éléments critiques (piétons, signalisation, trajectoires des autres véhicules).
- Élagage de l’inutile : Elle ignore les données redondantes ou non pertinentes du décor (le ciel, les textures de bâtiments lointains).
Résultat : Une efficacité de calcul décuplée qui permet de déployer des modèles ultra-complexes directement dans les véhicules, ouvrant la voie du passage du Niveau 2 (assistance) au Niveau 4 (autonomie quasi-totale).
L’Intelligence Émergente : Plus qu’un algorithme, un comportement
La force de XPENG ne réside pas uniquement dans la recherche académique, mais dans sa capacité à traduire ces équations en comportements concrets. Le passage à l’architecture VLA 2.0 a permis des avancées spectaculaires en conditions réelles.
L’exemple du contrôle de police :
Récemment, lors de tests sur route, un véhicule XPENG a été confronté à un barrage de police pour un test d’alcoolémie. Grâce à sa compréhension contextuelle, l’IA a reconnu les gestes de l’officier, a ralenti, s’est arrêtée pour laisser le conducteur souffler dans l’appareil, puis n’est repartie qu’après avoir identifié le signal manuel de l’agent autorisant le passage.
Ce niveau de compréhension du monde physique, sans aucune intervention humaine, est ce qu’on appelle une capacité émergente.
Une Infrastructure de Géant pour une IA de Précision
Pour soutenir cette ambition, XPENG a déployé des moyens industriels massifs :
- Puissance de calcul : Un cluster de 30 000 cartes graphiques dédié à l’IA.
- Données massives : Plus de 100 millions de clips vidéo pour entraîner le modèle.
- Vitesse d’itération : Une « usine à modèles » capable de livrer une nouvelle version tous les 5 jours.
Comparaison : L’évolution de l’IA chez XPENG
| Étape | Approche Technique | Objectif Final |
| Passé (L2) | Systèmes basés sur des règles rigides. | Aide à la conduite simple. |
| Présent (L2+) | Modèles VLA et compréhension visuelle. | NGP urbain et fluidité. |
| Futur (L4) | FastDriveVLA et Modèles de Monde. | Conduite sans supervision. |
Conclusion : L’industrialisation de l’intelligence
En étant le seul constructeur automobile chinois invité à présenter ses travaux à la fois au CVPR et à l’AAAI, XPENG démontre que la route vers le Niveau 4 ne passe pas seulement par de meilleurs capteurs, mais par une optimisation radicale de l’intelligence embarquée.
La technologie FastDriveVLA lève l’un des derniers verrous majeurs : la limite de puissance des processeurs embarqués. Demain, votre voiture ne se contentera pas de suivre une carte ; elle comprendra son environnement avec la finesse et la réactivité d’un conducteur humain expérimenté.
