L'inférence mobile en pleine maturité
Faire tourner des modèles de vision sur mobile n'est plus un défi : YOLO, EfficientDet ou même des petits Vision Transformers sont désormais standard sur Android et iOS. L'enjeu s'est déplacé vers l'optimisation et l'exploitation des NPUs.
Les frameworks d'inférence
Pour Android, deux options dominent :
- LiteRT (ex-TensorFlow Lite) : package Maven avec delegates CPU (XNNPack) et GPU
- ONNX Runtime : inférence multi-plateformes, compatible NPU sur certains chipsets
Côté optimisation, TensorRT, OpenVINO et ONNX Runtime permettent la quantification et l'optimisation sans réentraînement.
Les 10 bibliothèques incontournables
- OpenCV : traitement image/vidéo, intégration deep learning
- TensorFlow / LiteRT : du cloud au mobile
- PyTorch : graphes dynamiques, debug facile
- Mediapipe : temps réel mobile/web (face, mains, pose)
- OpenVINO : optimisé edge et IoT (Intel)
- Detectron2 : détection modulaire (Meta)
- Dlib : détection visage et landmarks
- FastAI : entraînement simplifié sur PyTorch
- SimpleCV : API simple pour débutants
- scikit-image : intégration scikit-learn
Modèles optimisés mobile
MobileSAM apporte Segment Anything sur mobile avec des temps d'inférence sous 100ms. La famille YOLO continue d'évoluer : YOLOv11 (sept 2024), YOLOv12 (fév 2025). Les Vision Transformers compacts comme Swin et MaxViT offrent un bon compromis précision/performance.
Le défi des NPUs
Chaque fabricant (Qualcomm, Apple, Samsung) conçoit son NPU différemment. Un modèle PyTorch doit être converti et optimisé pour chaque architecture. Il n'existe pas encore de standard universel pour exploiter les NPUs avec des modèles custom.
Tendances 2026
Le marché de la vision embarquée explose : 55 milliards $ pour l'automobile (CAGR 39%), 45 milliards $ pour l'IA vision globale d'ici 2028. Les VLMs (Vision Language Models) visent l'inférence edge temps réel sans compromis qualité.