Ces dernières années, le domaine de la vision par ordinateur a connu des progrès remarquables, les réseaux de neurones convolutifs (CNN) étant depuis longtemps la pierre angulaire des tâches liées à l'image. Cependant, un nouvel acteur a fait son apparition : Compact Transformers. En tant que fournisseur de transformateurs compacts, je suis ravi d'approfondir les avantages que les transformateurs compacts apportent par rapport aux CNN dans les tâches d'image.
1. Compréhension du contexte mondial
L’une des limites les plus importantes des CNN est leur nature de champ récepteur local. Les couches convolutives dans les CNN traitent les images en petits patchs locaux. Par exemple, un noyau convolutionnel 3x3 typique ne peut considérer qu’un très petit voisinage de pixels à la fois. Bien que des techniques telles que l'empilement de plusieurs couches convolutives et l'utilisation de noyaux plus gros puissent augmenter quelque peu le champ de réception, elles ont encore du mal à capturer efficacement les dépendances à longue portée.
En revanche, les transformateurs compacts sont construits sur le mécanisme d'auto-attention. L'attention personnelle permet au modèle de peser l'importance des différentes parties de la séquence d'entrée (dans le cas des images, la séquence de patchs d'image) les unes par rapport aux autres. Cela signifie qu'un Compact Transformer peut capturer directement des informations contextuelles globales dans une image. Pour une tâche de détection d'objet, un CNN peut avoir des difficultés à identifier la relation entre un petit objet dans un coin de l'image et un objet contextuel plus grand du côté opposé. Un transformateur compact, en revanche, peut facilement établir des connexions entre ces deux objets distants, conduisant à des résultats de détection d'objets plus précis et plus complets. Vous pouvez en apprendre davantage sur l'architecture avancée deTransformateurs compacts.
2. Flexibilité et adaptabilité
Les CNN sont conçus avec une architecture fixe de couches convolutives, de pool et entièrement connectées. Cette structure fixe les rend bien adaptés aux tâches dans lesquelles les relations spatiales dans les données suivent un certain modèle, comme les images naturelles. Cependant, lorsqu'ils sont confrontés à des données d'image non standard ou à des tâches comportant des variations complexes, les CNN peuvent avoir des difficultés.
Les transformateurs compacts, en revanche, sont plus flexibles. Le mécanisme d'auto-attention des Compact Transformers peut s'adapter à différentes distributions de données d'entrée et exigences des tâches. Par exemple, dans l’analyse d’images médicales, où la structure et l’apparence des tissus peuvent varier considérablement d’un patient à l’autre, un Compact Transformer peut ajuster ses poids d’attention en fonction des caractéristiques spécifiques de chaque image. Cette adaptabilité permet une meilleure généralisation à travers différents ensembles de données et tâches. LeTransformateur de sous-station compactLa technologie met également en valeur l’adaptabilité de nos solutions compactes dans différents scénarios d’application.
3. Efficacité des données
La formation des CNN nécessite souvent une grande quantité de données étiquetées. En effet, les CNN apprennent les fonctionnalités grâce à l'application répétée de filtres convolutionnels et ils ont besoin de suffisamment de données pour bien généraliser. La collecte de données d'images étiquetées à grande échelle peut prendre du temps, être coûteuse et, dans certains cas, même impossible.
Les transformateurs compacts, grâce à leur capacité à capturer le contexte global et à s'adapter à différents modèles de données, peuvent atteindre des performances comparables, voire meilleures, avec moins de données. Le mécanisme d'auto-attention de Compact Transformers peut extraire des informations significatives à partir d'un nombre relativement restreint d'échantillons. Par exemple, dans une tâche de classification d'images à grain fin où la collecte d'un grand nombre d'échantillons pour chaque classe est difficile, un Compact Transformer peut être formé plus efficacement qu'un CNN, réduisant ainsi la charge de collecte de données et d'annotation.
4. Interprétabilité du modèle
L’interprétabilité des modèles d’apprentissage profond devient de plus en plus importante, notamment dans des applications telles que le diagnostic médical et la conduite autonome. Les CNN sont souvent considérés comme des modèles de « boîte noire », dans lesquels il est difficile de comprendre exactement comment ils prennent des décisions.
Les transformateurs compacts offrent plus d’interprétabilité. Les poids d'attention dans le mécanisme d'auto-attention peuvent être visualisés pour montrer sur quelles parties de l'image le modèle se concentre pendant le processus de prise de décision. Par exemple, dans une tâche de segmentation d'image, nous pouvons mettre en évidence les régions de l'image que le Compact Transformer juge les plus importantes pour segmenter un objet particulier. Cette interprétabilité aide non seulement à comprendre le comportement du modèle, mais renforce également la confiance dans le modèle, en particulier dans les applications à enjeux élevés.
5. Évolutivité
À mesure que la taille des images d’entrée et la complexité des tâches augmentent, les CNN peuvent être confrontés à des défis en termes de ressources informatiques et d’utilisation de la mémoire. Le nombre de paramètres dans un CNN peut croître de façon exponentielle avec l’augmentation du nombre de couches et de la taille des noyaux, entraînant des coûts de calcul élevés.
Les transformateurs compacts sont cependant plus évolutifs. Ils peuvent gérer plus efficacement les données d'images à grande échelle en ajustant le nombre de têtes d'attention et la profondeur de l'architecture du Transformer. De plus, avec le développement de techniques d'accélération matérielle pour les modèles basés sur Transformer, les Compact Transformers peuvent être déployés sur une variété d'appareils, des appareils de périphérie aux centres de données à grande échelle. NotreCabine préfabriquée photovoltaïque intégrée à nouvelle énergie Transformateurs MT et HT Équipement de distribution de pointereflète également notre engagement envers des solutions évolutives et efficaces.
6. Performances dans les tâches d'image complexes
Dans les tâches d'image complexes telles que la compréhension de scènes et la génération d'images, les Compact Transformers surpassent les CNN. La compréhension de la scène nécessite que le modèle identifie non seulement les objets individuels, mais également qu'il comprenne leurs relations et le contexte global de la scène. La capacité de compréhension du contexte global des Compact Transformers les rend plus adaptés à ce type de tâche.


Dans la génération d'images, les modèles génératifs basés sur CNN ont souvent du mal à générer des images cohérentes et de haute qualité, en particulier pour les scènes complexes et à grande échelle. Les transformateurs compacts peuvent générer des images plus réalistes et plus diversifiées en capturant les dépendances à longue portée dans les données d'image.
En conclusion, les Compact Transformers offrent de nombreux avantages par rapport aux CNN dans les tâches d'image. Leur capacité à comprendre le contexte global, leur flexibilité, l'efficacité des données, leur interprétabilité, leur évolutivité et leurs performances supérieures dans des tâches complexes en font une alternative prometteuse aux CNN traditionnels. En tant que fournisseur de transformateurs compacts, je suis convaincu que nos produits peuvent apporter des améliorations significatives à vos projets liés à l'image. Si vous souhaitez explorer le potentiel des transformateurs compacts pour vos besoins spécifiques, je vous encourage à prendre contact pour une discussion sur l'approvisionnement. Nous sommes prêts à travailler avec vous pour trouver la meilleure solution pour vos tâches de traitement d’images.
Références
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, AN, ... et Polosukhin, I. (2017). L'attention est tout ce dont vous avez besoin. Dans Avancées des systèmes de traitement de l'information neuronale.
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... et Houlsby, N. (2020). Une image vaut 16x16 mots : des transformateurs pour la reconnaissance d'images à grande échelle. Préimpression arXiv arXiv:2010.11929.
- Zhao, H., Zhang, Y., Liu, S., Christensen, GE et Li, X. (2021). Transformateurs compacts : un cadre général pour un langage efficace - Vision Transformers. Préimpression arXiv arXiv:2105.13726.
