ActualitéIA

TranslateGemma : le traducteur IA de Google capable de fonctionner entièrement hors ligne

Google a annoncé l’ouverture au public de TranslateGemma, une nouvelle famille de modèles d’intelligence artificielle spécialisés dans la traduction. Contrairement aux assistants IA polyvalents, ce système se concentre sur une seule tâche et vise à l’exécuter avec une grande précision.

Le modèle prend en charge 55 langues, fonctionne entièrement hors ligne et peut traiter du texte ainsi que des images. Cette approche permet notamment d’utiliser la traduction sur des documents sensibles sans envoyer les données vers des serveurs externes.

Une traduction locale pour protéger les données sensibles

Le service classique Google Translate repose sur une infrastructure cloud. Lorsqu’un utilisateur effectue une traduction, la requête est envoyée aux serveurs de Google, traitée à distance puis renvoyée vers l’appareil.

Ce fonctionnement est adapté à un usage personnel. Dans certains domaines comme l’entreprise, la médecine, le secteur juridique ou les administrations, il pose un problème évident de confidentialité. Les documents ne doivent pas quitter l’environnement interne de l’organisation.

TranslateGemma répond précisément à cette contrainte. Le modèle peut être installé directement sur l’infrastructure locale de l’utilisateur ou de l’entreprise. Les textes restent donc sur le matériel interne.

L’approche présente aussi un avantage économique. Les API cloud sont facturées selon le volume d’utilisation, ce qui peut devenir coûteux pour de grandes quantités de traductions. Avec une IA locale, il suffit d’un téléchargement unique et l’utilisation ne dépend plus d’un service externe.

Un modèle compact entraîné sur des milliards de textes

TranslateGemma repose sur l’architecture Gemma 3, déjà utilisée par Google pour ses modèles multimodaux.

Le système a été entraîné sur 4,3 milliards de tokens de textes parallèles. Il s’agit de paires composées d’un texte original et de sa traduction dans une autre langue, couvrant de nombreuses combinaisons linguistiques.

Une seconde phase d’apprentissage a été réalisée avec 10,2 millions de tokens supplémentaires via l’apprentissage par renforcement. Cette étape vise à améliorer la précision et la fluidité des traductions.

Le modèle comprend 4 milliards de paramètres. À titre de comparaison, GPT-4 est estimé à environ 1,8 trillion de paramètres. TranslateGemma est donc près de 450 fois plus léger, tout en affichant dans son domaine des performances proches de systèmes beaucoup plus volumineux.

Son contexte de 2 000 tokens permet de traiter environ 1 500 mots en une seule requête, ce qui couvre la majorité des documents, messages et contenus professionnels.

Traduire le texte directement depuis une image

TranslateGemma ne se limite pas au texte. Le modèle peut également extraire et traduire automatiquement du texte présent dans une image.

Le processus est technique mais efficace. L’image est d’abord normalisée à une résolution de 896 × 896 pixels, puis encodée sous forme de 256 tokens. Le modèle traite ensuite ces données de la même manière qu’un texte classique.

Dans la pratique, cela permet par exemple de photographier un menu de restaurant à l’étranger, un panneau routier, un contrat rédigé dans une langue étrangère ou encore l’interface d’un logiciel, puis d’obtenir immédiatement la traduction.

Cette approche évite d’avoir à passer par une étape séparée de reconnaissance optique de caractères (OCR).

Une intégration locale via Python ou directement dans le navigateur

Le modèle peut être exécuté localement grâce à la bibliothèque Transformers en Python. Son fonctionnement nécessite une carte graphique compatible CUDA, ce qui inclut la majorité des GPU Nvidia récents, ainsi que quelques gigaoctets de VRAM.

TranslateGemma peut également fonctionner directement dans un navigateur web grâce à WebGPU et Transformers.js v4. Un développeur peut ainsi intégrer la traduction dans une application web qui s’exécutera directement sur l’appareil de l’utilisateur, sans serveur distant.

Le modèle est disponible pour les développeurs sur Hugging Face. La licence de Google autorise l’utilisation commerciale, sous réserve de respecter les conditions définies dans les Gemma Terms of Use.

Avec sa capacité à traduire 55 langues, à fonctionner hors ligne et à traiter texte et images, TranslateGemma vise avant tout les équipes qui manipulent des documents confidentiels, les développeurs souhaitant intégrer la traduction dans leurs produits et les chercheurs qui veulent garder le contrôle total de leur infrastructure.

Nadia Battachi

MediaTrend est un compte auteur collectif porté par une rédaction expérimentée. Nos contenus s’appuient sur une veille rigoureuse et des sources fiables afin d’apporter une information claire, vérifiée et responsable sur les enjeux tech, business et numériques sensibles.

Voir tous les articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *