On a testé ChatGPT 4o, et on ne peut plus s’en passer

OpenAI frappe fort avec ChatGPT 4o. Plus rapide, plus intelligent et accessible à tous, le chatbot a transformé notre utilisation quotidienne de l’IA générative avec des réponses éclair, une meilleure mémoire et des capacités multimodales impressionnantes.

Soucieux de rester à la tête de la course à l’IA, OpenAI a levé le voile sur ChatGPT 4o (o pour « omni »), une nouvelle version du désormais incontournable ChatGPT, le mois dernier. Cette itération est proposée à tous les utilisateurs de l’IA générative, y compris les usagers de l’offre gratuite. Il n’y a pas besoin de souscrire à ChatGPT Plus, l’abonnement payant à 24,50 dollars par mois, pour en profiter. Les abonnés payants pourront néanmoins envoyer une plus grande quantité de messages que les usagers gratuits.

Pour en avoir le cœur net sur les améliorations apportées à l’IA, nous avons longuement testé ChatGPT 4o au quotidien pendant plusieurs semaines. Nous avons conversé avec le ChatGPT par le biais de la nouvelle application macOS et l’application iOS.

Des réponses vraiment plus rapides

Comme l’indique OpenAI sur son site, ChatGPT 4o est « beaucoup plus rapide » que son prédécesseur. En effet, on s’est vite rendu compte que le débit de réponse de ChatGPT a vraiment été revu à la hausse. Les mots et les phrases s’enchaînent nettement plus vite, ce qui stimule la réflexion et la conversation.

À l’usage, cette rapidité accrue se fait directement ressentir. Les réponses fusent à la vitesse de l’éclair. En règle générale, il n’y a plus besoin d’attendre que l’intelligence artificielle génère une réponse. Grâce à ces performances améliorées, ChatGPT peut produire des longs contenus, complexes et précis en l’espace de quelques secondes. On a réellement l’impression de discuter du tac au tac avec un assistant intelligent. Avec GPT 4, et les itérations précédentes, on avait pris l’habitude de consulter un autre onglet en attendant que l’IA boucle sa réponse. L’écart de performances transforme véritablement l’usage.

La meilleure mémoire de ChatGPT

Par ailleurs, ChatGPT 4o se distingue aussi par sa meilleure mémoire. Les précédentes versions de l’IA avaient souvent tendance à oublier des informations capitales disséminées au sein de la conversation. Par exemple, les consignes glissées dans l’instruction initiale étaient bien trop souvent progressivement oubliées au fur et à mesure que vous conversiez avec l’IA. Il fallait à chaque fois recadrer le modèle en lui rappelant les contraintes d’un travail. C’était assez rébarbatif. On avait vite envie d’abandonner la conversation pour s’occuper nous-même de la tâche assignée à ChatGPT.

Lors de nos tests, ChatGPT 4o s’est aisément souvenu des détails évoqués plus haut dans une conversation. On a moins l’impression de devoir recentrer le chatbot tous les cinq échanges. De même, il nous a semblé que l’IA avait moins tendance à omettre des consignes ou à passer à côté d’une précision dans ses réponses. Là encore, l’amélioration est nettement perceptible. Même avec des questions ou des requêtes précises, l’IA vise dans le mille.

Des capacités multimodales améliorées

L’une des grandes nouveautés de ChatGPT 4o est la multimodalité. Il s’agit de l’utilisation simultanée de plusieurs modes de communication, à savoir le texte, les images, le son et la vidéo. Pour interagir avec l’IA, vous pouvez vous servir de photos, de phrases ou de votre voix. De même, ChatGPT peut répondre en se servant de différents modes de communication. Chez OpenAI, la multimodalité a fait son apparition avec ChatGPT 4. Avec ce modèle d’IA, il était déjà possible de combiner différents modes de communication pour converser avec le robot.

Avec GPT 4o, la multimodalité fait un bond de géant. D’après OpenAI, « GPT-4o est bien meilleur que tout modèle existant pour comprendre et discuter des images que vous partagez ». Pour parvenir à cette prouesse, la start-up a formé « un seul nouveau modèle de bout en bout sur le texte, la vision et l’audio ». Pour la toute première fois, « toutes les entrées et sorties sont traitées par le même réseau neuronal ». C’est cette approche qui garantit des performances multimodales améliorées.

Lors d’un usage quotidien, on a vraiment senti une différence entre GPT4 et GPT4o. Il suffit de quelques secondes à l’IA pour scanner une image et répondre à notre question. On s’est massivement servi de cette fonctionnalité dans la vie quotidienne, pour comprendre comment fonctionnaient les choses ou identifier des objets (un pneu, un oiseau…). ChatGPT nous a aidé à monter notre nouveau barbecue, à cuisiner ou élucider les petits mystères de la vie quotidienne.

On s’est même appuyé sur l’IA pour commenter notre look du jour, et nous suggérer des pistes d’amélioration. Lors de chaque essai, le modèle comprenait, analysait et interprétait correctement les vêtements que nous portions, même dans les détails. Les retours de l’IA étaient cohérents et logiques, mais inévitablement très policés. Nous avons aussi longuement utilisé l’IA pour obtenir des traductions, et les résultats étaient très convaincants. Par exemple, nous avons donné à ChatGPT plusieurs photos d’un magazine rédigé en italien. Instantanément, l’IA a généré une traduction française de qualité des textes aperçus dans l’image.

On a remarqué de solides progrès dans le domaine du montage d’images assisté par l’IA. En conversant avec ChatGPT 4o, il est aisément possible de fusionner des photos, de les retravailler ou de créer des visuels. Avec le dernier modèle, le chatbot comprend mieux où vous vous voulez en venir, même si votre requête principale n’est pas très précise. De même, le robot n’a plus la fâcheuse tendance d’oublier des consignes relatives aux images recherchées qui ont été données en début de conversation. Même après quelques essais et quelques montages générés, ChatGPT se souvient de vos précédentes instructions. Il n’y a plus besoin de le recadrer inlassablement jusqu’à arriver à l’image que nous avons en tête.

Des hallucinations récalcitrantes

Attention, malgré ses améliorations et son intelligence en hausse, le chatbot n’est pas infaillible. Il lui arrive encore souvent d’halluciner, c’est-à-dire de générer n’importe quoi. Cependant, les hallucinations de l’IA sont de moins en moins flagrantes. Il devient très rare que ChatGPT lance des absurdités qui sautent aux yeux. Néanmoins, il est arrivé à de multiples reprises que l’IA cesse de se baser sur les documents que nous lui avons confié, ou sur les consignes fournies, pour se lancer de la création pure et dure d’informations. Têtu, ChatGPT a même parfois refusé de revenir sur ses dires et d’ôter les parties fictives de ses réponses.

En dépit de ses défauts, ChatGPT 4o s’est facilement mêlé à notre vie quotidienne. Nous avions déjà développé ce qu’on peut appeler « un réflexe ChatGPT » depuis GPT-4, mais celui-ci s’est considérablement amplifié avec la nouvelle version du modèle. En quelques semaines, il est devenu très naturel pour nous de prendre une photo pour la montrer à l’IA générative et lui poser une question. Grâce à la multimodalité, ChatGPT s’impose comme un véritable assistant qui vous épaule dans la vie quotidienne. C’est simple : on ne peut, et on ne veut plus, s’en passer.

Le futur mode vocal amélioré

Lors de l’annonce du 13 mai, OpenAI a promis l’arrivée d’un nouveau mode vocal animé par ChatGPT 4o. Ce mode permettra d’échanger avec l’IA d’une façon plus fluide et plus naturelle. Pour tester ce mode, il faudra encore faire preuve de patience. La start-up s’est engagée à proposer des interactions vocales améliorées d’ici à quelques semaines, dans le cadre d’un test alpha, aux abonnés ChatGPT Plus.

L’après ChatGPT 4o

Évidemment, ChatGPT 4o n’est pas l’objectif final d’OpenAI. La start-up américaine prévoit d’améliorer continuellement son modèle linguistique jusqu’à parvenir à concevoir une intelligence artificielle générale. Il s’agit d’une IA capable de raisonner à la manière d’un esprit humain et de s’adapter en toute autonomie à une vaste gamme de tâches.

Dans cette optique, la société de Sam Altman prépare activement l’arrivée d’un tout nouveau modèle de langage, évoqué sous l’appellation de GPT Next, ou GPT-5. Actuellement en cours de test, le modèle devrait offrir un nouveau « niveau de capacités » à l’IA générative.