MidJourney : Comment reconnaître une (fausse) image générée par l’intelligence artificielle

Les générateurs d’images par intelligence artificielle (IA) tels que DALL-E, Midjourney ou encore Stable Diffusion sont aujourd’hui capables de créer des photos très réalistes. Cette émergence de l’intelligence artificielle remet en question la fiabilité des images et renforce la nécessité du “fact checking”. Avec la version 5 de Midjourney, disponible depuis le 15 mars, les internautes ont pu produire une série de clichés qui sont venus infiltrer l’actualité. En moins de deux semaines, ils ont montré Donald Trump en prison, Emmanuel Macron face à des policiers, le pape François en doudoune XXL ou Vladimir Poutine devant le tribunal de La Haye. Tout cela avec un réalisme tel qu’il en a trompé plus d’un.

Pourtant, plusieurs indices se cachaient dans ces créations. On peut en déduire alors que les intelligences artificielles génératrices d’images sont de plus en plus performantes. Mais il existe quelques astuces pour démêler le vrai du faux.

Avant toute chose, il est nécessaire d’analyser l’image dans ses moindres détails, afin de potentiellement y déceler des incohérences. En effet, l’IA rencontre encore de grandes difficultés avec certaines parties du corps.

Les mains

Le premier indice pour déterminer l’authenticité d’une image réside dans les mains de son sujet. MidJourney a beau être de plus en plus efficace sur la question du photoréalisme, il gère encore mal certains détails complexes. Il suffit généralement de s’attarder sur le nombre de doigts, leur position ou encore leur comportement par rapport à des objets pour déceler une image artificielle d’une photo naturelle.

Sur la photo du pape en doudoune, par exemple, on pouvait apercevoir que la main droite du souverain pontife était trop petite et qu’elle portait un gobelet de café sans même le toucher. Sur une autre image à la plage, le rendu n’est pas beaucoup plus réaliste, puisqu’il affiche six doigts de pied et seulement quatre à la main gauche.

De son côté, l’image d’Emmanuel Macron forcé à manger de la boue possède sept doigts à la main gauche.

Les uniformes

Autre détail sur lequel s’attarder pour démêler le vrai du faux : les vêtements, et plus particulièrement les uniformes. Sur bon nombre de photos montrant les manifestations en France ou l’arrestation de Donald Trump aux États-Unis, les tenues réglementaires des policiers ne correspondent à rien. Pire encore, ces dernières sont parfois complètement incohérentes. Le constat est d’autant plus flagrant sur les couvre-chefs. On retrouve ainsi parfois des casques qui s’arrêtent au milieu du crâne ou des chapeaux incohérents face à la situation.

Corps déformé

Les positions du corps aussi ont leur importance. MidJourney gère de mieux en mieux la perspective, mais il n’est pas rare de voir des corps déformés, des contorsions impossibles et des membres atrophiés. Si certaines proportions sont difficiles à déceler, d’autres sautent aux yeux et devraient facilement vous mettre la puce à l’oreille.

Les textes incohérents

A l’instar des objets, Midjourney ignore le fonctionnement de l’écriture. Si le programme va copier une police ou une esthétique, les lettres n’auront aucune signification. L’enseigne McDonald’s mondialement connue devient ainsi “Minonad”. Les lettres “POLICE” estampillées sur les gilets des forces de l’ordre se transforment en “CLIOT”. Au-delà des noms connus, les lettres sont parfois déformées, les textes n’ont aucun sens, et les noms d’enseignes sont surréalistes.

Évidemment, ces détails sont à prendre en compte de manière très court-termisme. D’abord, parce qu’une image qui n’intègre aucune de ces incohérences ne peut pas être de facto validée comme une photo authentique. Ensuite, parce que les progrès de MidJourney et de ses consœurs sont tels que les plateformes d’IA devraient très vite corriger le problème.

Dans tous les cas, il va falloir se montrer encore plus prudent quant à ce qui circule sur les réseaux sociaux.