Description de l'image : L'intelligence artificielle, en s'inspirant des processus biologiques, simule de plus en plus certains aspects de la cognition humaine, tout en continuant à évoluer et à se perfectionner dans ses propres domaines. Source image astronoo AI.
Les modèles génératifs de textes, d'images, de vidéos et de musiques reposent sur des mécanismes analogues les uns aux autres dans le sens où ils partagent des principes communs dans leur architecture et leur apprentissage, en dépit de la diversité des types de données qu'ils traitent.
Concernant les IA génératives de texte, les modèles de langage de grande taille (LLM) sont indéniablement des applications avancées de l'apprentissage automatique. Les LLM sont pré-entraînés sur de très grandes quantités de texte qui leur permet d'apprendre les structures du langage, les relations entre les mots et les contextes d'utilisation. Autrement dit, ils sont capables de prédire le mot suivant dans une phrase de manière remarquablement efficace. Ces modèles sont performants dans la génération de texte, la traduction automatique, les chatbots, les assistants virtuels, mais n'ont pas la capacité de raisonner pour former des idées, des jugements afin de prendre des décisions.
Les machines du futur devront apprendre le Monde Physique à la manière des humains et des animaux. Elles pourraient ainsi être plus efficaces et approcher l'intelligence humaine.
Les humains et les animaux développent une compréhension intuitive et contextualisée de leur environnement à travers l'observation et l'expérience. Ils assimilent petit à petit une compréhension des objets, des forces et des relations causales. Par exemple, un enfant apprend que les objets tombent lorsqu'il les lâche. Sans connaitre les effets de la gravité, il peut adapter ses comportements en conséquence.
Autrement dit, les machines devront non seulement détecter des objets, mais aussi comprendre leur comportement dans des situations différentes. Cela signifie qu'elles devront interpréter des données sensorielles de manière contextuelle, comme un animal qui sait quand un bruit est menaçant ou une nourriture appétissante.
La compréhension du monde physique permet, d'acquérir une mémoire persistante, de savoir planifier des actions, d'atteindre des objectifs, en bref, de raisonner. Bien que les progrès de l'IA soient impressionnants, il reste encore de nombreux obstacles à surmonter avant de pouvoir parler d'Intelligence Humaine.
Les modèles en cours de développement, basés sur l'Inférence par Optimisation sont une approche prometteuse pour simuler l'intelligence humaine.
L'inférence est un concept qui permet de tirer des conclusions basées sur des observations. L'inférence joue un rôle crucial dans la prise de décision, le raisonnement, et l'apprentissage.
L'optimisation, c'est trouver la meilleure solution possible pour atteindre un but précis. Quand on optimise, on cherche à trouver le meilleur compromis entre différents critères, comme la vitesse et la précision.
L'Inférence par Optimisation peut être observée dans le développement cognitif des enfants, avant même qu'ils ne commencent à parler. Par exemple, un bébé qui essaie de tirer sur un jouet attaché à un portique apprend rapidement que tirer plus fort ou dans une direction différente peut faire bouger le jouet. L'enfant optimise sa technique en observant les résultats de ses actions. L'enfant mémorise ses expériences passées avec chaque jouet et optimise son choix basé sur ce qui lui a apporté le plus de plaisir ou d'intérêt.
Le cerveau humain est souvent comparé à un Système d'Optimisation. Il utilise l'inférence par optimisation pour raisonner, il met à jour en permanence ses croyances en fonction des nouvelles observations.
Lorsqu'une personne prend une décision, elle évalue les différentes options disponibles et cherche à maximiser certains critères, comme le bien-être, la satisfaction ou le bénéfice. Ce processus de prise de décision implique souvent l'évaluation des risques et des récompenses associés à chaque choix, face à l'incertitude. Mais dans de nombreux cas, le cerveau utilise des heuristiques, des raccourcis approximatifs, qui sont des stratégies mentales ou des règles pratiques permettant de prendre des décisions rapidement sans avoir besoin d'une analyse exhaustive de toutes les options.
Ainsi, les humains construisent leur compréhension de la réalité en s'appuyant sur l'apprentissage par expérience avec le modèle du monde environnant. Les individus ajustent leurs comportements en intégrant de nouvelles connaissances basées sur ce qu'ils ont vécu. Par exemple, lorsqu'une personne prépare une nouvelle recette, elle ajuste les quantités d'ingrédients en fonction du goût obtenu lors des essais précédents.
L'intelligence humaine est profondément liée à des aspects tels que l'émotion, la conscience de soi, la perception du monde, et l'interaction sociale. La façon dont les humains et les animaux parviennent à comprendre leur environnement, à raisonner selon un "bon sens" ou à planifier des actions complexes, nous semble naturelle, mais elle est encore hors de portée pour l’intelligence artificielle, en 2024.
Les modèles d'IA actuels n'ont pas cette compréhension du monde physique, ce qui limite leur capacité à prévoir des situations futures. Il est essentiel que les intelligences artificielles apprennent à partir de données multimodales, parmi lesquelles les vidéos vont jouer un rôle crucial. Cependant, cela soulève des défis gigantesques en matière de données et de traitement de l'information, mais c'est un domaine de recherche en pleine expansion, avec de nombreuses perspectives et espoirs concernant son développement futur.
L'intelligence générale artificielle (AGI) nécessite une combinaison de données massives, d'apprentissages avec interaction dans le monde réel ou des simulations, et des avancées en matière d'architectures et d'algorithmes. La route vers l'AGI est encore longue, mais en s'inspirant des mécanismes cognitifs du cerveau, il est probable que dans les systèmes futurs émerge une intelligence comparable à celle des humains.