L'alignement des intelligences artificielles (ou alignement de l'IA) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse. Il est souvent trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, ce qui les conduit à utiliser des objectifs proches mais plus faciles à formaliser, comme le fait d'optimiser l'approbation humaine dans le cas de l'algorithme de réglage fin RLHF utilisé pour les grands modèles de langage. Mais ces objectifs simplifiés peuvent omettre des contraintes importantes, par exemple l'IA peut être incitée à simplement paraître alignée. Les systèmes d'IA sont parfois capables de suroptimiser ces objectifs simplifiés de façon inattendue voire dangereuse. Ils peuvent également adopter des comportements instrumentaux indésirables, comme le fait de chercher à s'auto-préserver ou à accroître leur influence afin de maximiser leurs chances d'atteindre leurs objectifs. De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données. Des recherches empiriques ont notamment montré en 2024 que les grands modèles de langage les plus avancés peuvent occasionnellement adopter des comportements manipulateurs afin d'atteindre ou de protéger leurs objectifs. Ces problèmes affectent les systèmes commerciaux existants tels que les grands modèles de langage, les robots, les véhicules autonomes, et les moteurs de recommandation des médias sociaux. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque. De nombreux chercheurs en IA comme Geoffrey Hinton, Yoshua Bengio et Stuart Russell soutiennent que l'IA approche des capacités cognitives humaines (IA générale) voire surhumaines (superintelligence), et pourrait mettre en danger la civilisation si elle n'est pas alignée. Ces risques font encore l'objet de débats. L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle, apprentissage des préférences, sûreté des systèmes critiques, théorie des jeux, équité algorithmique, et sciences sociales.