Bulletin SSF
Intelligence artificielle

Les IA génératives en recherche: écueils et espoirs

Les autrices sont toutes deux bibliothécaires au Service des bibliothèques et archives du SBA et passionnées par les innovations dans l’industrie du savoir.

À ce jour, plusieurs études semblent indiquer que les IA génératives conversationnelles permettent de réaliser des gains de productivité dans les secteurs de la finance, de l’hôtellerie et du tourisme, et des technologies de l’information (Dwivedi, 2023). Quant aux IA moins célèbres que ChatGPT, celles qui ne relèvent pas des modèles de langage, nombre d’entre elles sont déjà utilisées en recherche pour effectuer diverses tâches complexes telles que la catégorisation, l’analyse statistique, la visualisation, bref, tout ce qui est englobé dans le domaine des sciences des données.

En soi, les agents conversationnels tels que Bard, Bing et ChatGPT ne sont pas aussi nouveaux qu’on pourrait le croire; ce genre de technologie était déjà utilisées, par exemple, en service à la clientèle. Ce qui vient bouleverser nos vies et nos institutions, en ce moment, c’est le fait qu’elles soient désormais ouvertes au grand public.

Et de fait, en raison de leur facilité d’utilisation et de l’illusion « magique » qu’ils produisent, ces outils ont entraîné de grands espoirs chez toutes les personnes occupées à produire des contenus et de la connaissance dans leurs tâches quotidiennes.

À l’UdeS, les conseillers du pédagogiques du SSF ont accompli un travail formidable dans les derniers mois pour accompagner notre communauté dans la démystification de ces outils d’apparence révolutionnaire, aidant les personnes enseignantes à s’outiller pour adapter leurs évaluations à cette nouvelle réalité, entre autres choses.

Aujourd’hui, je vous propose une autre perspective : un survol rapide de la littérature visant à répondre à la question suivante : comment les IA génératives conversationnelles affecteront-elles le monde de la recherche?

Opportunités

Traduction et aide à la rédaction

Évaluation des performances des LLM

Dans une étude très récente (juillet 2023), Laskar et al. ont comparé les performances (forces et faiblesses) de ChatGPT avec celle de grands modèles de langages (LLM) compétiteurs sur 40 tâches incluant bon nombre de tâches langagières (résumé automatique, inférence, etc.). Cette évaluation a été menée sur des ensembles de données universitaires de référence, couramment utilisés en traitement automatique des langues (TAL). Les résultats de cette évaluation, la première du genre, indiquent que, malgré des performances généralement supérieures à ses compétiteurs, ChatGPT est encore loin, pour nombre de tâches, d’offrir des résultats satisfaisants.

Résumé automatique

Notre ami se démarque tout de même pour la qualité de ses résumés automatiques, ce qui corrobore des résultats récents (Liu et al., 2023d ; Goyal et al., 2022). Est-ce à dire que l’outil est utilisable pour rédiger un premier jet, par exemple, du résumé ou de l’introduction d’un article scientifique? Pas sans révision, selon Dwivedi, qui note tout de même une tendance de l’outil à commettre plagiat, erreurs factuelles et d’interprétation.

Édition de texte

Certains auteurs mentionnent le potentiel des IA conversationnelles pour améliorer l’inclusivité en recherche. Par exemple, les chercheurs dont la langue maternelle n’est pas l’anglais, et ils sont nombreux, pourraient grandement bénéficier d’une révision linguistique qui améliorerait la fluidité de leur texte dans la lingua franca et, de ce fait, leur chance d’être publiés (Dwivedi, 2023; Meyer et al., 2023, p. 3).

Vulgarisation

Selon Savvas Papagiannidis (Dwivedi, 2023), l’IA peut également résumer et réécrire des manuscrits dans un langage non spécialisé pour les praticiens et le grand public, rendant ainsi la recherche plus accessible à divers publics.

Rédaction de demandes subventions

Les chercheuses et chercheurs pourraient être tentés, également, d’utiliser ChatGPT et consorts pour accélérer la tâche fastidieuse de rédiger des demandes de subventions. En prévision de cet usage, le NIH a publié le 23 juin 2023 une directive selon laquelle il « interdit aux examinateurs scientifiques du NIH d’utiliser des processeurs de langage naturel, de grands modèles de langage ou d’autres technologies génératives d’intelligence artificielle (IA) pour analyser et formuler des critiques d’examen par les pairs pour les demandes de subventions et les propositions de contrats de recherche et développement ». (Meyer et al., 2023, p. 5)

Pourquoi cette décision? Probablement pour protéger la confidentialité des idées originales des chercheurs contre d’éventuelles fuites sur une plateforme ouverte, en somme, à des fins de sécurité de la recherche.

D’autres organisations majeures pourraient bien lui emboîter le pas. Pour cette raison, toujours selon Meyer, il semble peu probable que l’utilisation des LLM pour l’examen des propositions de subventions soit adoptée dans un avenir proche.

Collecte de données et synthèse automatique

Grâce à sa puissante capacité de résumer des contenus, les IA génératives textuelles comme Bard ou ChatGPT pourraient, en combinaison avec un bot, se révéler de précieux outils pour récolter des textes sur le Web, incluant des articles scientifiques en libre accès, que ce soit dans un objectif de veille scientifique ou pour générer une revue de littérature. (Dwivedi, 2023, p. 32)

Pour le moment, cet espoir se butte à tous les enjeux intellectuels, éthiques et légaux imaginables : droit d’auteur, qualité de la recherche, intégrité académique, etc. Nous y reviendrons.

Aide à la programmation

Les LLM sont des outils langagiers, qui ne s’appliquent pas exclusivement aux langues naturelles. De fait, les langages de programmation tels Python, Java, SQL et PHP se prêtent à merveille aux traitements probabilistes de ces outils.

Les IA génératives promettent donc également de faciliter la programmation informatique en assistant l’humain pour les tâches suivantes :

  • apprendre à coder ou à utiliser des paquets, des bibliothèques ou des cadres spécifiques,
  • écrire un nouveau code
  • interpréter un code existant
  • déboguer un code existant
  • augmenter la compacité ou l’efficacité d’un code, ou
  • traduire un code d’un langage de programmation à un autre.

(Meyer et al., 2023, p. 7)

Comme pour les textes qu’ils produisent en langue naturelle, nos robots assistants ont besoin de l’expertise humaine pour repérer les erreurs logiques, syntaxiques ou conceptuelles.

En outre, ChatGPT peut être incapable d’anticiper les cas limites qui pourraient briser la fonctionnalité du code dans des circonstances particulières, et il ne proposera pas d’emblée la solution de codage optimale (Meyer et al., 2023; Laskar et al., 2023).

Recherche médicale et clinique

En recherche pharmacologique, clinique et médicale, on réfléchit depuis longtemps au potentiel de l’IA pour améliorer l’efficacité (lire « productivité ») des études secondaires, du développement de médicaments et des services cliniques (traitement, diagnostic et prescription, notamment). Ruksakulpiwat (2023) voit dans les performances déjà mentionnées des IA génératives un immense potentiel pour automatiser la production d’une revue de la littérature, améliorer les rapports médicaux, gérer les informations médicales, analyser les données, etc.

Il reconnaît également la nécessité de conduire des travaux supplémentaires pour résoudre les immenses défis liés à la précision des résultats, à leur absence d’originalité, à la propagation de biais et au plagiat (Ruksakulpiwat et al., 2023, p. 1518).

Traitement et analyse de données

Du côté de l’analyse des cellules souches, Hassan et al. (2023) ont imaginé un système utilisant un LLM (GPT 3.5, en l’occurrence) comme intermédiaire entre la personne chercheuse et un système de Machine Learning (ML) effectuant diverses tâches d’analyse des données. Selon ces auteurs, l’usage d’un agent conversationnel démocratiserait l’utilisation de technologies autrement très difficiles d’accès pour les non-spécialistes. Cet agent agirait comme un scientifique des données, prédisant les objectifs du chercheur, les traduisant en tâches précises. Il aurait pour mission de paramétrer les données et algorithmes en fonction de ces objectifs et articulerait les résultats des traitements à l’aide, notamment, d’outils de visualisation. Ainsi est né le champ d’étude de la « sciences des données conversationnelles », l’avenir nous dira si le projet tient la route.

Défis

Fausses informations et inexactitudes

Dans son mémoire publié en juin 2023 à l’intention du Conseil supérieur de l’éducation et de la Commission de l’éthique en science et en technologie, la rédactrice de la Fédération du personnel professionnel des universités et de la recherche ne mâche pas ses mots :

Trop beau pour être vrai ? Vous avez raison. Un système d’intelligence artificielle générative commet bien des erreurs, et son commandement requiert un esprit critique alerte. Ce recherchiste sur l’acide invente régulièrement des faits autant que des sources, en proie à des « hallucinations », sortes d’extrapolations non maîtrisées. Il émet alors les faussetés les plus ahurissantes avec un aplomb qui leur confère une apparence de vérité. Il peut aller jusqu’à truffer de renseignements inventés le résumé automatique d’un texte précis. (Fédération du personnel professionnel des universités et de la recherche, 2023)

C’est vrai, et cela est dû à la nature même des LLM. Pour cette raison, Meyer et al. (2023) déconseillent d’utiliser ces outils pour obtenir une vue d’ensemble d’un sujet ou d’un domaine, recommandant de privilégier une source encyclopédique traditionnelle pour ce faire. Même Wikipédia, selon cet auteur, vaut mieux qu’un modèle lorsqu’il s’agit d’obtenir de l’information vérifiée.

Pensez aux dernières publications que vous avez vu sur votre réseau social préféré, la qualité des textes, l’orthographe, le fondement des idées et commentaires… Ces informations ne seront pas nécessairement filtrées et validées. Qui sait, un jour peut-être ChatGPT pourra nous dire que la terre est plate si suffisamment de personnes s’y mettent.

Cela dit, de nouveaux outils prometteurs sont développés à des fins scientifiques; c’est le cas notamment de Perplexity.ai, que j’ai moi-même testé trop rapidement pour vous en parler (Meyer et al., 2023, p. 4).

Alors que Ruksakulpiwat et al. (2023) insistent sur le risque social consistant à répandre des faussetés via la publication scientifique, Dwiedi (2023) nous assure que l’AI s’améliore rapidement grâce à sa capacité d’apprendre et aux développements prévisibles liés au peaufinement des corpus d’apprentissage et à l’accès (éventuel) au Web en direct.

Transparence

Être explicite quant à l’usage fait des IA

Dans les prochains mois et années, nous verrons naître des directives et guides de bonnes pratiques visant à encadrer l’utilisation de l’IA en recherche et d’ailleurs, dans tous les secteurs de la société. En recherche, les meilleures pratiques pourraient, par exemple, inclure l’exigence (notamment par les éditeurs) pour l’auteur de mentionner dans sa méthodologie les utilisations qu’il a faites des IA génératives durant le projet de recherche jusqu’à la révision de son texte, voire de fournir en annexe les copies des conversations tenues avec le robot? La discussion est lancée.

Citation, manipulation et évaluation des sources

C’est un problème désormais bien connu dans le monde universitaire, ChatGPT possède – pour le moment, mais sans doute pas pour longtemps – l’impardonnable défaut de ne pas citer ses sources, voire d’en inventer. En outre, son fonctionnement probabiliste fait en sorte qu’il reformule les contenus (qu’il ne cite pas) selon des algorithmes qui n’ont rien à voir avec la recherche d’exactitude, et tout à voir avec la plausibilité linguistique des énoncés.

Un assistant utilisable en rédaction scientifique devrait, à l’avenir, citer ses sources ET expliciter de quelle façon il a combiné les connaissances qui en sont issues de façon transparente. Un travail scientifique rigoureux exige évidemment que la personne chercheuse soit en mesure de porter un regard critique sur la validité des sources utilisées et sur la façon de les manipuler intellectuellement.

Je n’ai pas fait de tests approfondis avec Bing et Perplexity.ai, mais quelques tests rapides semblent indiquer que ces outils sont nettement supérieurs à ChatGPT en matière de citation et de qualité des sources. Une lumière au bout du tunnel? Nous le découvrirons bientôt.

Propriété intellectuelle

ChatGPT se nourrit de ce qu’on lui donne comme texte, ses algorithmes apprennent des écrits qu’on lui donne à manger. Cette « mémoire » a plusieurs conséquences.

Mise en situation : vous avez besoin d’une synthèse de plusieurs textes scientifiques pour un projet de recherche ou un travail à remettre. Comme vous êtes brillante et efficace, vous savez qu’il est possible de trouver des informations validées et pertinentes parmi les abonnements et ressources de la bibliothèque. Vous téléchargez un texte que vous donnez à l’IA. Avec cette action, le droit d’auteur vient d’être enfreint. L’auteur à l’origine du texte (qui pourrait même être votre prof ou collègue favori) vient de voir son dur labeur servi sur un plateau d’argent à l’intelligence artificielle, qui peut ensuite réutiliser le contenu dans ses futures réponses sans même avoir à citer sa source pour donner le crédit à l’auteure originale.

Propagation de biais

Meyer et al. (2023) soulignent que les IA génératives telles que ChatGPT, déployées dans le cadre des soins de santé, peuvent exacerber et perpétuer les préjugés systématiques et les disparités pour les personnes appartenant à des groupes marginalisés. Ces biais existent au départ dans les corpus d’entraînement, lesquels reflètent les préjugés et discriminations qui ont cours dans la société (Meyer et al., 2023, p. 9).

Selon Meyer et Ruksakulpiwat et al. (2023, p. 1518), cette faiblesse exige à l’avenir le développement de mesures quantifiant les biais du LLM.

Compréhension

En ce moment, les IA génératives textuelles telles que ChatGPT et Bard ne « comprennent » rien aux textes qu’ils ingèrent. En effet, ces modèles probabilistes ne sont pas assortis de banques de connaissances spécifiques aux divers domaines scientifiques, ni même d’ontologies liées au monde réel. Ces connaissances encodées absentes seraient nécessaires pour que ces technologies puissent « calculer » les significations des mots et des phrases.

Ainsi, nos IA actuelles ne comprennent pas, par exemple, les mécanismes biologiques du système corporel humain (Ruksakulpiwat et al., 2023, p. 1518). Les travaux futurs devraient donc, toujours selon ces auteurs, se concentrer sur la formation de l’IA pour développer une compréhension approfondie des sciences biologiques et médicales afin d’améliorer la précision et la profondeur de son analyse, de ses diagnostics et de la génération de plans de traitement (Ruksakulpiwat et al., 2023, p. 1519).

Malheureusement – ou pas – la complexité de la compréhension des données spécifiques au domaine et de la définition des tâches de prédiction nécessite une intervention humaine, ce qui fait que le processus prend du temps tout en empêchant une automatisation complète. (Hassan et al., 2023, p. 1)

Fait amusant : Selon une enquête sur les progrès de l’IA, 50 % des experts en IA estiment qu’un système d’IA capable d’une réflexion de niveau humain (appelé intelligence générale artificielle ou singularité de l’IA) sera disponible d’ici 2059. (Mann, 2023, p. 223).

En résumé, selon Rowe, cité dans (Dwivedi, 2023), cette génération de «transformateurs» est impressionnante, mais pas intelligente, plus nuisible et probablement moins utile pour la recherche que les moteurs de recherche actuels, qui nous donnent des éléments pour nous aider à discerner le bon grain de l’ivraie.

Plagiat

Comme le soulignent Dwiwedi et al. (2023), la ligne est mince entre utiliser ces outils pour réviser un texte et l’utiliser pour générer des idées « originales ». Dans ce deuxième cas, les idées formulées par les ChatGPT de ce monde risquent fort d’être issues des corpus d’entraînement du robot, mettant ainsi l’auteur en position de plagiat involontaire.

Originalité, qualité de la recherche et intégrité intellectuelle

En outre, l’utilisation de ChatGPT pour mener des recherches, telles qu’une analyse documentaire, présente des difficultés en raison des problèmes d’originalité et d’intégrité académique. Par conséquent, les chercheurs devraient examiner attentivement les politiques de leurs institutions de recherche et de leurs revues avant d’utiliser l’IA dans la rédaction de leurs travaux de recherche. (Ruksakulpiwat et al., 2023, p. 1518)

De façon générale, Ruksakulpiwat nous rappelle fort à propos que la production massive de documents de recherche générés par des robots d’IA pourrait compromettre le système d’évaluation par les pairs, comme s’il en avait besoin, et remettre en question l’intégrité de la recherche, voire la confiance de la population en l’industrie de la recherche (Dwivedi, 2023, p. 32).

Confidentialité et vie privée

Les informations personnelles (renseignements de santé, par exemple) servies par mégarde ou ignorance à nos amis les robots pourraient resurgir dans une conversation future, avec un autre utilisateur. Autre cas de figure : comme on l’a vu dans les médias récemment, l’entreprise Samsung a banni l’usage de ChatGPT par ses employés après qu’un de ceux-ci ait fourni un code sensible à ChatGPT (Ray, s. d.).  Il est donc question ici d’une fuite d’information contrevenant aux politiques de confidentialités qui pourraient avoir été signés.

ChatGPT, co-auteur?

La tendance qui semble se dessiner : non.

Pour être considéré comme un auteur, il faut notamment être en mesure de prendre la pleine responsabilité des contenus publiés, ce que ne savent pas faire les IA dans l’état actuel des choses (Dwivedi, 2023, p. 32).

En outre, selon Dubey, cité par Dwivedi, l’ajout de ChatGPT en tant que co-auteur soulève plusieurs enjeux tels que le droit d’auteur, la protection de la vie privée, les abus, les préjugés et le manque de transparence.

Suite à la soumission de nombreux articles « cosignés » par ChatGPT en janvier et février 2023, plusieurs éditeurs ont mis à jour rapidement leurs politiques, lesquelles sont rassemblées en un tableau fort utile présenté dans la synthèse de Dwivedi (tableau 4).

Conclusion

En somme, la littérature examinée démontre que, si les IA génératives textuelles offrent une aide à la rédaction précieuse dans nos communications quotidiennes et, éventuellement, pour la production de contenus non scientifiques, il reste fort à faire pour qu’elles soient réellement utilisables dans le cadre d’un projet de recherche de qualité. Les défis éthiques et légaux posés par la démocratisation de ces technologies promettent des années passionnantes pour les éthiciens et juristes, qui seront de plus en plus appelés à s’impliquer en recherche et en éducation supérieure.

Références

Dwivedi, Y. K., Kshetri, N., Hughes, L., Slade, E. L., Jeyaraj, A., Kar, A. K., Baabdullah, A. M., Koohang, A., Raghavan, V., Ahuja, M., Albanna, H., Albashrawi, M. A., Al-Busaidi, A. S., Balakrishnan, J., Barlette, Y., Basu, S., Bose, I., Brooks, L., Buhalis, D., … Wright, R. (2023). Opinion Paper : “So what if ChatGPT wrote it?” Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy. International Journal of Information Management, 71, 102642. https://doi.org/10.1016/j.ijinfomgt.2023.102642

Fédération du personnel professionnel des universités et de la recherche (FPPU). (2023). ChatGPT entre à l’université : Espoirs et craintes du personnel professionnel [Mémoire adressé au Conseil supérieur de l’éducation et à la Commission de l’éthique en science et en technologie]. https://www.fppu.ca/wp-content/uploads/2023/07/FPPU-memoire-intelligence-artificielle-2023-FIN.pdf

Hassan, M. M., Knipper, A. et Santu, S. K. K. (2023, 23 mai). ChatGPT as your Personal Data Scientist. Cornell University arXiv. http://arxiv.org/abs/2305.13657

Meyer, J. G., Urbanowicz, R. J., Martin, P. C. N., O’Connor, K., Li, R., Peng, P.-C., Bright, T. J., Tatonetti, N., Won, K. J., Gonzalez-Hernandez, G., & Moore, J. H. (2023). ChatGPT and large language models in academia : Opportunities and challenges. BioData Mining, 16(20 (2023)). https://doi.org/10.1186/s13040-023-00339-9

Ray, S. (2023, mai 2). Samsung Bans ChatGPT Among Employees After Sensitive Code Leak. Forbes. https://www.forbes.com/sites/siladityaray/2023/05/02/samsung-bans-chatgpt-and-other-chatbots-for-employees-after-sensitive-code-leak/

Ruksakulpiwat, S., Kumar, A., & Ajibade, A. (2023). Using ChatGPT in Medical Research : Current Status and Future Directions. Journal of Multidisciplinary Healthcare, 16, 1513‑1520. https://doi.org/10.2147/JMDH.S413470

Articles Similaires

Huit points de vue croisés sur l’IA en formation

Jean-Sébastien Dubé

Projet d’intégration de l’IAg dans un cours de droit

Mélanie Cabana

IA générative : point d’inflexion et avenir de l’éducation

Alexandra Lèz

Ajouter un commentaire