FAQ : L’IA dans la recherche

Quelle est l’utilisation possible de ce type d’outils par les chercheur·e·s et étudiant·e·s ?

Création de synthèses de domaines de recherche

L'intelligence artificielle est en train de révolutionner divers aspects de la recherche académique. L'une de ses applications les plus séduisantes est la création de synthèses de domaines de recherche. Cette tâche, qui implique de compiler, d'analyser et de condenser une vaste quantité de travaux de recherche sur un sujet donné, peut s'avérer laborieuse et chronophage pour les chercheur·e·s. L'IA, avec sa capacité à manipuler rapidement de grands volumes de données, pourrait faciliter grandement ce processus.
 
Plusieurs applications, telles que ChatPDF ou Sharly IA, sont développées pour parcourir et comprendre un large éventail de documents de recherche, tels que des articles de journaux, des rapports d'études, des thèses et d'autres types de publications. Elles sont ensuite en mesure de détecter les idées, les résultats et les tendances clé et de présenter ces informations de manière concise et aisément accessible. Cela offre aux chercheur·e·s la possibilité d’appréhender rapidement l'état actuel d’un domaine de recherche, sans avoir à passer au crible et à analyser eux-mêmes l’intégralité des documents.
 
Toutefois, il est important de noter que ces outils ont encore du mal à saisir le contexte et à traiter les nuances et les subtilités présentes dans les documents scientifiques. Par exemple, ces programmes pourraient faussement interpréter ou trop simplifier un concept complexe ou omettre une nuance importante qui semble évidente pour le lecteur humain. De plus, l'IA reproduit des biais inhérents aux documents sur lesquels elle a été entraînée, ce qui peut affecter la véracité et la précision des synthèses produites.

Analyse de lacunes dans des domaines de recherche

L'une des utilisations possibles de l'intelligence artificielle est l'examen des lacunes existantes dans divers domaines de recherche. Les outils associés, aptes à traiter et à analyser de larges ensembles de données textuelles, pourraient se révéler bénéfiques pour déterminer où des recherches supplémentaires sont nécessaires.

Des plateformes telles que Consensus ou Elicit ont la capacité de passer en revue d'innombrables articles de recherche en un temps record, en extrayant les conclusions, méthodes et principales théories présentées. Ensuite, elles peuvent parcourir ces informations pour repérer les tendances, modèles et sujets qui ont été relativement moins explorés. Par exemple, un système IA pourrait identifier une question qui a été fréquemment soulevée, mais qui n’a pas reçu de réponse satisfaisante, ou encore une approche de recherche qui, bien que remise en question, n'a pas été améliorée. Ceci lui permettrait de mettre en évidence le manque dans les connaissances actuelles et de proposer des orientations pour des futures investigations.

Néanmoins, il est essentiel de prendre en considération que l'IA a ses limites dans ce contexte. Elle pourrait, par exemple, éprouver des difficultés à saisir les nuances et les subtilités inhérentes à la recherche académique, et, de ce fait, ne pas être en mesure d'évaluer de manière fiable la qualité des études ou la pertinence des conclusions. De plus, comme ces méthodes se basent sur des données préexistantes pour leur analyse, elles pourraient ne pas détecter des lacunes attribuables à des biais ou des limitations dans ces données.

Rédaction d’ébauches d’articles de recherche ou de mémoires

L'adoption des solutions d'intelligence artificielle pour la rédaction d'ébauches d'articles scientifiques présente des perspectives attrayantes pour améliorer l'efficacité et la productivité des chercheur·e·s.

En matière de rédaction, les systèmes IA, comme ChatGPT ou SciSpace, possèdent la faculté d’assister le travail de structuration d’un document, de définir un agencement logique pour la présentation des informations et même de produire du texte. Par exemple, un·e chercheur·e peut fournir à ChatGPT un ensemble de points essentiels ou de résultats qu'il désire intégrer dans son article et l'IA est capable de créer une ébauche de texte en se basant sur ces informations. Ces outils peuvent aussi aider à formuler des sections plus techniques de l'article, en adoptant le jargon et les termes propres à la discipline.

En d’autres termes, l'IA est en mesure de produire une ébauche de texte qui peut servir de point de départ pour la rédaction. Cela pourrait aider à surmonter le "syndrome de la page blanche" et à accélérer le processus de rédaction.

Toutefois, il est impératif que le contenu généré soit scruté et retravaillé par le/la chercheur·e. L'IA élabore du texte qui paraît plausible, mais qui a tendance à comporter des erreurs ou des inexactitudes. De surcroît, elle n’a pas toujours la capacité à comprendre et à intégrer le contexte de manière appropriée, ce qui est fondamental dans la rédaction d'articles de recherche.

En outre, ces algorithmes ne permettent pas à l’heure actuelle de reproduire la créativité et l'originalité propres aux êtres humains. Même si l'IA est un instrument puissant pour générer du texte, elle n’est pas en mesure de concevoir de nouvelles idées ou perspectives. Elle peut contribuer à automatiser certaines parties du processus de rédaction, mais elle n’est pas capable de remplacer la contribution intellectuelle et inventive des chercheur·e·s.

Assistants rédactionnels

Les assistants rédactionnels basés sur l'intelligence artificielle, comme Grammarly, ChatGPT et DeepL, offrent une variété de services pour améliorer et faciliter le processus de rédaction. Leur utilisation peut s'étendre de l’aide à l'amélioration de la grammaire et du style à la génération de texte initial, en passant par des suggestions de structure pour des documents de recherche.

Dans le cadre de l'amélioration du style d’écriture, ces outils sont capables d’analyser un texte et d’identifier les erreurs de grammaire, d'orthographe, de ponctuation ainsi que les phrases maladroites ou confuses. Ils sont également en mesure de suggérer des reformulations ou des améliorations pour rendre le texte plus clair, concis et engageant. Ces suggestions pourraient aider à améliorer la qualité de l'écriture et à maintenir un ton et un style cohérents tout au long du document.

Quant à la structuration d'un document, certains assistants rédactionnels peuvent suggérer une organisation logique des idées et des résultats. Ils sont capables d’aider à définir une structure claire pour un article de recherche, en identifiant où introduire les différentes sections, comment organiser les arguments et comment présenter les résultats de manière cohérente et convaincante. Cela paraît particulièrement utile lors de la rédaction de documents de recherche longs et complexes.

Cependant, il est important de noter que, malgré toutes ces fonctionnalités utiles, tout texte généré ou amélioré par un assistant rédactionnel basé sur l'IA doit être soigneusement revu et édité par le/la chercheur·e.

 

Outils facilitant l’analyse de grandes quantités de données

Les plateformes et frameworks autour de l’intelligence artificielle (par exemple Tableau, Power BI, TensorFlow, Keras ou Scikit-learn) ont révolutionné la manière dont les chercheur·e·s peuvent examiner de grandes quantités de données. Elles sont particulièrement utiles dans des domaines tels que la bio-informatique, l'étude du climat, l'analyse de sentiments dans les médias sociaux et d'autres secteurs qui engendrent des quantités massives de données.

Premièrement, l'IA est capable d’aider à structurer et à organiser les données. Cela peut signifier classifier les données en catégories adéquates, identifier des groupes ou même révéler des relations complexes entre différentes variables. Par exemple, des algorithmes de machine learning comme le clustering ou la classification sont reconnus pour organiser les données en groupes sur la base de caractéristiques communes.

En deuxième lieu, les solutions IA sont en mesure d’identifier des tendances et des modèles dans les données. Des techniques telles que le deep learning ont prouvé leur aptitude à assimiler des représentations complexes des données et faire des prédictions précises en se basant sur ces représentations. Notamment pour reconnaître des motifs récurrents ou pour faire des prédictions sur la base des données existantes.

Troisièmement, une panoplie de logiciels propose de visualiser les données de manière claire et accessible: générer des graphiques, des diagrammes et d'autres visualisations qui facilitent la compréhension des tendances et des relations dans les données.

Cependant, bien que ces outils offrent d'énormes avantages pour l'analyse de grandes quantités de données, ils comportent également des contraintes. Ils dépendent fortement de la qualité des données d'entraînement, et leur capacité à produire des résultats fiables et pertinents est compromise si les données sont biaisées, incomplètes ou erronées. De plus, ces modèles d'intelligence artificielle sont souvent considérés comme des "boîtes noires" - ils sont capables de faire des prédictions précises, mais il est parfois difficile de saisir la manière dont ils sont arrivés à ces prédictions en raison de la complexité des modèles, de leur non-linéarité, des logiciels propriétaires, entre autres.

 

Assistance durant le cycle de vie de la recherche

L'intégration de l'intelligence artificielle dans le processus de recherche dévoile une variété d'avantages qui ont le potentiel de transformer fondamentalement le paysage de la recherche. Ces solutions peuvent apporter une assistance précieuse à chaque étape du processus de recherche, menant à une amélioration de l'efficacité, de l'exactitude et de la dynamique de recherche.

Lors de la collecte de données, de nombreuses solutions, comme IBM Watson Discovery, sont capables d’aider à automatiser la collecte d'informations, à structurer les données non structurées et à les nettoyer en vue d’une analyse ultérieure. Des outils comme OpenRefine ont prouvé leur efficacité en optimisant des bases de données, permettant ainsi une recherche et une extraction d'informations plus efficaces.

Au stade de l'analyse des données, l'IA, avec des plateformes telles que DataRobot, s’avère performante pour faciliter le traitement de larges ensembles de données, détecter des modèles et des tendances, et fournir des insights pertinents. Les algorithmes de machine learning sont particulièrement efficaces pour gérer des quantités de données bien plus conséquentes que ce qu'un humain serait en mesure de traiter, et peuvent découvrir des relations complexes et non-linéaires dans les données.

Comme évoqué, de nombreuses solutions, notamment Grammarly, peuvent servir d'assistant rédactionnel, en contribuant à générer des brouillons, en suggérant des améliorations stylistiques et grammaticales et en aidant à la structuration et à l'organisation de l'article.

En termes de revue de la littérature, des plateformes comme Semantic Scholar offrent la capacité d’analyser rapidement un grand volume de documents pour potentiellement identifier les manques dans la recherche, ce qui peut guider les efforts de recherche futurs.

Malgré ces avantages, l'adoption de l'IA en tant que partie intégrante de la recherche n'est pas sans défi. Il est crucial que les chercheur·e·s maintiennent un sens critique et une compréhension de base de ces logiciels qu'ils manient (p. ex. pour évaluer les résultats générés, comprendre les limites et être conscients des potentiels biais introduits).

Quelles sont les limites des outils d’IA dans l’activité de recherche ?

Manque de compréhension du contexte

Les outils d’IA opèrent sur des algorithmes préprogrammés qui analysent les données d'une manière très spécifique et déterministe, même s’ils peuvent "apprendre" à partir des données et ajuster leur comportement en conséquence. Ils ont tendance à se concentrer sur certains termes et expressions en omettant de prendre en compte le sens global du texte utilisé en prompt. Ceci peut produire des réponses incohérentes et fortement détachées du contexte initialement défini, à plus forte raison lorsque celui-ci est complexe ou subtil. Par exemple, l'ironie et le sarcasme paraissent être des éléments ardus à détecter par le programme, car ils requièrent une compréhension du contexte qui va au-delà de la simple signification littérale des mots.

De la même manière, dans l'analyse de données complexes, l'IA pourrait être susceptible d’identifier des tendances et des modèles, mais se révéler incapable de comprendre le contexte sous-jacent qui confère du sens à ces tendances. Par exemple, dans l'analyse des données économiques, les algorithmes peuvent détecter une tendance à la baisse des prix, mais ils pourraient ne pas être capables de saisir que cette diminution est la conséquence d’une augmentation de la production, à moins que ces informations ne soient explicitement encodées dans les données qu'elle analyse.

Pas de référencement des sources

La capacité de fonder le résultat produit sur des sources fiables varie selon les outils. La version 4 de ChatGPT est capable de citer des sources avec leur DOI pour des concepts scientifiques établis, mais elle peine encore à proposer des sources fiables sur des points de réflexion et peut même aller jusqu’à produire des sources fictives. Or, le référencement rigoureux des sources constituant un pilier de la recherche académique, il ne suffit pas d'attribuer du crédit aux travaux originaux des chercheur·e·s, mais également de fournir une trajectoire claire pour vérifier et reproduire leurs résultats.

Cela étant dit, étant donné que le domaine de l'intelligence artificielle est en évolution constante et rapide, des efforts sont déployés pour pallier ce manque. Des modèles plus avancés tels que GPT-4, avec l’aide de plugins connectés à Internet, peuvent être entraînés pour identifier et indiquer quand une information émane d'une source particulière. Cette fonctionnalité pourrait, par exemple, être utilisée pour générer des citations de façon automatisée. Néanmoins, assurer la précision et la fiabilité de ces nouvelles capacités demeure un défi conséquent. Autrement dit, bien que ces méthodes puissent détecter qu'une information est issue d'une source précise, elles ne sont peut-être pas en mesure de le faire avec une précision de 100 %.

En outre, même si l'IA parvenait à citer correctement les sources, cela ne saurait remplacer la capacité humaine d'évaluer leur pertinence et fiabilité.

Biais liés au corpus ayant servi à l’apprentissage de ces outils

La qualité des informations produites dépend fortement de la quantité et de la qualité des sources de données utilisées pour leur entraînement, ainsi que des ajustements humains apportés durant ce processus. Un esprit critique sur les résultats est donc de rigueur. En effet, les outils d’IA reproduisent voire même amplifient les biais et les préjugés qui se trouvent dans leurs données d'entraînement.

Le machine learning, une branche de l'intelligence artificielle, opère en discernant des tendances au sein d'ensembles de données. Si ces données comportent des biais, ceux-ci seront incorporés dans les modèles. Par exemple, si les algorithmes sont formés sur un corpus de textes qui est majoritairement masculin, occidental et axé sur la science, les conclusions de cette IA favoriseront ces points de vue.

Cela peut avoir des conséquences importantes, surtout lorsque l'IA est employée dans des contextes sensibles comme la prise de décision automatisée. Par exemple, un système de recommandation de livres formé principalement sur des œuvres d'auteurs occidentaux pourrait omettre de suggérer des livres provenant d’auteurs d’autres parties du monde, aboutissant ainsi à une représentation culturelle déséquilibrée.

De plus, les biais dans les données d'entraînement peuvent renforcer des stéréotypes existants. Si, par exemple, les données d'entraînement associent de manière disproportionnée des métiers spécifiques à un certain genre, ces systèmes propageront ces stéréotypes dans leurs conclusions.

Pour minimiser ces risques, il est essentiel de porter une attention particulière à la qualité et à la diversité des données fournies en entrée aux outils IA. Les chercheur·e·s doivent aussi être vigilants vis-à-vis de ces biais éventuels et les prendre en compte lors de la manipulation de ces outils. Par exemple, en employant diverses méthodes pour examiner et valider les résultats obtenus, ou adopter des approches complémentaires pour équilibrer les perspectives présentées par l'IA.

Difficultés liées à la vérification du contenu généré (hallucinations statistiques, etc.)

Les outils d’IA génèrent parfois des "hallucinations statistiques", soit des résultats qui semblent tout à fait plausibles, alors qu’ils sont inexacts ou inappropriés, ce qui crée un grand défi de vérification du contenu proposé par l’IA. Par exemple, l’invention de statistiques pour une université sans disposer de données réelles à ce sujet, la création de termes scientifiques fictifs ou encore la génération de références biographiques inexistantes ou erronées.

Ces erreurs peuvent avoir diverses causes:  le modèle, par exemple, peut mal interpréter les données sur lesquelles il s'entraîne, ou élaborer des inférences incorrectes basées sur des schémas mal acquis. De surcroît, étant donné que l'IA génère du contenu en s’appuyant sur des probabilités, elle est encline à donner des résultats qui semblent crédibles à première vue, mais qui ne s’alignent pas avec les faits réels.

Ces hallucinations statistiques sont particulièrement problématiques lorsque ces systèmes sont exploités pour analyser d’énormes volumes de données ou pour créer du contenu sophistiqué. Dans de tels cas, il est difficile de vérifier la véracité de chaque élément d’information produit. Cela peut conduire à des erreurs ou à des confusions si les utilisateur·trice·s se fient aux résultats sans un examen critique adéquat.

Il est donc capital de réduire les risques associés en vérifiant le contenu créé par l'IA, en s'appuyant sur des sources d'information supplémentaire pour étayer les résultats, et en exerçant de manière générale un esprit critique dans l'utilisation des outils d’IA.

Manque d’originalité dans le contenu généré ("stochastic parrot")

Le manque d'originalité dans le contenu élaboré par les IA génératives, est généralement qualifiée de "stochastic parrot" du fait que leur mécanisme de base consiste à construire du texte en s’appuyant sur des modèles observés dans les données d'entraînement, sans concevoir de contenu novateur ou indépendant.

Des modèles de traitement du langage tels que GPT sont formés sur d'énormes corpus de texte et apprennent à prédire quel mot ou quelle phrase est susceptible de suivre selon le contexte. Cette façon de générer du texte est essentiellement basée sur des probabilités et n’interprète pas le sens ou le contexte de la façon dont un être humain le ferait. Ainsi, même si ces modèles peuvent composer du texte logique et bien articulé, ils ne conçoivent pas d'idées vraiment nouvelles ou originales.

Toutefois, il y a un débat au sein de la communauté de l’IA sur la question de savoir si ces modèles sont considérés comme "créatifs" ou non. Certains soutiennent que, même si le contenu produit par l’IA se base sur des schémas qu'elle a assimilés, celle-ci peut les combiner de manière singulière ou inattendue, ce qui peut être perçu comme une forme de créativité. Par exemple, un modèle de langage pourrait concevoir une métaphore poétique ou une expression inventive en combinant des éléments de différents contextes qu'il a appris.

Néanmoins, il reste clair que l’IA ne remplace pas l'ingéniosité et l'originalité humaines, puisqu’elle n’est pas en mesure d’avoir des intentions créatives ou d’engendrer de nouvelles idées de la même manière que l’esprit humain.

Dépendances dérivant de la facilité d’utilisation de ce type d’outils

La simplicité d’utilisation des programmes d'intelligence artificielle en recherche peut créer une dépendance, qui peut générer plusieurs conséquences.

On peut d’abord craindre un affaiblissement des aptitudes chez les chercheur·e·s et étudiant·e·s. Une exploitation constante des applications d’IA pour accomplir des tâches qu’ils·elles auraient dû exécuter par eux-mêmes peut conduire à un déclin des compétences de recherche traditionnelles. Les chercheur·e·s et étudiant·e·s pourraient devenir moins adroits à réaliser des tâches comme l'analyse de données, la formulation d'hypothèses de recherche ou la rédaction de rapports et d'articles, affaiblissant ainsi leur capacité à mener une analyse critique et autonome, une compétence fondamentale en recherche. À quoi pourrait s’ajouter une confiance excessive dans les résultats produits par l’IA, induite par cette dépendance.

Dépendance de la qualité des prompts

La qualité des instructions données par la personne utilisatrice influence fortement la qualité des résultats obtenus.
Voir: Quel intérêt y a-t-il à intégrer les outils d’IA dans l’enseignement ?

Niveau rédactionnel potentiellement insuffisant

Dans leurs premières versions, la créativité et l’empathie n’étaient pas des caractéristiques prévues dans les outils d’IA. Les textes produits manquaient significativement de ces qualités et tendaient à la banalité. Aujourd'hui, si la version gratuite de ChatGPT (GPT 3.5) présente un style qui peut s'apparenter à celui d'un robot, les avancées avec des modèles tels que GPT-4 marquent un tournant significatif. Dans cette version plus récente, la distinction entre un texte rédigé par un humain et un autre généré par l'IA est devenue presque indécelable.

Plagiat, fraude

L’utilisation de ce type d’outils peut-elle constituer une fraude ?

La législation en lien avec le plagiat n’est pas applicable dans le cadre de l’utilisation des IA génératives pour la réalisation des travaux académiques. Néanmoins, la directive 0.3 de l’UNIL précise que tout travail doit être authentique et c’est sur cet élément précis qu’il est important de rappeler que le rendu d’un travail réalisé par une IA sans mention de cet usage représente un manquement grave aux principes et règles en vigueur en lien avec l’intégrité académique.
Interview de Philippe Gilliéron

L’évolution rapide de l'IA et son utilisation grandissante dans la recherche et les publications scientifiques posent un éventail de questions complexes sur le plan éthique et juridique. L’usage de l’IA rend particulièrement complexes la détection du plagiat et l’établissement de la paternité d’un travail. Les législations actuelles relatives aux droits d'auteur peinent à s’adapter à la progression fulgurante de la technologie et à répondre à ces interrogations. Il est donc impératif de poursuivre la réflexion sur ces thématiques et sur la manière dont les lois peuvent évoluer pour faire face à ces défis. Dans tous les cas, la transparence est de mise lors de l’utilisation de ce type d’outils, afin de respecter au mieux les principes de l’intégrité scientifique.

L'IA a la capacité de réécrire un ouvrage existant de manière à le rendre méconnaissable pour les outils traditionnels de détection de plagiat. Ce potentiel soulève des problèmes éthiques importants, dans le sens où il permet l’exploitation d’une œuvre originale sans donner de crédit, en contradiction avec les principes d'intégrité scientifique ainsi qu’avec le droit en matière de propriété intellectuelle. Comme l’explique le CNRS, "le plagiat des textes publiés s’étend de la copie plus ou moins grossière sans crédit approprié, jusqu’à l’emprunt direct ou sous forme de paraphrases" (pdf comite d'éthique du CNRS).

Quant à la paternité de l'œuvre, le défi réside dans l’identification de l'auteur d’un travail réalisé par l'IA. Historiquement, les droits d’auteur protégeaient les œuvres découlant de l'esprit humain, mais avec l'IA, cette définition est remise en question. Selon le Prof. Philippe Gilliéron, professeur de droit à l'UNIL et avocat, l'esprit ou le texte d'autrui reste encore l'apanage de l'être humain. À ce jour, l'utilisation de textes générés par des systèmes tels que ChatGPT n’est pas qualifié de plagiat, simplement parce que le système n'a pas encore été reconnu comme doté d’un "esprit" en tant que tel.

L’essentiel reste l’angle sous lequel cette problématique est abordée: il ne s'agit pas seulement d'une question de droit d'auteur, mais également d'intégrité scientifique. Dans tous les cas, présenter un texte créé par l’IA comme le fruit du travail d'une personne, sans mention du recours aux outils associés, est une pratique trompeuse et contraire à l'éthique.

 

Comment rendre acceptable l'utilisation des outils d'IA dans la recherche ?

Clarification et transparence

Dans le domaine de la recherche, il est essentiel de fournir une transparence complète concernant l’usage des logiciels d’IA. Cela signifie divulguer quand, comment et dans quel but spécifique ces technologies ont été intégrées dans le processus de recherche. Par exemple, il faut clairement indiquer dans toute communication ou publication si l’IA a été employée pour analyser un vaste jeu de données, produire un résumé de la littérature existante, ou même formuler des hypothèses de recherche. Comme c’est déjà largement le cas pour l’analyse de jeux de données statistiques, les commandes ainsi que les procédures utilisées devraient être clairement exposées afin de satisfaire aux standards de reproductibilité. À cet égard, des maisons d’édition telles qu’Elsevier, Springer ou Cambridge University Press se sont déjà positionnées sur la question en donnant des directives bien précises:

Une autre composante clé de la transparence est la description des limites éventuelles et des sources d'imprécision associées à l'emploi de ces systèmes. Cela peut englober des discussions sur des problèmes tels que le biais dans les données d'apprentissage, les difficultés liées à la vérification du contenu engendré par l'IA, ou ses limites en termes de compréhension contextuelle. En fournissant ce niveau de détail, les chercheur·e·s aident à prévenir les malentendus et à établir des attentes réalistes sur ce que ces outils peuvent et ne peuvent pas accomplir.

De plus, la clarification est essentielle dans la détermination de la responsabilité éthique lors de l'usage de l'IA. Cela signifie préciser clairement quelle portion du travail a été effectuée par ces programmes et quelle portion a été accomplie par les chercheur·e·s. Distinguer le travail réalisé par la machine de celui effectué par des individus aide à déterminer où se situe la responsabilité des résultats de la recherche et à garantir que l'IA soit utilisée de manière éthique et responsable.

En résumé, la clarification et la transparence sont indispensables pour préserver l'intégrité de la recherche, pour construire la confiance du public et pour garantir que les outils d'intelligence artificielle sont maniés de manière adéquate dans le cadre de la recherche.

 

Dans quelle section du manuscrit les auteur·e·s doivent-ils divulguer l’utilisation d’outils IA ?

Les quelques maisons d'édition qui se sont penchées sur la question recommandent généralement aux auteur·e·s de divulguer l'utilisation des outils IA dans une section dédiée située à la fin du manuscrit, juste avant les références. Cette déclaration devrait inclure au minimum le nom de l’outil IA utilisé, la version (ou l’année, le cas échéant) ainsi que les sections spécifiques du document où cette technologie a été employée.

Les outils assistés par IA doivent-ils être crédités en tant qu'auteur·e·s sur les travaux publiés ?

Non. La paternité exige d’assumer la responsabilité du contenu, de consentir à la publication via un accord de publication d'auteur·e, ainsi que des garanties contractuelles sur l'intégrité du travail, entre autres. Ces responsabilités, intrinsèquement humaines, ne peuvent pas être assumées par l’IA. Par conséquent, les outils IA ne doivent pas être crédités en tant qu'auteur·e·s.

Est-il permis d'utiliser des outils IA dans le processus d'évaluation d'un manuscrit en tant que "reviewer" ?

Non. Lorsqu'un·e expert·e est sollicité·e pour évaluer un manuscrit, il est impératif de maintenir la confidentialité du contenu. Les examinateur·trice·s ne doivent pas télécharger le manuscrit ou une partie de celui-ci dans un outil IA génératif, car cela peut transgresser les droits de confidentialité et de propriété de la maison d'édition et des auteurs. De plus, si le manuscrit contient des informations personnelles identifiables, cela peut violer les droits relatifs à la protection des données.

De plus, l'intégrité la plus stricte requise dans le processus d'examen exige des responsabilités qui ne peuvent être assumées que par des humains. Les technologies IA ne doivent pas être employées par les examinateur·trice·s pour faciliter l'évaluation du manuscrit, car la réflexion critique et l'analyse originale indispensables à cet examen excèdent les capacités de ces technologies. Il y a également un risque que ces technologies produisent des conclusions erronées, incomplètes ou biaisées.

Est-il permis d'utiliser des outils IA pour générer des images dans les manuscrits ?

Non. L'évolution rapide du domaine de la création d'images par IA générative soulève de nouvelles questions juridiques liées au droit d'auteur et à l'intégrité de la recherche. Tant que ces questions entourant les images et vidéos générées par IA restent largement non résolues, les maisons d'édition ne peuvent pas autoriser leur utilisation pour la publication.

Remarque: tous les outils IA ne sont pas génératifs. L'utilisation d'outils de "machine learning" non génératifs pour manipuler, fusionner ou améliorer des images ou des figures existantes doit être mentionnée dans la légende adéquate lors de la soumission, permettant ainsi une évaluation au cas par cas.

Protection et confidentialité des données

Quels sont les risques en matière de protection et confidentialité des données

Aucun outil d’IA n'est actuellement en mesure de garantir la confidentialité des données qui y sont introduites.

Lorsque l’on nourrit une IA avec des informations, ces dernières sont transférées d’un point A (l’ordinateur du/de la chercheur·e) vers un point B (les serveurs sur lesquels est basée l’IA qui traite l’information). Si le/la chercheur·e alimente une IA avec des données personnelles (par exemple en lui demandant d’analyser des extraits d’entretiens ou un fichier contenant des données socio-démographiques), il y a généralement communication de données personnelles à l’étranger.

À titre d’exemple, OpenAI, dont le siège est aux États-Unis, stipule clairement que les discussions avec ChatGPT sont stockées sur leurs serveurs aux États-Unis et pourraient servir à entraîner leurs modèles. Or, les USA ne sont pas considérés par les autorités suisses et européennes de protection des données comme un pays offrant un niveau de protection des données équivalent aux leurs (pays non-adéquat au sens de la loi). Il est donc pour le moment illégal en Suisse et en Europe de nourrir des IA avec des données personnelles et a fortiori sensibles (données de santé, opinions politiques, etc.). L’adoption récente d’un nouvel accord UE/USA en matière de protection des données – le Data Privacy Framework – est un pas encourageant dans la régularisation des transferts de données personnelles outre-Atlantique. La Suisse devrait adhérer à ce mécanisme à l’automne 2023. L’UNIL reste la responsable de la légalité de ces transferts et doit notamment s’assurer que les sous-traitants sont bien parties au Data Privacy Framework.

En outre, lorsqu’un système IA traite un ensemble de données, il s’initie aux motifs et configurations présents dans ces données. Cela induit qu'il est susceptible de mémoriser et de restituer des éléments issus de ces données dans ses sorties. Ceci créé d’importants problèmes si l'IA est calibrée sur des données personnelles, sensibles ou confidentielles. Par exemple, si le logiciel traite des données médicales, des informations financières, ou toute autre donnée personnelle, il pourrait divulguer, dans les contenus qu’il produit, des détails relatifs à celles-ci, même de manière indirecte ou déguisée. Dans la configuration actuelle de ces outils, la protection et la confidentialité des données n’est donc pas respectée.

Les chercheur·e·s manipulant ces outils doivent donc faire preuve d’une extrême vigilance afin d’assurer la protection et la confidentialité des données. Cela peut requérir des réflexes simples tels que l’information aux participant·e·s, l'anonymisation, la pseudonymisation, l'adoption de données agrégées, etc.

En conclusion, alors que les algorithmes d’IA offrent des capacités d'analyse et de synthèse puissantes, il est impératif que leur utilisation soit réalisée en conformité avec la loi. La garantie de la protection des données personnelles et de la confidentialité des données en général est non seulement une question d'éthique, mais aussi une obligation légale: Loi sur la protection des données personnelles (LPrD)

C'est la raison pour laquelle les chercheur·e·s doivent s’informer des risques éventuels et mettre en place toutes les précautions nécessaires lors de la manipulation de ces outils.

FAQ IA

Partagez: