Droit d'auteur et IA générative : vers une éthique de la transparence

Par David Pouchard, adjoint à la cheffe du bureau de la propriété intellectuelle, ministère de la Culture.

La modélisation de l’IA générative implique une phase préalable d’apprentissage automatique (machine learning) pendant laquelle les systèmes se nourrissent d’un vaste ensemble de données qui vont servir à leur entrainement et leur permettre d’inférer des règles et de générer ensuite des contenus. Compte tenu de leur qualité et de leur diversité, les œuvres de l’esprit (œuvres littéraires, musicales, audiovisuelles…) sont particulièrement mobilisées dans ce cadre. Il importait donc de s’interroger sur les conditions d’application du cadre existant en matière de droit d’auteur et de droits voisins à cette phase d’apprentissage.

Synthèse de l’intervention de David Pouchard

« Je me concentrerai sur l’IA générative, qui est une forme déjà relativement ancienne mais dont les applications grand public ne sont apparues qu’à la fin de l’année 2022 et en 2023. Aujourd’hui, les systèmes d’IA générative dont on parle sont dits de fondation, à usage général. Les systèmes ChatGPT, Bard, Midjourney sont les grands moteurs fondamentaux actuels. Ils se créent à partir des corpus d’œuvres les plus importants qui soient.

« C’est un peu le temps 0 de l’IA générative ».

Ces modèles permettront ensuite, dans les années qui viennent, de développer des modèles d’IA générative spécialisés. C’est pour ça aussi qu’il convient de bien appréhender les risques que ces systèmes-là peuvent représenter, notamment pour les créateurs et vis-à-vis des droits d’auteur.

Ces systèmes de fondation ont pour objectif et pour volonté depuis quelques années, d’aspirer, de moissonner tous les contenus et toutes les données possibles et imaginables. Une concurrence s’est établie entre eux et la question se pose concernant des bases d’entrainement des systèmes d’IA. Tous ont vocation à traiter le maximum de contenus dans leurs mécanismes et dans leurs modèles. Peut se poser ici notamment le problème des données personnelles. Il existe aussi un intérêt public qui semble s’attacher à ce que les meilleurs corpus représentatifs de la culture française et européenne puissent être présents dans ces grands modèles qui devraient, à terme, irriguer tous les champs de l’IA. On peut avoir le pressentiment que si la problématique n’est pas correctement gérée aujourd’hui, il sera encore plus compliqué de le faire demain.

Et quid des auteurs ? Ce qui intéresse les grands acteurs du numérique, ce ne sont pas tant les œuvres en tant qu’entités, c’est la masse qui va permettre, une fois qu’elle sera traitée, de générer des contenus différents. Le deuxième point qui soulève des interrogations pour les auteurs c’est celui de la génération des contenus. Est-ce que le droit d’auteur est applicable ici ? Si oui, comment a-t-il vocation à être mis en œuvre ?
Une première approche dit que le droit d’auteur s’applique pleinement et entièrement. Cette position prend appui sur le fait que les grandes bases d’entrainement de l’IA intègrent des œuvres et la reproduisent. Une des prérogatives fondamentales de l’auteur étant d’autoriser ou d’interdire la reproduction de son œuvre, un modèle d’IA générative ne pourrait donc rien faire sans l’autorisation de celui-ci.
Il y a une deuxième position, inverse, plutôt portée par les plateformes et certains juristes, qui dit que le droit d’auteur n’a pas vocation à s’appliquer. C’est une vision assez extrémiste trouvant son origine dans le fait que ce qui sort de la machine, ce n’est jamais l’œuvre.
La voie juridique semblant se dessiner aujourd’hui est un peu intermédiaire et vise à réintroduire le droit d’auteur comme un prérequis nécessaire qui doit être pris en compte.

Depuis 2019, le cadre européen consacre une exception au droit d’auteur, qui permet à plusieurs acteurs, notamment des chercheurs, d’aller fouiller des corpus d’œuvres pour en extraire des données, des informations, des statistiques… Cette exception dite de fouille, qui au départ ne concernait pas l’IA, a pour conséquence de déposséder les auteurs de leurs droits. Mais la mise en œuvre de cette exception est déterminée par un certain nombre de conditions fondamentales pour permettre aux professionnels de retrouver un vrai contrôle sur cette phase d’entrainement. La première est que les œuvres qui sont utilisées ne pourront en aucun cas faire l’objet d’une exploitation en tant que telle. La deuxième concerne la fouille, qui doit se faire sur des corpus auxquels on accède de manière licite. La dernière, la plus importante, est la possibilité de décider de sortir de l’exception, soit pour s’opposer à l’utilisation de leurs œuvres soit pour entrer dans une relation de négociation avec éventuellement à la clé une rémunération. La difficulté c’est que cela suppose que ces modèles d’IA soient transparents.

Le Parlement européen a ainsi souhaité introduire cet enjeu d’obligation de transparence pour les moteurs générateurs d’IA fin 2022 et début 2023. Mais cette obligation est assortie de limites. Il précise notamment que les moteurs d’IA doivent fournir aux auteurs des informations suffisamment détaillées sur les sources utilisées. Le ministère de la Culture souhaite définir quels types d’informations l’IA devra donner concrètement.

« D’ici la fin de l’année, un modèle sera porté au niveau européen et un débat sera ensuite engagé ».

L’autre étape est aussi de se demander quelle est la valeur des œuvres utilisées. Comment engager la négociation entre les auteurs et les plateformes ? Comment gérer la mise en œuvre pratique de ce droit d’auteur? Il y a encore beaucoup de travail à accomplir ».