C’est une statistique, provenant du blog de l’IA générative Stable Diffusion qui interpelle, et que ne manque pas de relever Thierry Maillard, directeur juridique de l’ADAGP (Société des auteurs dans les arts graphiques et plastiques). « Les algorithmes de générations d’images à partir de textes ont généré un volume aussi important en un an (15 milliards d’images d’après l’IA, ndlr) que le nombre total de photographies prises en 150 ans, entre 1826 et 1975 », pointait-il devant les sénateurs de la commission culture réunis mi-décembre pour une table ronde sur « le droit d’auteur au défi de l’intelligence artificielle ». Une donnée parmi d’autres qui vient nourrir un climat installé de défiance des acteurs de la création à l’égard des entreprises d’IA et de l’impact sur leur secteur de modèles largement inspirés par une multitude de contenus culturels sans traçabilité ni rémunération associée. « Nous sommes face à une boîte noire. Nous ne savons pas ce qui est utilisé pour générer des contenus », s’alarmait lors de la commission David El Sayegh, directeur général adjoint de la Sacem (Société des auteurs, compositeurs et éditeurs de musique).
Le 22 janvier, sept organisations de créateurs et diffuseurs d'œuvres de musique (Adami, Sacem, SNEP), littérature (SGDL, SNE), audiovisuel (Eurocinéma) et spectacle vivant (SACD), interpellaient la nouvelle ministre de la Culture Rachida Dati dans une lettre prêchant pour que la France appuie une « réglementation européenne qui garantisse un avenir pour le droit d'auteur » face aux logiciels d'intelligence artificielle, et adopte « des prises de position plus conformes (à ses) engagements traditionnels en matière de propriété intellectuelle ». Le débat alimente en effet les négociations autour du projet de loi européen sur l’IA, dont le texte de compromis, toujours confidentiel, pourrait être encore amendé sur quelques points techniques. Mais sa configuration actuelle n’est pour l'instant pas à même de rassurer les associations professionnelles et les organismes de gestion collective, qui se disent victimes d’une asymétrie de pouvoir et d’information.
Manque d'anticipation
Ceux-ci se sont déjà rassemblés autour d’un communiqué commun, mi-novembre, pour plus de transparence dans l’encadrement de ces technologies, agacés par un discours français qui « oppose systématiquement l’innovation et la création, la modernité et le droit d’auteur », d'après Pascal Rogard, à la tête de la SACD (Société des auteurs et compositeurs dramatiques). Qualifiant la situation d'inédite dans le pays de Beaumarchais (qui fut le premier à faire reconnaître le droit d'auteur en 1791, ndlr), il fait partie de ceux qui accusent la France d’avoir œuvré pour assouplir le texte et y voient un « alignement » derrière des intérêts économiques, comme ceux de la start-up Mistral AI, première licorne française dans le domaine.
Preuve supplémentaire : la présence de plusieurs figures du secteur dans le comité de l’intelligence artificielle générative qui doit remettre des propositions à Matignon d’ici le début du printemps. Rare membre de ce comité stratégique à souhaiter prendre la parole publiquement tant le sujet est sensible, la professeure de droit Alexandra Bensamoun alerte sur l’impasse juridique actuelle, qui dérive notamment d’une directive européenne sur le droit d’auteur et les droits voisins, votée en 2019 sans anticiper les progrès stupéfiants des IA accessibles au grand public, « aux modèles entraînés sur des bases illicites », selon la juriste. Elle poursuit : « Il y avait deux exceptions dans la loi : la fouille et l’extraction de données à des fins de recherche académique. Ensuite, s’il y avait une finalité commerciale, il fallait garantir un accès licite aux contenus et la possibilité pour les titulaires de droits d’auteur d’exercer un droit d’opposition, dit opt-out ».
Loterie opaque
Or, si de multiples contentieux ont déjà été engagés sur ce fondement, aucun mécanisme d’autorisation préalable n’a pu être mis en place par des ayants droit. Encore vague sur le niveau de précision, la nouveauté issue du trilogue européen porte sur l’obligation de présenter « un résumé suffisamment détaillé » des sources d’entraînement des algorithmes, avec une préoccupation latente sur le calendrier selon lequel ces informations devront être rendues publiques. Les industriels plaident déjà le secret des affaires. Reste ensuite à imaginer la chaîne associée d’usages et de valeur. Une partie de ce contrôle pourrait être effectué en France par la CNIL (Commission nationale de l'informatique et des libertés). Les associations professionnelles mettent en avant leur habitude de traiter des données confidentielles et rappellent la négociation d’accords avec des plateformes de vidéos en ligne et de streaming comme YouTube ou Spotify.
« Nous devons écarter les objections techniques souvent exposées, avance Renaud Lefebvre, directeur général du SNE (Syndicat national de l’édition). On nous dit qu’il ne serait pas possible d’identifier des œuvres sous droit dans les métadonnées exploitables, alors qu’une technologie de reconnaissance d’identité nommée permet déjà depuis dix ans d’anonymiser toute la jurisprudence. Ensuite, pourquoi l’opt-out serait le seul élément qui ne pourrait pas être lu par ces machines ? Enfin, si des contenus sont de provenance douteuse, ces intelligences artificielles fonctionnent par ajout et retrait de données. Cela indique donc une possibilité de soustraction. »
Face à cette disponibilité de données, les champs de la création sont inégaux. Du fait d’un moindre filtrage technique et d’une multiplicité de diffuseurs, les arts visuels sont déjà les grands perdants dans cette loterie opaque des jeux de données. Et qui pourrait assurer que les IA génératives puissent désapprendre ce qu’elles ont déjà ingéré ?