Promouvoir et défendre le logiciel libre

23 May 2018

april.png Nouvelles April

Présence de l'April dans le Village du Libre aux Geek Faëries 2018

Le 23 May 2018 à 12:34:23

1 Juin 2018 - 18:00
3 Juin 2018 - 18:00

L'April participera au village du Libre qui aura lieu pendant les Geek Faëries dans le château de Selles-sur-Cher du 1er au 3 juin 2018.

Le Village du Libre, qui se tiendra les 2 et 3 juin, est un lieu de rencontre et de discussions avec de nombreuses personnes représentantes ou issues du monde du libre francophone. Dans cet espace, vous pourrez discuter du libre, poser vos questions, mais aussi participer à des ateliers participatifs ou à des démonstrations de l’utilisation de certains systèmes ou logiciels.

Les Geek Faëries IRL, c’est quoi ?
C’est un voyage vers une contrée lointaine, à préparer bien à l’avance pour pouvoir réellement vivre en immersion et en costume pendant deux jours et deux nuits. Sinon c’est dans un château au bord de l’eau avec des grenouilles ! On n'y vient pas par hasard.
Entre les rôlistes, les fans d'Harry Potter, de pop art et les cinéastes... beaucoup de sujets pour refaire le monde !

Parcoursup publié en libre sur Framagit - Transcription du Décryptualité du 21 mai 2018

Le 23 May 2018 à 09:06:22


Luc- Mag - Manu - Nico

Titre : Décryptualité du 21 mai 2018 - Parcoursup publié en libre sur Framagit
Intervenants : Luc- Mag - Manu - Nico
Lieu : April - Studio d'enregistrement
Date : mai 2018
Durée : 15 min
Écouter ou télécharger le podcast
Revue de presse pour la semaine 20 de l'année 2018
Licence de la transcription : Verbatim
Illustration : Logo de Parcoursup Wikipedia, marque déposée. Logo de Framasoft inspiré de la mascotte historique de LL. de Mars Wikipedia, licence CC BY-SA 4.0
NB : transcription réalisée par nos soins. Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas forcément celles de l'April.

Description

Parcoursup, le logiciel du ministère de l'Enseignement supérieur qui gère les affectations des étudiants en fonction de leurs souhaits est publié en libre.

Transcription

Luc : Décryptualité.

Nico : Le podcast qui décrypte l’actualité des libertés numériques.

Luc : Semaine 20. Salut Nico. On change de sens !

Nico : Salut Mag.

Mag : Salut Manu.

Manu : Salut Luc.

Luc : De quoi parle-t-on cette semaine ? De la revue de presse pour commencer, bien sûr. Qu’est-ce qu’il y a au programme ?

Manu : Cinq articles sympathiques.

Mag : Programmez!, « Mozilla publie un rapport pour faciliter la mise en place de projets », par Frederic Mazue.

Manu : C’est tout un PDF qui va vous expliquer un petit peu comment vous construisez votre projet, libre espérons-le.

Mag : La gazette.fr, « Dématérialisation : "Le potentiel de gains pour l’usager et pour les services publics est extraordinaire" », par Gabriel Zignani Romain Mazon.

Manu : C’est le gros sujet du moment. Les administrations s’y mettent, au logiciel libre, et elles en mangent. Et là, la dématérialisation va dans ce sens-là, l’open data, les données qui vont vers les citoyens. C’est intéressant et ça continue derrière avec l’article suivant.

Mag : ZDNet France, « Outils publics : la DINSIC publie son guide en matière d’ouverture du code », par Louis Adam.

Manu : Tu te rappelles de ce que ça veut dire DINSIC [Direction interministérielle du numérique et du système d’information et de communication de l’État] ?

Luc : Direction interministérielle be, be, be…

Manu : Numérique.

Luc : Je ne sais.

Nico : Non plus ! C'est de l'information.

Luc : En gros c’est la DSI de l’État quoi !

Mag : Le Journal de Montréal, « Montréal : une nouvelle politique sur les logiciels libres », par Sarah Daoust-Braun.

Manu : Là c’est de l’autre côté de l’Atlantique, nos cousins, et ils se mettent au logiciel libre aussi de manière assez féroce dans la ville, dans la communauté. Donc ce n’est pas mal aussi, il faut qu’on prenne exemple.

Mag : Et le dernier article. Association mode d’emploi, « L’éducation populaire se réinvente », par Michel Lulek.

Manu : C’est assez général. L’éducation populaire ça touche tout le monde, finalement, et ce qui est intéressant c’est qu’ils s’intéressent au numérique par le biais du logiciel libre, donc on aime bien.

Luc : Très bien. De quoi parle-t-on cette semaine ?

Mag : D’ouverture de code ?

Nico : Et de Parcoursup1 du coup.

Manu : Oui, il y a du troll, là.

Luc : Ça discute assez ferme. Les gens s’empoignent assez sévèrement. Donc Parcoursup déjà pour replacer, c’est quoi ?

Manu : La suite d’APB ?

Nico : C’est ça, c’est le remplaçant d’APB, donc Admission Post-Bac, qui était l’ancien algorithme pour sélectionner toutes les filières qui n’étaient pas concernées par l’université. Et maintenant il y a Parcoursup pour ajouter de la sélection.

Luc : Donc il s’agit d’un code. On se souvient qu’APB ça avait été tout un bordel parce qu’il avait fallu un peu tanner le gouvernement, le ministère de l’Éducation, pour obtenir le code.

Nico : Sous format PDF.

Luc : Ils l’avaient, voilà, fourni sous un format le moins exploitable possible, donc ils n’étaient pas de très bonne volonté. Et là, bonne nouvelle, ils publient le code.

Nico : Bonne nouvelle, oui et non. Il y a eu pas mal de critiques quand même. Ils l’ont publié une fois que tout été terminé puisque Parcoursup finissait aujourd’hui pour la phase de sélection, donc le 22 mai, et ils ont publié ça le jour même ; donc les étudiants étaient un peu « vénères » de ne pas avoir eu accès au code source avant de subir.

Manu : Ils sont en train de mettre en place les étudiants qui vont rentrer à l’université en septembre.

Nico : À l’université en septembre. Voilà.

Manu : C’est en train d’être mis en place en ce moment. L’algorithme, enfin le logiciel qui est derrière a été installé, configuré, et les gars sont en train de se taper les bugs.

Nico : C’est ça. Et puis surtout que personne ne connaissait l’algorithme, comment ça fonctionnait et ça a été publié après coup.

Luc : C’était pareil avec APB. Il y a un enjeu à savoir comment ça marche puisque cet algorithme, ce système, décide, au final, de qui va aller où. Évidemment les choix sont là, mais il y a toute une série de critères qu’on ne connaît pas, qui vont être obscurs. Connaître le code c’est connaître les critères et savoir comment ça marche.

Mag : Finalement c’est assez positif. Ça va peut-être enlever toutes les accointances, les messages qui étaient faits sous le chapeau, la corruption…

Manu : L’arbitraire.

Luc : Oui, espérons. Peut-être !

Nico : Il manque quand même un morceau.

Luc : En tout cas pas pour cette année.

Nico : Pas pour cette année. En plus, ils n’ont donné que l’algorithme qui est national ; ils n’ont pas donné les algorithmes locaux à chaque université. Donc la véritable partie de sélection n’est pas encore publique.

Mag : Il n’y a sélection que s’il y a trop d’élèves par rapport aux places qui sont proposées !

Nico : Le gros changement, effectivement sur les filières qu’ils appellent en tension, celles où il y a beaucoup plus de candidats que de places, pour elles il y aura vraiment de la sélection ; mais ça change aussi sur d’autres filières puisqu’il va y avoir des critères discrétionnaires de la part des lycées ou autres, puisque le conseil de classe va avoir aussi son mot à dire sur « est-ce que l’orientation que tu choisis est logique ou non, conforme ou pas à ce que tu as déjà fait pendant tes trois années de lycée ».

Manu : Et tout ça, ça nous concerne, parce que Parcoursup est déployé sous forme d’algorithme et de logiciel libre, mais en plus de ça, il est en train d’être déployé sur une plateforme.

Mag : Oui. Ils l’ont mis sur le Framagit2 ; Git c’est une plateforme qui héberge du logiciel libre.

Manu : Du code source.

Mag : Du code source. Et Framagit c’est la plateforme de Framasoft3.

Luc : Framasoft dont on parle très régulièrement, qui sont des amis — Magali tu as un pied là-bas —, qui proposent plein de services libres et qui sont derrière l’initiative CHATONS4 qui est ?

Mag : Collectif des Hébergeurs Alternatifs, Transparents, Ouverts, Neutres et Solidaires. Tu ne le sais toujours pas Luc !

Luc : Non ; ça ne rentre pas ! Je n'y arrive pas.

Manu : Non ! Il n’y a que toi qui le sais ici, en fait !

Luc : Voilà. Du coup des engagements éthiques très forts. C’est assez rigolo que le ministère ait décidé de publier sur cette plateforme qui n’est pas une grosse plateforme.

Manu : Sachant qu’il y a eu des soucis.

Mag : Oui parce qu’en fait ils ont publié quelque chose, mais c’était un lien qui était privé, donc qui n’était pas accessible.

Nico : Oui. Et après il y a eu aussi un peu une polémique derrière. Le lien était privé.

Luc : Ça veut dire quoi le lien était privé ?

Mag : Ça c’est une mauvaise configuration.

Luc : De la part de qui ?

Nico : C’était une mauvaise configuration de la part de ceux qui ont créé le dépôt. En fait ils ont créé le dépôt de code ; ils l’ont publié dedans. Eux avaient accès à leur code donc ils ont dit : « Tiens, on envoie le lien à la presse » et puis en fait, tous ceux qui se connectaient dessus tombaient sur une page « vous n’avez pas le droit d’avoir accès à ce dossier ».

Manu : Donc la presse se connectait sur Framagit, sur le projet de Parcoursup qui était hébergé sur Framagit, mais n’y avait pas accès.

Nico : Mais n’y avait pas accès. Voilà !

Manu : Pour le coup, les gars de Framasoft ont dû s’arracher les cheveux parce qu’il y a plein de gens qui arrivaient sur leur plateforme et qui n’avaient accès à rien !

Nico : Du coup on revenait vers Framasoft ; on ne pensait pas à aller contacter les responsables du dépôt. Tout le monde tapait sur Framasoft : « Hé ! Ça ne marche pas votre truc ! », alors que non, non ce n’est pas nous ; c’était…

Manu : C’est du logiciel libre, donc ça ne marche pas !

Manu : Voilà ! C’était la DINSIC.

Luc : Il faut penser à se déconnecter avant de tester le lien !

Nico : Voilà !

Manu : Donc ça a été changé finalement. Ils ont mis le projet en public.

Mag : Ouais.

Nico : Voilà ! Et ce qu’il faut aussi noter c’est que le projet a été libéré sous licence libre GPLv35, donc ils ont aussi bien choisi leur licence, pris quelque chose qui oblige à redistribuer les modifications, etc. Donc c’est quand même un sacré coup de chapeau à cette équipe-là qui a publié.

Mag : On sent qu’il y a une bonne volonté derrière cette mise en place, même si, eh bien l’algorithme ne plaît pas à tout le monde.

Manu : Ça va même plus loin que ça. Il y a des trolls et des critiques dans tous les sens : les étudiants, les parents d’élèves, les profs, les syndicats, sont un petit furieux de voir ce truc se mettre en place, c’est-à-dire Parcoursup.

Nico : Il y a eu pas mal de rébellion, de manifestations et un peu tout ce qui se passe aujourd’hui sur la fameuse loi ORE6 qui essaye, qui refond toute l’université. Tous les blocages qu’on voit dans les lycées et autres, les universités et les facs, sont liés aussi à la mise en place de Parcoursup et au ras-le-bol général autour de toute la gestion de l’Éducation nationale.

Manu : Mais donc, pour le coup, ça veut dire que le logiciel libre, et Framasoft qui héberge du logiciel libre, travaillent pour une initiative qui ne plaît pas à beaucoup de citoyens. C’est moche !

Nico : En tout cas, la question a été soulevée.

Mag : Franchement, ils ont un Git, le gouvernement, qui leur est fourni par Etalab. La question c’est pourquoi est-ce qu’ils ne l’ont pas mis sur celui d’Etalab ?

Manu : Etalab7 c’est une des administrations de l’État.

Mag : Exactement.

Luc : Une agence.

Mag : Après maintenant, ce n’est pas à Framasoft de décider qui utilise ses services ou pas.

Manu : Ils pourraient le faire !

Luc : Je pense que le gouvernement, le ministère, l’a mis sur Framagit pour faire un coup de pub. Pour dire on fait du Libre, on le met sur une plateforme super libre, chez des vrais militants, et on montre que notre volonté est là.

Manu : Ce qui est bien.

Luc : Ce qui est bien ; alors il y a des gens qui sont contre !

Nico : Sinon ça a beaucoup réagi parce que le milieu militant, libriste, est aussi assez militant au niveau de l’Éducation nationale.

Manu : Sachant que Framasoft a des racines dans l’Éducation.

Nico : Fra – Ma.

Manu : Frama ça veut dire français, maths.

Nico : C’est ça. Ça a quand même cristallisé pas mal de tensions puisqu’on se retrouve avec un logiciel qui est vu un peu comme le démon par beaucoup de monde et, du coup, il y a eu des demandes, presque officielles on va dire, de « vous devez supprimer ce dépôt-là parce que ce n’est pas possible que vous cautionniez le gouvernement en hébergeant ce code-là ».

Mag : C’est beau la tolérance !

Manu : C’est de la tolérance ! C’est de la tolérance ! En même temps, peut-être que cet algorithme est affreux ; il va détruire des vies de petits jeunes qui en veulent.

Luc : Framasoft, ce sont des « social-traîtres ».

Manu : C’est ça en fait qui se passe.

Luc : Magali, comme tu as un pied chez Framasoft, tu es sociale-traître également, en fait !

Manu : Arrête les trolls ! Il trolle le Luc !

Mag : Tu trolles. J’encourage nos auditeurs à aller regarder sur le Framablog, en 2016, le 25 novembre, un article qui s’appelait « Pourquoi Framasoft n’ira plus prendre le thé au ministère de l’Éducation »8, qui pourra vous montrer quelle est la position de Framasoft face au ministère de l’Éducation. Effectivement, on a souvent eu l’impression d’être la gentille poire, le greenwashing, enfin tous les mots que tu veux !

Luc : L’openwashing.

Mag : L’openwashing du ministère. En attendant, ce n’est pas à Framasoft de modérer ce genre de personnes à utiliser ces services-là. On a une charte chez les CHATONS qui prône la tolérance. Donc non !

Luc : Qui prône la mise en avant des libertés fondamentales. Donc le droit d’expression est une liberté fondamentale.

Nico : Après, c’est vrai que la DINSIC aurait quand même pu être sympa, demander peut-être à Framasoft avant « est-ce qu’on peut lancer ça ? »

Luc : Ils auraient dû mieux vérifier leur lien, parce que ça !

Nico : Déjà vérifier le lien.

Luc : Il y a quelqu'un qui s’est quand même planté quoi !

Nico : Forcément, c’est aussi quelque chose qui va faire beaucoup de buzz, donc qui va stresser beaucoup l’infrastructure des CHATONS et consommer beaucoup de temps, d’argent.

Manu : Oui, mais ça les met en avant.

Nico : Ça les met en avant ; on espère. La DINSIC aurait peut-être dû consulter Frama avant. On espère, du coup, qu’ils vont aussi faire des dons ou, en tout cas, soutenir le Chaton. « OK, on l’utilise », mais c’est quand même pas mal de contribuer, de filer de l’argent, des ressources, des serveurs, je ne sais pas quoi. C’est vrai qu’ils auraient pu être un peu plus précautionneux dans leur manière de gérer…

Manu : Mais ça c’est un classique ! C’est après coup qu’on s’aperçoit des problèmes. Ils ont déployé leur code source en étant contents, probablement, de ce qu’ils faisaient. Derrière ils n’ont pas tout vérifié.

Luc : Ça veut dire qu’il y a un chef qui n’a pas fait de double vérification. Nous quand on vérifie, on fait ça !

Manu : C’est un classique ! Ou alors il a vérifié, mais comme il était connecté au projet, il l’a vu, il s’est dit « c’est bon ; j’ai cliqué sur le lien. »

Luc : Quand on fait une opération de com, on est quand même censé faire gaffe. Bon ! C’est finalement pas très important, tout le monde s’est moqué, etc., mais c’est quand même assez anecdotique par rapport au fait qu’ils libèrent ce code et donc super ! Même si, effectivement, ce code est contesté dans son objectif et dans sa façon de faire, il y a justement cet intérêt énorme, c’est qu’il est, aujourd’hui, transparent. Alors il ne l’a pas été pour cette année puisqu’il arrive trop tard, mais, pour l’année prochaine et pour la suite, maintenant on peut regarder comment ça marche pour de vrai. Du coup, on est quand même en mesure de contester avec des billes sérieuses, alors qu’avant, quand on avait un système totalement opaque, on pouvait dire « oui, mais ceci, cela » ; les autres disaient : « Non, de toutes façons vous ne savez pas de quoi vous parlez parce que vous n’avez pas les billes ! »

Manu : Pour terminer sur l’éducation, on peut éventuellement aborder le fait que, par ailleurs, il y a des gros problèmes dans l’éducation qui sont un peu inhérents. Il y a un taux d’échec, en fait, entre les années.

Mag : En licence, de 60 %, qui est énorme !

Manu : 60 % des jeunes qui rentrent dans ces filières-là qui n’en sortent pas avec un diplôme ; c’est quand même terrible ! Derrière, on a consulté tous des articles qui montraient qu’il avait 40 000 élèves de plus qui arrivent dans les universités parce qu’il y a eu un baby boom dans les années 2000 et donc là, il faut les accueillir. Et Parcoursup ou pas Parcoursup, il va y avoir des problèmes !

Nico : Il y a beaucoup plus d’étudiants à rentrer et il y a aussi le problème qu’il y a de moins de moins de jobs à la sortie. C’est bien joli d’avoir des centaines de milliers d’étudiants d’un côté, mais s’il n’y a pas de boulot de l’autre, eh bien ça ne fera que des chômeurs, en fait. Le problème est aussi là. Il faut des moyens pour l’éducation ; il faut peut-être plus d’universités, peut-être même complètement refondre notre société pour ne pas tout miser sur le travail et trouver d’autres choses alternatives.

Luc : Le problème de refonte totale de la société c’est toujours un peu compliqué quoi !

Nico : Là, c’est vrai que l’avenir à l’Éducation nationale ne va pas être très sympa je crois !

Luc : L’université ce n’est pas l’Éducation nationale, c’est l’Éducation supérieure, non ? Je ne sais pas si c’est le même ministère et tout. Je n’y connais rien.

Mag : En tout cas c’est Frédérique Vidal, la ministre de l’Enseignement supérieur et de la Recherche qui a envoyé ce mémo avec Mounir Mahjoubi. Donc effectivement, ce n’est plus l’Éducation nationale, c’est l’Enseignement supérieur.

Manu : On peut poursuivre avec le logiciel libre en général et constater que dans le logiciel libre c’est un vrai problème qui existe depuis le début, c’est que le logiciel libre peut être utilisé pour des choses qui sont regrettables parfois.

Luc : Complètement contestables ! Le logiciel libre en lui-même c’est du code, donc on peut l’utiliser pour ce qu’on veut et c’est même une des libertés essentielles, une des quatre libertés.

Mag : C’est comme si tu disais que le stylo-bille est regrettable parce qu’il peut être utilisé pour envoyer des lettres d’insultes. Non, le logiciel libre c’est juste un outil !

Manu : Oui. Mais les gars qui font des logiciels libres ont décidé de laisser cet outil à qui le veut, grâce aux licences de logiciel libre, alors qu’ils auraient pu mettre des clauses qui interdisaient certains usages par exemple.

Nico : Il y a des logiciels qui l’ont fait. La licence Java, à un certain moment, interdisait l’usage dans les centrales nucléaires. Il y a la licence JSON aujourd’hui ; on n’a pas le droit de s’en servir pour faire le mal. Alors je vous laisse définir le mal !

Manu : C’est comme le Jedi ; c’est obligé.

Nico : Selon le côté de la barrière derrière lequel vous vous trouvez, je pense que vous n’allez pas du tout lire la licence de la même manière.

Luc : C’est pour les gens sadomasochistes que c’est compliqué parce que tu fais du bien en faisant du mal !

Manu : Pour le coup, ça ce n’est pas du logiciel libre.

Nico : Ce n’est pas du logiciel libre ; ça a été acté par et l’OSI [Open Systems Interconnection] et la FSF [Free Software Foundation] qui dit que non, on ne peut pas réduire l’usage du logiciel à ce qu’on considère bien ou mal, sinon ça ne fait pas un logiciel libre. Donc JSON n’est pas une licence libre.

Luc : On rappelle que les gendarmes utilisent massivement du logiciel libre, y compris les gendarmes mobiles. Donc quand ils ont chopé un zadiste, qu'ils lui ont pété la gueule et qu'ils l’arrêtent, etc., ils font ça sur des logiciels libres.

Manu : Donc c’est admirable d’utiliser du logiciel libre pour leur métier, mais leur métier parfois peut faire des choses qui sont…

Luc : On peut ! C’est à mon sens un des trucs intéressant c’est qu’on n’est pas obligé de s’entendre pour partager ces choses-là. Dans les cas de Parcoursup, comme je le disais tout à l’heure, le gros intérêt c’est que c’est transparent. Donc ça, c’est quand même quelque chose à mettre au crédit du ministère, c’est que maintenant, on peut discuter réellement sur des éléments sérieux au lieu d’être dans l’obscurité. Ça c’est déjà énorme.

Mag : Et du coup, on va aussi pouvoir améliorer cet algorithme.

Manu : Potentiellement.

Mag : Puisqu’on va pouvoir l’étudier.

Manu : On peut rajouter que Framasoft, eux, ils défendent les libertés fondamentales. Il y a déjà eu des sujets comme ça ; alors c’était peut-être sur Mastodon où il y avait des gens qui parlaient, qui discutaient, des néonazis ou je ne sais plus.

Nico : C’était même sur les CHATONS, avec les Colibris, en fait, qui était porté par une personne qui avait tenu des propos homophobes il y a quelques dizaines d’années. Et il y avait eu une guéguerre en disant « est-ce que le fait d’accueillir une personne de ce type-là dans les CHATONS c’était cautionner ses actes, ou est-ce qu’il fallait carrément exclure ? »

Luc : Ou ses paroles d’ailleurs.

Nico : Ou ses paroles. Est-ce qu’il fallait exclure tout un pan de CHATONS et un Chaton complet juste parce qu’une personne s’était mal comportée ?

Manu : Qu’est-ce qui s’est passé alors à Frama ?

Nico : Il y a eu toute une discussion en interne qui a conduit à dire c’était une personne individuelle, ce n’était pas le collectif qui portait ces idées-là, donc il n’y a pas de raison de les exclure. Et dans toute communauté qui se regroupe derrière un sujet, effectivement on peut se retrouver avec des parasites ou des problèmes où des personnes, sur d’autres sujets, sont problématiques. Mais ça ne remet pas en cause la liberté. Quand on tient des propos homophobes, ça ne remet pas en question son usage du logiciel libre par exemple.

Mag : On ne peut pas généraliser à une instance ou à un groupe ou à une association les propos d’une personne, surtout des propos qui ont eu lieu il y a longtemps. Vouloir exclure cette association sous prétexte de ce que une personne fait, eh bien là on empêche totalement la liberté d’expression.

Luc : Et puis, en plus de ça, tu juges les gens par rapport à ce qu’ils font là maintenant, tout de suite, dans le cadre qui t’intéresse. C’est-à-dire que même si cette personne a des comportements que tu n’apprécies pas un, est-ce qu’ils sont légaux au regard de la loi ? Et s’ils le sont mais qu’elle les a tenus en dehors de ton service, de ton Mastodon, tu n’as pas à lui reprocher des éléments ; tu lui reproches des faits ! Sinon ça s’appelle du délit d’opinion et c’est un truc qui est quand même assez significatif de la dictature.

Manu : Dans le pays de Voltaire, ce serait dommage d’arrêter les opinions des autres juste parce qu’on ne les aime pas.

Luc : Ça montre la difficulté qu’il peut y avoir à communiquer ensemble. On se retrouve à se rendre compte que le monde est compliqué et qu’il y a plein de gens qu’on n’aime pas qui peuvent s’exprimer comme nous. Donc ça soulève ces questions-là ; moi je trouve ça assez intéressant.

Manu : À la semaine prochaine.

Luc : À la semaine prochaine.

Mag : Salut.

Nico : Bonne semaine à tous.

vbernat.png Vincent BERNAT

RĂŠpartiteur de charge Ă  multiples niveaux avec Linux

Le 23 May 2018 à 08:59:53

Une solution courante pour fournir un service hautement disponible et Êvolutif consiste à insÊrer une couche d’Êquilibrage de charge pour rÊpartir les requêtes des utilisateurs vers les serveurs frontaux1. Nous avons habituellement plusieurs attentes à l’Êgard d’une telle couche :

ĂŠvolutivitĂŠ
Elle permet à un service de monter en charge en poussant le trafic vers des serveurs nouvellement provisionnÊs. Elle est Êgalement capable de s’Êtendre si elle devient le goulot d’Êtranglement.
disponibilitĂŠ
Elle fournit la haute disponibilitĂŠ au service. Si un serveur devient indisponible, le trafic est rapidement redirigĂŠ vers un autre serveur. Elle doit ĂŠgalement ĂŞtre elle-mĂŞme hautement disponible.
flexibilitĂŠ
Elle gère aussi bien les connexions de courtes et de longues durÊes. Elle est suffisamment flexible pour offrir toutes les fonctionnalitÊs gÊnÊralement attendues d’un rÊpartiteur de charge comme TLS ou le routage HTTP.
opĂŠrabilitĂŠ
Avec un peu de coopÊration, tout changement prÊvu est transparent : mise à niveau des frontaux, ajout ou suppression de frontaux ou changement de topologie de la couche de rÊpartition elle-même.

Le problème et ses solutions sont bien connus. Parmi les articles rÊcemment parus sur le sujet,  Introduction to modern network load-balancing and proxying  donne un aperçu de l’Êtat de l’art. Google a publiÊ  Maglev: A Fast and Reliable Software Network Load Balancer  dÊcrivant en dÊtail leur solution interne2. Cependant, le logiciel associÊ n’est pas disponible. Fondamentalement, la construction d’une solution d’Êquilibrage de charge consiste à assembler trois composants :

  • routage ECMP
  • rĂŠpartition L4 (sans ĂŠtat)
  • rĂŠpartition L7 (avec ĂŠtat)

Dans cet article, je dÊcris une solution à multiples niveaux utilisant Linux et des composants open-source. Cela offre une base pour construire une couche d’Êquilibrage de charge prête à la production.

Mise Ă  jour (05.2018)

Facebook vient juste de publier Katran, un rÊpartiteur de charge L4 utilisant XDP et eBPF ainsi que du hachage cohÊrent. Il pourrait s’insÊrer dans la configuration dÊcrite ci-dessous.

Dernier niveau : rĂŠpartition L7đŸ”—

Commençons par le dernier niveau. Son rôle est de fournir la haute disponibilitÊ, en transfÊrant les requêtes vers les frontaux sains, ainsi que l’ÊvolutivitÊ, en rÊpartissant Êquitablement les requêtes. Travaillant dans les couches supÊrieures du modèle OSI, il peut Êgalement offrir des services supplÊmentaires, comme la terminaison TLS, le routage HTTP, la rÊÊcriture des entêtes, la limitation du dÊbit des utilisateurs non authentifiÊs, etc. Il peut tirer parti d’algorithmes complexes d’Êquilibrage de charge. En tant que premier point de contact avec les serveurs frontaux, il doit faciliter les maintenances et minimiser l’impact lors des changements quotidiens.

RĂŠpartiteurs de charge L7
Le dernier niveau de la solution de rĂŠpartition de charge est un ensemble d'ĂŠquilibreurs de charge L7 recevant les connexions des utilisateurs et les transfĂŠrant vers les frontaux.

Il termine Êgalement les connexions TCP des clients. Cela dÊcouple l’Êtage de rÊpartition des serveurs frontaux avec les avantages suivants :

  • les connexions vers les frontaux peuvent ĂŞtre maintenues ouvertes pour rĂŠduire l’utilisation des ressources et la latence ;
  • les requĂŞtes peuvent ĂŞtre rĂŠessayĂŠes de manière transparente en cas de dĂŠfaillance ;
  • les clients peuvent utiliser un protocole IP diffĂŠrent des serveurs ;
  • les frontaux n’ont pas Ă  se soucier de la dĂŠcouverte de la MTU du chemin, des algorithmes de congestion TCP, de la gestion de l’Êtat TIME-WAIT ou d’autres dĂŠtails de bas niveau.

De nombreux logiciels conviennent pour cette couche et il existe une littÊrature abondante sur la façon de les configurer. Vous pouvez regarder HAProxy, Envoy ou TrÌfik. Voici un exemple de configuration pour HAProxy :

# Point d'entrĂŠe de la rĂŠpartition de charge L7
frontend l7lb
  # Écoute à la fois en IPv4 et IPv6
  bind :80 v4v6
  # Redirige tout sur un ensemble de serveurs frontaux
  default_backend servers
  # VĂŠrification de la bonne santĂŠ
  acl dead nbsrv(servers) lt 1
  acl disabled nbsrv(enabler) lt 1
  monitor-uri /healthcheck
  monitor fail if dead || disabled

# Serveurs frontaux en IPv6 avec tests HTTP et via un agent
backend servers
  balance roundrobin
  option httpchk
  server web1 [2001:db8:1:0:2::1]:80 send-proxy check agent-check agent-port 5555
  server web2 [2001:db8:1:0:2::2]:80 send-proxy check agent-check agent-port 5555
  server web3 [2001:db8:1:0:2::3]:80 send-proxy check agent-check agent-port 5555
  server web4 [2001:db8:1:0:2::4]:80 send-proxy check agent-check agent-port 5555

# Faux serveur gĂŠrant la disponibilitant du rĂŠpartiteur de charge lui-mĂŞme
backend enabler
  server enabler [::1]:0 agent-check agent-port 5555

Cette configuration est très sommaire mais permet d’illustrer deux notions clÊs pour l’opÊrabilitÊ :

  1. Les frontaux sont testÊs à la fois au niveau HTTP (avec check et option httpchk) et via un agent auxiliaire (avec agent-check). Ce dernier permet de placer un serveur en maintenance pour effectuer une mise en production progressive. Sur chaque frontal, un processus Êcoute sur le port 5555 et rÊpond avec le statut du service (UP, DOWN, MAINT). Un simple socat fait l’affaire3 :

    socat -ly \
      TCP6-LISTEN:5555,ipv6only=0,reuseaddr,fork \
      OPEN:/etc/lb/agent-check,rdonly
    

    Dans /etc/lb/agent-check, UP indique que le service est en mode nominal. Si le test HTTP est aussi positif, HAProxy enverra des requêtes vers ce nœud. Si vous devez le mettre en maintenance, Êcrivez MAINT et attendez que les connexions en cours se terminent. Utilisez READY pour annuler ce mode.

  2. Le rÊpartiteur de charge lui-même fournit un point de diagnostic (/healthcheck) pour les niveaux supÊrieurs. Il retourne une erreur 503 si aucun frontal n’est disponible ou si le serveur enabler est indiquÊ comme indisponible via l’agent. Le même mÊcanisme que pour les serveurs frontaux classiques peut alors être utilisÊ pour signaler l’indisponibilitÊ de cet Êquilibreur de charge.

De plus, la directive send-proxy permet d’utiliser le protocole proxy afin de transmettre les adresses IP rÊelles des clients. Ce protocole fonctionne Êgalement pour les connexions non-HTTP et est supportÊ par de nombreux serveurs, y compris nginx :

http {
  server {
    listen [::]:80 default ipv6only=off proxy_protocol;
    root /var/www;
    set_real_ip_from ::/0;
    real_ip_header proxy_protocol;
  }
}

En l’Êtat, cette solution n’est pas complète. Nous avons dÊplacÊ le problème de disponibilitÊ et d’ÊvolutivitÊ ailleurs. Comment rÊpartir les demandes entre les Êquilibreurs de charge ?

Premier niveau : routage ECMPđŸ”—

Sur la plupart des rÊseaux IP modernes, il existe des chemins redondants entre les clients et les serveurs. Pour chaque paquet, les routeurs doivent choisir une branche. Lorsque le coÝt associÊ à chaque trajet est Êgal, les flux entrants4 sont rÊpartis entre les destinations disponibles. Cette caractÊristique peut être utilisÊe pour rÊpartir les connexions entre les Êquilibreurs de charge disponibles :

Routage ECMP
Le routage ECMP est utilisĂŠ comme premier ĂŠtage. Les flux sont rĂŠpartis entre les ĂŠquilibreurs de charge L7 disponibles. Le routage est sans ĂŠtat et asymĂŠtrique. Les serveurs frontaux ne sont pas reprĂŠsentĂŠs.

Il y a peu de contrôle sur la rÊpartition des flux, mais le routage ECMP apporte la possibilitÊ de faire Êvoluer horizontalement les deux niveaux. Une mise en œuvre courante d’une telle solution est d’utiliser BGP, un protocole de routage pour Êchanger des routes entre les Êquipements du rÊseau. Chaque rÊpartiteur de charge annonce aux routeurs auxquels il est connectÊ les adresses IP qu’il dessert.

En supposant que vous avez dÊjà des routeurs avec BGP, ExaBGP est une solution flexible pour permettre aux rÊpartiteurs de charge d’annoncer leur disponibilitÊ. Voici un exemple de configuration :

# Test de disponibilitĂŠ en IPv6
process service-v6 {
  run python -m exabgp healthcheck -s --interval 10 --increase 0 --cmd "test -f /etc/lb/v6-ready -a ! -f /etc/lb/disable";
  encoder text;
}

template {
  # Patron pour un routeur IPv6
  neighbor v6 {
    router-id 192.0.2.132;
    local-address 2001:db8::192.0.2.132;
    local-as 65000;
    peer-as 65000;
    hold-time 6;
    family {
      ipv6 unicast;
    }
    api services-v6 {
      processes [ service-v6 ];
    }
  }
}

# Premier routeur
neighbor 2001:db8::192.0.2.254 {
  inherit v6;
}

# Second routeur
neighbor 2001:db8::192.0.2.253 {
  inherit v6;
}

Si /etc/lb/v6-ready est prÊsent mais que /etc/lb/disable est absent, toutes les IP configurÊes sur l’interface lo sont annoncÊes aux deux routeurs. Si les autres rÊpartiteurs de charge ont une configuration similaire, les routeurs leur distribuent Êquitablement les flux reçus. Un processus externe doit gÊrer l’existence du fichier /etc/lb/v6-ready en vÊrifiant la bonne santÊ du rÊpartiteur de charge (à l’aide du point /healthcheck par exemple). Un opÊrateur peut retirer un rÊpartiteur de charge de la rotation en crÊant le fichier /etc/lb/disable.

Pour plus de dÊtails concernant cette partie, jetez un œil sur  Redondance avec ExaBGP . Si vous êtes hÊbergÊs dans les nuages, ce tiers est gÊnÊralement mis en place par votre fournisseur sous forme d’une IP  Êlastique  ou d’un service de rÊpartition L4.

Malheureusement, cette solution n’est pas robuste lorsqu’un changement, prÊvu ou non, se produit. Notamment, lors de l’ajout ou de la suppression d’un Êquilibreur de charge, le nombre de routes disponibles pour une destination change. L’algorithme de hachage utilisÊ par les routeurs n’est pas cohÊrent et les flux sont redistribuÊs entre les rÊpartiteurs de charge disponibles, rompant les connexions existantes :

StabilitĂŠ du routage ECMP 1/2
Le routage ECMP est instable lorsqu'un changement se produit. Un ĂŠquilibreur de charge supplĂŠmentaire est ajoutĂŠ et chaque flux est acheminĂŠ vers un rĂŠpartiteur diffĂŠrent qui n'a pas les entrĂŠes appropriĂŠes dans sa table de connexions.

De plus, chaque routeur peut choisir ses propres chemins. Quand un routeur devient indisponible, le second peut router les mêmes flux diffÊremment :

StabilitĂŠ du routage ECMP 2/2
Un routeur devient indisponible et le routeur restant route diffĂŠremment ses flux. L'un d'entre eux est acheminĂŠ vers un rĂŠpartiteur de charge diffĂŠrent qui n'a pas l'entrĂŠe appropriĂŠe dans sa table des connexions.

Si vous pensez que ce n’est pas un rÊsultat acceptable, notamment si vous devez gÊrer de longues connexions comme le tÊlÊchargement de fichiers, le streaming vidÊo ou les connexions websocket, vous avez besoin d’un niveau supplÊmentaire. Continuez la lecture !

Second niveau : rĂŠpartition L4đŸ”—

Le deuxième niveau est la glue entre le monde sans Êtat des routeurs IP et le pays avec Êtat de l’Êquilibrage de charge L7. Il est mis en œuvre grâce à l’Êquilibrage de charge L4. La terminologie peut être un peu confuse ici : ce niveau route les datagrammes IP (pas de terminaison TCP) mais l’agorithme de rÊpartition utilise à la fois l’IP de destination et le port pour choisir un serveur disponible dans le niveau suivant. Le but de cet Êtage est de s’assurer que tous les membres prennent la même dÊcision d’ordonnancement pour un paquet entrant.

Il y a deux possibilitÊs :

  • rĂŠpartition de charge L4 avec synchronisation des ĂŠtats ;
  • rĂŠpartition de charge L4 avec hachage cohĂŠrent.

La première option augmente la complexitÊ et limite l’ÊvolutivitÊ. Nous ne l’explorons pas5. La seconde option est moins robuste aux changements mais cela peut être amÊliorÊ via une approche hybride avec un Êtat local.

Nous utilisons IPVS, un rÊpartiteur de charge L4 performant fonctionnant dans le noyau Linux. Il est pilotÊ par Keepalived qui dispose d’un ensemble de tests de disponibilitÊ pour dÊtecter les problèmes. IPVS est configurÊ pour utiliser Maglev, un algorithme de hachage cohÊrent crÊÊ par Google. Dans sa famille, c’est un bon algorithme car il rÊpartit les connexions de manière Êquitable, minimise les impacts consÊcutifs à un changement et est particulièrement rapide pour construire sa table de correspondance. Enfin, pour amÊliorer les performances, le dernier niveau (les rÊpartiteurs de charge L7) rÊpond aux clients directement sans impliquer le second niveau (les rÊpartiteurs de charge L4). Ce mÊcanisme est connu sous le nom de direct server return (DSR) ou direct routing (DR).

Second niveau : rĂŠpartition L4
Équilibrage de charge L4 avec IPVS et hachage cohÊrent liant le premier et le troisième niveau. Les serveurs frontaux ont ÊtÊ omis. Les lignes en pointillÊs reprÊsentent le chemin pris par les paquets retour.

Avec une telle configuration, on s’attend à ce que les paquets appartenant à un flux puissent se dÊplacer librement entre les composants des deux premiers niveaux tout en finissant sur le même Êquilibreur de charge L7.

ConfigurationđŸ”—

Une fois ExaBGP configurÊ comme dÊcrit dans la section prÊcÊdente, nous pouvons passer à la configuration de Keepalived :

virtual_server_group VS_GROUP_MH_IPv6 {
  2001:db8::198.51.100.1 80
}
virtual_server group VS_GROUP_MH_IPv6 {
  lvs_method TUN  # Mode tunnel pour DSR
  lvs_sched mh    # Algorithme : Maglev
  sh-port         # Prend en compte les ports TCP
  protocol TCP
  delay_loop 5
  alpha           # Les serveurs sont considĂŠrĂŠs inaccessibles au dĂŠmarrage
  omega           # ExĂŠcute quorum_down Ă  l'arrĂŞt
  quorum_up   "/bin/touch /etc/lb/v6-ready"
  quorum_down "/bin/rm -f /etc/lb/v6-ready"

  # Premier rĂŠpartiteur de charge L7
  real_server 2001:db8::192.0.2.132 80 {
    weight 1
    HTTP_GET {
      url {
        path /healthcheck
        status_code 200
      }
      connect_timeout 2
    }
  }

  # Tous les autres...
}

Les directives quorum_up et quorum_down dÊfinissent les commandes à exÊcuter quand le service devient respectivement accessible et inaccessible. Le fichier /etc/lb/v6-ready est utilisÊ pour signaler à ExaBGP s’il doit ou non publier l’adresse IP du service aux routeurs.

De plus, IPVS doit être configurÊ pour router les paquets appartenant à un flux traitÊ initialement par un autre nœud. Il doit Êgalement continuer de router les paquets quand une destination devient indisponible afin de s’assurer qu’on puisse mettre hors service proprement un rÊpartiteur de charge L7.

# Prend aussi en charge les paquets non SYN
sysctl -qw net.ipv4.vs.sloppy_tcp=1
# Ne PAS rerouter une connexion quand une destination
# devient invalide.
sysctl -qw net.ipv4.vs.expire_nodest_conn=0
sysctl -qw net.ipv4.vs.expire_quiescent_template=0

L’algorithme Maglev sera disponible dans Linux 4.18, grâce au travail de Inju Song. Pour les noyaux plus anciens, j’ai prÊparÊ un rÊtroportage6. Le substituer par un autre algorithme, tel que sh, rend l’ensemble moins robuste.

Le DSR est mis en place avec le mode tunnel. Cette mÊthode est compatible avec les rÊseaux routÊs. Les requêtes sont encapsulÊes vers le nœud choisi à l’aide du protocole IPIP. Cela ajoute un lÊger surcoÝt et entraÎne des problèmes de MTU. Si possible, utilisez une MTU plus grande entre le second et troisième niveau7. Dans le cas contraire, autorisez explicitement la fragmentation des paquets IP :

sysctl -qw net.ipv4.vs.pmtu_disc=0

Il faut aussi configurer les rÊpartiteurs de charge L7 pour accepter ce trafic encapsulÊ8 :

# Configure le tunnel IPIP pour accepter des paquets de n'importe quelle source
ip tunnel add tunlv6 mode ip6ip6 local 2001:db8::192.0.2.132
ip link set up dev tunlv6
ip addr add 2001:db8::198.51.100.1/128 dev tunlv6

Évaluation de la robustesseđŸ”—

Ainsi configurÊ, le second niveau amÊliore la robustesse de l’ensemble pour deux raisons :

  1. L’utilisation d’un algorithme de hachage cohÊrent pour choisir la destination rÊduit l’impact nÊgatif d’un changement, prÊvu ou non, en minimisant le nombre de flux dÊplacÊs vers une nouvelle destination.  Consistent Hashing: Algorithmic Tradeoffs  offre plus de dÊtails sur ce sujet.

  2. IPVS garde localement une table des connexions pour les flux connus. Quand un changement n’impacte que le dernier niveau, les flux existants continuent d’être routÊs correctement en utilisant cette table.

Si nous ajoutons ou retirons un rÊpartiteur L4, les flux existants ne sont pas impactÊs car chaque rÊpartiteur prend la même dÊcision grâce au hachage cohÊrent :

InstabilitĂŠ de la rĂŠpartition L4 1/3
La perte d'un Êquilibreur L4 n'a pas d'impact sur les flux existants. Chaque flèche est un exemple de flux. Les points sont des connexions liÊes à l'Êquilibreur de charge associÊ. S'ils s'Êtaient dÊplacÊs vers un autre Êquilibreur, la connexion aurait ÊtÊ perdue.

Lors de l’ajout d’un rÊpartiteur L7, les flux existants ne sont pas impactÊs non plus car seules les nouvelles connexions sont routÊes vers le nouveau rÊpartiteur. Pour les connexions existantes, IPVS utilise sa table de connexion locale et continue de router les paquets vers la destination originale. De manière similaire, le retrait d’un rÊpartiteur L7 n’impacte que les connexions liÊes à celui-ci. Les autres connexions sont routÊes correctement :

InstabilitĂŠ de la rĂŠpartition L4 2/3
La parte d'un ĂŠquilibreur L7 n'impacte que les flux qu'il hĂŠbergeait.

Seuls des changements simultanÊs sur les deux niveaux mènent à un impact notable. Par exemple, lors de l’ajout d’un Êquilibreur de charge L4 et d’un Êquilibreur de charge L7, seules les connexions dÊplacÊes vers un rÊpartiteur L4 sans Êtat et programmÊes vers le nouveau rÊpartiteur seront rompues. Grâce à l’algorithme de hachage cohÊrent, les autres connexions resteront liÊes au rÊpartiteur L7 adÊquat. Lors d’un changement planifiÊ, cette perturbation peut être minimisÊe en ajoutant d’abord les nouveaux Êquilibreurs L4, en attendant quelques minutes puis en ajoutant les nouveaux Êquilibreurs L7.

InstabilitĂŠ de la rĂŠpartition L4 3/3
Un Êquilibreur de charge L4 et un Êquilibreur de charge L7 reviennent à la vie. L'algorithme de hachage cohÊrent garantit que seul un cinquième des connexions existantes serait dÊplacÊ vers le nouvel Êquilibreur L7. Certains d'entre eux continuent d'être acheminÊs par le rÊpartiteur L4 d'origine qui connait la destination correcte, ce qui attÊnue l'impact.

De plus, IPVS route correctement les messages ICMP vers les mĂŞmes rĂŠpartiteurs L7 que les flux associĂŠs. Cela permet Ă  la dĂŠcouverte de la MTU du chemin de fonctionner correctement sans utiliser de techniques palliatives.

Niveau 0 : rĂŠpartition de charge via le DNSđŸ”—

Il est Êgalement possible d’ajouter un Êquilibrage de charge DNS à l’ensemble. Ceci est utile si votre installation est rÊpartie sur plusieurs centres de donnÊes, plusieurs rÊgions ou si vous voulez diviser une large ferme de rÊpartition de charge en morceaux plus petits. Il n’est pas destinÊ à remplacer le premier niveau car il ne partage pas les mêmes caractÊristiques : la rÊpartition de charge est dÊsÊquilibrÊe (elle n’est pas basÊe sur les flux) et la guÊrison après une panne est lente.

RĂŠpartition de charge globale
Une solution complète de rÊpartition de charge sur deux centres de donnÊes.

gdnsd est un serveur DNS autoritaire avec des tests de disponibilitÊ intÊgrÊs. Il peut servir des zones au format RFC 1035 :

@ SOA ns1 ns1.example.org. 1 7200 1800 259200 900
@ NS ns1.example.com.
@ NS ns1.example.net.
@ MX 10 smtp

@     60 DYNA multifo!web
www   60 DYNA multifo!web
smtp     A    198.51.100.99

L’enregistrement spÊcial DYNA retourne des entrÊes A et AAAA après avoir consultÊ le greffon spÊcifiÊ. Ici, le greffon multfifo implÊmente une surveillance en mode actif/actif des adresses IP de la ferme :

service_types => {
  web => {
    plugin => http_status
    url_path => /healthcheck
    down_thresh => 5
    interval => 5
  }
  ext => {
    plugin => extfile
    file => /etc/lb/ext
    def_down => false
  }
}

plugins => {
  multifo => {
    web => {
      service_types => [ ext, web ]
      addrs_v4 => [ 198.51.100.1, 198.51.100.2 ]
      addrs_v6 => [ 2001:db8::198.51.100.1, 2001:db8::198.51.100.2 ]
    }
  }
}

En mode nominal, une requête A recevra en rÊponse à la fois 198.51.100.1 et 198.51.100.2. Si un test de disponibilitÊ Êchoue, l’ensemble retournÊ est mis à jour. Il est Êgalement possible de retirer une IP volontairement en modifiant le fichier /etc/lb/ext. Par exemple, en mettant le contenu suivant, 198.51.100.2 ne fera plus parti des rÊponses :

198.51.100.1 => UP
198.51.100.2 => DOWN
2001:db8::c633:6401 => UP
2001:db8::c633:6402 => UP

Tous les fichiers de configuration pour la mise en place de chaque niveau sont disponibles dans un dÊpôt GitHub. Si vous voulez reproduire cette configuration à une Êchelle plus petite, il est possible de fusionner le second et le troisième niveau, soit avec des espaces de nom, soit avec une configuration spÊcifique de type localnode. Même si vous n’avez pas besoin de ces services directs, vous devriez garder le dernier niveau : alors que les serveurs frontaux vont et viennent, les Êquilibreurs de charge L7 apportent de la stabilitÊ, rendant l’ensemble plus robuste.


  1. Dans cet article, les  serveurs frontaux  sont les serveurs derrière la couche de rÊpartition de charge. Dans la version anglaise, j’utilise le terme  backend  mais l’Êquivalent français n’est pas très agrÊable. ↊︎

  2. Un bon rÊsumÊ de ce papier est fait par Adrian Colyer. Du même auteur, jetez aussi un œil sur le rÊsumÊ de  Stateless datacenter load-balancing with Beamer . ↊︎

  3. Si vous pensez que cette solution est fragile, n’hÊsitez pas à dÊvelopper votre propre agent. Il pourrait se coordonner avec un registre clÊs/valeurs pour dÊterminer l’Êtat souhaitÊ du serveur. Il est possible de centraliser l’agent à un seul endroit, mais vous risquez d’avoir un problème de poule et d’œuf pour assurer sa disponibilitÊ. ↊︎

  4. Un flux est gÊnÊralement dÊterminÊ par l’IP source et destination et le protocole L4. Alternativement, le port source et le port de destination peuvent Êgalement être utilisÊs. Le routeur hache ces informations pour dÊterminer la destination. Concernant Linux, vous trouverez plus d’informations à ce sujet dans  Celebrating ECMP in Linux . ↊︎

  5. Avec Linux, cela peut être mis en place en utilisant Netfilter pour la rÊpartition de charge et conntrackd pour synchroniser les Êtats. IPVS ne permet qu’une synchronisation actif/passif, limitant l’ÊvolutivitÊ. ↊︎

  6. Le rÊtroportage n’est pas fonctionnellement Êquivalent à la version originale. Consultez le fichier README pour comprendre les diffÊrences. Brièvement, dans la configuration de Keepalived, il faut :

    • ne pas utiliser inhibit_on_failure
    • utiliser sh-port
    • ne pas utiliser sh-fallback

    ↊︎

  7. Au moins 1520 pour IPv4 et 1540 pour IPv6. ↊︎

  8. En l’Êtat, cette configuration n’est pas sÝre. Vous devez vous assurer que seuls les rÊpartiteurs de charge L4 seront en mesure d’envoyer du traffic IPIP. ↊︎

april.png Nouvelles April

Blockchain expliquée à mes grands-parents - Louis Tournayre

Le 23 May 2018 à 05:52:07


Louis Tournayre

Titre : La blockchain expliquée à mes grands-parents
Intervenant : Louis Tournayre
Lieu : Paris - Palais des Congrès - Conférence Devoxx France
Date : avril 2018
Durée : 13 min 43
Visionner la vidéo
Licence de la transcription : Verbatim
Illustration : Theymos from Bitcoin wiki vectorization, travail personnel, Wikipedia. Licence CC BY 3.0
NB : transcription réalisée par nos soins. Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.

Description

Mes grands-parents sont hyper-modernes (pour leur âge). Ils ont de nombreuses qualités et beaucoup de choses à nous transmettre mais quand ils m'ont demandé de leur expliquer la blockchain j’ai longtemps cherché mes mots.

Transcription

Bonjour à tous. Merci d’être là, ça fait super plaisir de voir tout ce monde. C’est super. Bon ! J’ai juste un petit regret il n’y a pas mes grands-parents, c’est un peu pour eux quand même ! L’objectif de ce quickie c’est d’expliquer ce que c’est que la blockchain, de manière simple, sans utiliser de termes techniques, en fait pour des personnes qui ne connaissent pas l’informatique. Donc on ne va pas parler de tout ce qui est cryptographie et autres, ça va rester relativement simple, mais on va expliquer les grands principes.

Qui je suis ? Moi je m’appelle Louis Tournayre, je travaille à Zenika à Lyon. Voilà. C’était la petite pub.

À quoi cela sert ?

Maintenant la blockchain pour l’expliquer je me suis dit que le plus simple c’était de parler de cas concrets, d’expliquer, en fait, en quoi ça servait. Donc quelques cas d’usage.

Le premier. Je ne sais pas si vous vous rappelez, en 2014 il y avait la crise ukrainienne ; vous vous rappelez forcément. On a vu apparaître ces petites pancartes-là avec ces codes. Vous savez ce que c’est ? En fait, ça ce sont des adresses pour qu’on puisse leur transférer de l’argent directement via une cryptomonnaie1 qu’on appelle le bitcoin2. Donc le premier cas d’usage, en fait à la base ça a été créé pour ça, c’est pour faire des transferts d’argent via une monnaie immatérielle, une monnaie virtuelle ; des transferts qui soient sécurisés, qui soient indépendants de banques, d’États, qui soient souples, sans aucune contrainte. Donc ça c’est vraiment le premier cas d’usage. Ce sont des transferts d’argent, des transferts de monnaie virtuelle.

Un autre cas d’usage aussi, qu’on a derrière, en fait c’est parce que la blockchain ça enregistre, c’est d’avoir des registres dans lesquels on mette des données qui soient infalsifiables. Par exemple un état-civil. Un état-civil ne change pas : on naît un jour, à un certain lieu. Ça ce sont des données qui ne doivent pas bouger. Ce sont des données qui sont partagées, auxquelles tout le monde peut accéder. Donc un cas d’usage c’est, par exemple, un registre d’état civil ; typiquement ça s’y prête bien.

Il y a le cadastre aussi qui s’y prête énormément. Vous pouvez dire en France on n’a pas besoin de ça, on a des autorités qui font ça ; oui, en France on a ça ; ce n’est pas le cas partout ! Au Ghana par exemple, ils ont lancé une initiative où ils sont en train de mettre dans la blockchain le cadastre pour que ces données-là soient partagées par tous, on ne puisse pas se dire d’un seul coup tiens ! cette terre-là m’appartient ; non, ça a été enregistré, c’est infalsifiable, c’est consultable, c’est partageable.

On aurait aussi d’autres cas d’usage, par exemple vous vous rappelez, il n’y a pas si longtemps il y a eu la crise du lait. On aurait aimé savoir d’où venait le lait qu’on avait acheté et on pourrait mettre tous les éléments logistiques, faire une traçabilité complète de ce qui a pu se passer à ce moment-là dans la blockchain. Il y a déjà des initiatives qui existent dans ce genre-là, pas spécifiquement pour le lait, mais il y a déjà des sociétés de faire de la traçabilité via de la blockchain.

On pourrait avoir aussi des élections qui sont sans bureau de vote. C’est-à-dire qu’on n’aurait plus besoin d’avoir un lieu physique ; on aurait des espèces de machines à voter mais qui ne seraient pas dans un lieu, qui seraient sûres, qui seraient infalsifiables, qui seraient sécurisables. Il y a quelques initiatives qui vont dans ce sens mais c’est un peu plus long, un peu plus compliqué ; ça soulève d’autres difficultés techniques.

On pourrait avoir, et on commence aussi à avoir aussi, des contrats qui s’activent automatiquement. Qu’est-ce que c’est qu’un contrat ? Le cas qu’on a aujourd’hui : par exemple il y a AXA qui a mis en place – alors que ça ne marche que sur certains vols – une assurance qu’on peut prendre sur le vol qui, en cas de retard, va nous rembourser du montant sur lequel on est assuré. Notre contrat est directement enregistré dans la blockchain, il a des critères de déclenchement et si jamais notre vol a plus de deux heures de retard par exemple, automatiquement il va s’enclencher et on aura notre argent qui sera transféré.

Ça, ce sont quelques cas d’utilisation, mais en fait il y en a plein d’autres.

Imaginez que vous avez un grand livre, ouvert, infalsifiable, que tout le monde peut lire, tout le monde peut écrire. Qu’est-ce que vous en faites ? Il y a vraiment plein de cas d’usage. Là on est au début ; il y a plein de nouvelles choses qui vont arriver autour de ça.

Les principes fondateurs

Maintenant, si on va un peu plus loin sur la blockchain, sur quoi c’est fondé ? Quels sont les principes de base qui font que ça marche. Il y en a trois, trois grands principes.

Le premier principe c’est que un système décentralisé. Ça veut dire quoi un système décentralisé ? En fait, on a un système qui est constitué d’un ensemble d’ordinateurs, un peu comme vous là, vous êtes tous là, vous êtes interconnectés, vous pouvez parler directement entre vous, vous n’avez pas besoin de passer par un tiers pour vous parler. D’accord ? Ce que quelqu’un vous a dit vous pouvez le partager avec quelqu’un d’autre. Vos données, pareil, elles sont distribuées, elles sont répliquées sur toutes les machines, sur toutes les personnes. Et quand il y a une décision à prendre, eh bien il y a un consensus majoritaire qui valide la décision. Ce n’est pas une personne dans son coin, ce n’est pas une autorité de confiance qui dit « c’est comme ça ». C’est vous tous, ici présents, c’est la majorité qui dit « oui, c’est ça, je le valide. »

L’autre point super important c’est que les données sont infalsifiables et inaltérables. En fait, ce fameux livre, ce fameux registre, on ne peut faire que écrire : on ne peut pas modifier, on ne peut pas effacer, on ne pas supprimer des pages. Et on écrit, on écrit, on ne fait que écrire !

Un troisième grand principe c’est que toutes les données, ce livre, tout le monde peut le consulter ; tout le monde peut y accéder ; tout le monde peut le voir. Maintenant il y a des variantes, aujourd’hui on a des blockchains dites semi-privées, voire privées, c’est un détournement de la blockchain originale, mais ça correspond à certains besoins spécifiques.

Comment ça marche techniquement ?

Là je vais essayer, pareil, pas de termes techniques. La blockchain, en fait, il y a deux mots dans blockchain. Le premier c’est « block », c’est-à-dire ce sont des blocs de données. Donc nos données, notre registre c’est ça. Et donc, première chose, on a des données qu’on va écrire. Ces données, elles ont ce qu’on appelle une empreinte. Une empreinte, je vais en parler tout de suite, une empreinte c’est quelque chose en fait d’unique, de répétable. Je ne sais pas si vous voyez, quand je tape quelque chose, l’empreinte est calculée au fur et à mesure et elle change. À chaque fois elle est répétable, c’est-à-dire que si je mets le même texte, la même donnée, j’aurai la même empreinte. Si je change la moindre chose, mon empreinte va changer. Donc cette empreinte, en fait, elle est directement liée à la donnée. C’est une sorte de signature de la donnée. Par contre on ne peut pas, à partir de l’empreinte, calculer la donnée ; on pourrait, mais c’est très compliqué et ça coûte très cher, donc on ne le fait pas.

Et on a ces fameuses empreintes, qui sont là, qui vont nous servir à lier les données. Et c’est là où on a, justement, la seconde partie, la chaîne. On a chaîné les éléments par nos empreintes. Donc notre blockchain ce sont des blocs de données qui sont reliés les uns aux autres via les empreintes. Donc le bloc 1 il a une empreinte qui a été calculée. Le bloc 2 derrière, il rappelle en fait l’empreinte précédente. Il a ses nouvelles données et son nouveau bloc.

Du coup, si on s’amuse à changer un bloc, eh bien on va casser la chaîne parce que ce bloc aura une nouvelle empreinte ; du coup le bloc 3 qui était après, qui référençait le bloc 2, il ne référence que le bloc 2. Il ne référence pas le bloc 2 bis. Donc si on change un bloc, on casse notre chaîne.

Qu’est-ce qui m’empêche moi après de dire c’est intéressant de changer un bloc ; je peux dire voilà, j’ai fait une transaction il y a quelque temps, eh bien j’ai envie de réécrire l’histoire. Cette transaction j’ai touché l’argent, je l’ai retiré, voilà, mais je veux réécrire l’histoire parce que, comme ça, je vais à nouveau avoir mes bitcoins par exemple ou mes ethereums3. Eh bien pour faire ça, il faut que je réécrive tous les blocs suivants. Et là on va se retrouver avec des conflits, on aura une chaîne qui sera historique et puis on aura une nouvelle chaîne, que j’aurais essayé de forger moi-même, qui sera fausse en l’occurrence. Comment est-ce qu’on va décider quelle est la chaîne qui est valide ? Le consensus, en l’occurrence, c’est de se dire on prend la plus grande chaîne et c’est elle qui a raison. Du coup, moi, qu’est-ce qui m’empêche de calculer plus vite, de construire une chaîne plus grande en fait ?

Et c’est là qu’on a un second mécanisme de protection. Le premier mécanisme historique de protection, c’est la preuve de travail, vous pouvez entendre en anglais the proof of work, donc c’est le premier mécanisme, il a presque dix ans aujourd’hui, il est super fiable, mais il y en a d’autres parce qu’il a des inconvénients.

La preuve de travail, le principe c’est qu’on a une opération de calcul qui est très compliquée à réaliser, qui prend du temps, et c’est dans le protocole. Même si on ajoute des machines, on va se débrouiller pour avoir toujours le même temps en complexifiant le calcul. Donc pour arriver à faire une chaîne la plus longue il faut que je sois capable de miner plus vite, d’accord ? Et pour miner plus vite il faut que j’ai des supercalculateurs et, en fait, il faut que j’ai plus de la majorité des ordinateurs qui minent aujourd’hui. Ce qui est complètement improbable, en l’occurrence pour moi.

Si on rentre un peu plus dans le détail sur comment fonctionne notre fameuse preuve de travail. Vous vous rappelez l’empreinte tout à l’heure ? Elle commence par des zéros. Eh bien la difficulté qui est mise, le challenge qui est mis, c’est faire en sorte qu’il y ait une empreinte qui a des zéros et pour ça on a un seul critère, en fait, c’est la donnée. Sauf qu’on ajoute à cette donnée ce qu’on appelle un grain de sable, en anglais, en fait, ça ne s’appelle un grain de sable, ça s’appelle un nonce4, vous verrez parfois ce terme. Ce grain de sable c’est le petit élément qu’on va mettre, qui va perturber mon calcul. Donc on va mettre à la fois la donnée et le grain de sable et on va calculer l’empreinte, pas simplement sur la donnée mais sur ces deux éléments et on va s’amuser à faire varier, en fait, notre grain de sable pour arriver à avoir une empreinte qui commence par des zéros. Pas 4 zéros parce que 4 zéros c’est super facile, enfin super facile ça prend quelques secondes à calculer en fait, mais si on met beaucoup, beaucoup de zéros ça devient de plus en plus long à calculer, le challenge est de plus en plus difficile. Ça c’est le mécanisme de la preuve de travail qui permet de s’assurer que notre empreinte est valide et qu’elle est compliquée à trouver.

Après on a un autre mécanisme, alors il y en d’autres, il y en a plein d’autres, mais il y en a un qui est très intéressant qui s’appelle la preuve d’enjeu qui va bientôt arriver sur Ethereum. Là, le principe, c’est au lieu d’avoir besoin d'une forte puissance de calcul, en fait on a besoin d’avoir de la loyauté. On va valoriser la loyauté ; la loyauté c’est le fait de posséder des monnaies, des token en fait, des jetons. Plus on a de jetons, plus on a une probabilité importante d’arriver à faire le calcul. Et il y a deux critères qui vont jouer, il y a le critère « j’ai beaucoup de jetons » qui va monter notre probabilité, qui va réduire, en fait, le pseudo-challenge ; et puis un second critère qui est le temps, en fait, qui va faire un peu notre aléa, qui va faire que c’est untel ou untel qui va pouvoir valider son bloc.

L’intérêt est assez conséquent, je n’en ai pas parlé, mais quand vous minez, en fait vous consommez énormément d’énergie. Il y a une espèce d’escalade aujourd’hui, il y a de plus en plus de machines qui minent, il y a des fermes de minage, comme des fermes de vaches tout à l’heure pour le lait, et ces fermes de minage consomment énormément d’énergie, donc elles s’installent là où l’énergie coûte le moins cher, donc en Chine — mais même en Chine ça pose des problèmes d’énergie ; dans les pays du Nord où il n’y a pas de problèmes de refroidissement ; mais du coup, ce sont des catastrophes écologiques. Je crois que l’année dernière, grosso modo, la consommation d’énergie qui a été utilisée pour miner du bitcoin c’était l’équivalent de la consommation de l’Irlande. Donc c’est une catastrophe !

Donc ça c’est une alternative qui est absolument intéressante.

Et après

Ça va poser pas mal d’autres questions. Là on a parlé de monnaie, on a parlé de vote, on a parlé de systèmes décentralisés comme les cadastres et autres qui pourraient contenir toutes nos données, cette espèce de super registre en fait. Mais ça se met, si on réfléchit un peu plus loin, à changer notre système de gouvernance. Aujourd’hui on a une autorité centrale avec des personnes qu’on choisit, qu’on élit, qui nous représentent, mais on a ces points centraux et on a cette chaîne de confiance qui est basée sur des autorités. Demain, avec ce qu’apporte la blockchain, ces systèmes de confiance qui sont centralisés, techniquement on n’en a plus besoin. Ce n’est plus une autorité, on a un système complètement décentralisé avec un consensus qu’on décide d’adopter, tous, un consensus majoritaire qui détermine les conditions qui vont faire qu’on va accepter ça ou ça.

Donc demain, quels seront les impacts que ça aura sur la société ? Qu’est-ce que ça va changer ? Il y a de pleins champs des possibles. Si on essaie de se projeter — aujourd’hui moi je ne sais pas ce que ça va faire —, mais je pense que ça va être une prochaine révolution. De la même manière qu’Internet a changé beaucoup de choses pour nous, la blockchain5 va certainement changer beaucoup de choses, va certainement apporter beaucoup de choses nouvelles, avec d’autres difficultés, bien évidemment, d’autres challenges qu’on aura à régler, mais il y a plein de choses à faire, il y a plein de façons de voir les choses.

Je vous remercie de votre attention. J’ai été un peu plus court que ce que je pensais.

[Applaudissements]

22 May 2018

april.png Nouvelles April

À quand un Nobel pour une Intelligence artificielle ?

Le 22 May 2018 à 14:04:38


Laurence Devillers - Jean Ponce - Benjamin Bayart - Nicolas Martin

Titre : À quand un Nobel pour une Intelligence artificielle ?
Intervenants : Laurence Devillers - Jean Ponce - Benjamin Bayart - Nicolas Martin
Lieu : Paris - Grand Amphithéâtre de la Sorbonne
Date : mars 2018
Durée : 1 h 17 min 30
Visionner la vidéo
Licence de la transcription : Verbatim
Illustration : copie d'écran de la vidéo
NB : transcription réalisée par nos soins. Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas forcément celles de l'April.

Description

Un algorithme est-il condamné à rester un « idiot savant » ? Quelles perspectives pour la recherche en robotique dans les années à venir ? Le développement du deep learning marque-t-il un premier pas vers l’avènement d’une intelligence artificielle générale ?

Transcription

Nicolas Martin : Bonjour à toutes et à tous. Merci d’être venus aussi nombreux à cette quatrième table ronde consacrée aux « Révolutions de l’intelligence ». Nous allons donc parler de l’intelligence artificielle avec nos trois invités ici présents et de la question de cette notion d’intelligence puisque si le très regretté Stephen Hawking, dont personne dans cette docte assemblée que vous représentez ici ne peut mettre en doute, précisément l’intelligence, eh bien Stephen Hawking déclarait à propos de l’intelligence artificielle : « Les formes primitives d’intelligence artificielle que nous avons déjà se sont montrées très utiles, mais je pense que le développement d’une intelligence artificielle complète pourrait mettre fin à l’humanité. » Et il précise : « Une fois que les hommes auraient développé l’intelligence artificielle, celle-ci décollerait seule et se redéfinirait de plus en plus vite. Les humains, limités par une lente évolution biologique, ne pourraient pas rivaliser et seraient dépassés. »

Voilà donc cette vision assez cataclysmique de l’intelligence artificielle et Stephen Hawking n’est pas le seul à l’avoir cette vision-là, à mettre en garde l’humanité contre l’émergence de ce qu’on appelle une IA forte ou une IA générale qui nous ferait donc plier, à nous pauvres humains, le genou. Avec lui, on peut trouver Elon Musk, le patron de SpaceX et de Tesla, Bill Gates l’ancien patron et cofondateur de Microsoft, Mustafa Suleyman de la société DeepMind et j’en passe. Alors faut-il croire ces esprits éclairés ? Faut-il s’inquiéter du développement exponentiel de la puissance de calcul des machines ? Et, en suivant la loi de Moore, se préoccuper de l’avènement prochain de ce qu’on appelle une singularité informatique ? Ou peut-on, à l’inverse, dormir sur nos oreilles en constatant que certes, battre les champions du monde du jeu de go et d’échecs c’est plutôt pas mal, mais que nous ne sommes pas vraiment menacés tant que les faits d’arme de l’intelligence artificielle sont de gagner une partie de Jeopardy! face à des êtres humains. Bref, pour résumer, la pensée de Gérard Berry qui est informaticien, professeur au Collège de France et médaille d’or du CNRS, « l’ordinateur n’est pas dangereux par supplément de conscience mais parce qu’il est complètement con. »

[Rires]

Alors prix Nobel ou bonnet d’âne, c’est ce dilemme que nous allons tenter d’élucider au cours de cette heure et en compagnie de nos trois invités. Bonjour Laurence Devillers.

Laurence Devillers : Bonjour.

Nicolas Martin : Merci beaucoup d’être avec nous, merci à tous les trois d’ailleurs. Vous êtes professeure d’informatique à Sorbonne Universités, chercheuse au Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur. Bonjour Benjamin Bayart.

Benjamin Bayart : Bonjour.

Nicolas Martin : Vous êtes président de la Fédération des fournisseurs d’accès à Internet associatifs1 et cofondateur de La Quadrature du Net2 et bonjour Jean Ponce.

Jean Ponce : Bonjour.

Nicolas Martin : Vous êtes professeur à l’École normale supérieure, en détachement à Inria où vous dirigez d’ailleurs la collaboration avec l’université de New-York, NYU.

Pour commencer est-ce que finalement tout cela ne serait pas simplement, bêtement pourrais-je dire, un problème de terminologie ? C’est-à-dire que pour parler d’intelligence artificielle, est-ce qu’il faut parler d’intelligence ? Laurence Devillers.

Laurence Devillers : merci. Moi j’aurais tendance à dire que l’intelligence artificielle, c’est un terme qui a été proposé par Alan Turing en 1950, c’est un terme qui engage les fantasmes, c’est-à-dire qu’on mélange l’intelligence humaine avec des artifices que l’on crée et, du coup, il y a beaucoup de fantasmes qui sont donnés dans les médias et peut-être donnés aussi par des grands noms. Il faut faire le tri de tout ça. C’est-à-dire qu’il y a plusieurs raisons pour lesquelles des chercheurs éminemment connus tiennent des propos qui vont trop loin, pour moi, sur cette intelligence présupposée des machines ou dans le futur. Personne ne sait rien du tout de ce qui va se passer après donc, pour l’instant, on est sur une IA qu’on dit faible, c’est-à-dire pas du tout consciente comme le dit effectivement notre collègue du Collège de France. Pour autant, il faut se préoccuper des influences qu’auront ces machines dans notre vie de tous les jours.

Stephen Hawking avait une position un peu particulière du fait de son terrain de recherche, l’astrophysique et, pour moi, il a une position de chercheur pur. Et dans son esprit c’est sûrement à des années-lumière qu’il réfléchit sur la puissance de ces machines.

La raison pour laquelle Elon Musk, lui, parle de l’intelligence artificielle et de la singularité et du besoin que l’on ait de créer des implants cérébraux, de mettre des implants cérébraux dans la tête de nos enfants à travers ses projets Neuralink, c’est autre chose. C’est pour moi, plutôt, une espèce de course, au fond, à la puissance économique. C’est-à-dire que, avec ces peurs, il va lever des fonds aussi et lui permettre d’aller encore plus loin. Alors il est très fort, il fait effectivement des choses magnifiques avec les plus grands cerveaux de la planète, comme cette voiture, comme ce qu’il a fait sur le spatial également, mais, sur l’intelligence artificielle, je pense que là, il n’y a pas les mêmes motivations que celles, en tout cas, de Stephen Hawking. Donc il faut y faire très attention à qui dit quoi.

Et en ce moment, il y une espèce de mélange des genres. Donc rassurons-nous sur le fait que la singularité, en tout cas pour la plupart des chercheurs, est quelque chose qui n’est absolument pas certain du tout. L’idée de l’intelligence, là, qu’on est en train de mettre sur les machines, c’est de recopier, finalement, des capacités cognitives. Or, nous sommes ce que nous sommes parce que nous avons un corps. Et donc l’espèce de conatus que décrit très bien Spinoza, pour les philosophes qui sont dans la salle, on ne sait pas le mettre dans la machine. Donc la machine n’a pas de détermination propre, n’a pas de conscience, n’a pas d’émotions et ne comprend pas grand-chose. Donc je suis plutôt de l’avis de Berry qui le décrit, en allant très loin dans « il est très con ». Ce qui n’est pas tout à fait vrai, parce que les systèmes qu’on est capables de faire avec de l’intelligence artificielle faible sont capables d’être meilleurs que nous sur des tâches très pointues. On l’a vu avec les jeux de go, etc., mais j’en donne un exemple et je vous redonne la parole. Sur la perception, par exemple, c’est facile de comprendre que les machines vont être meilleures que nous. J’ai une bande audio, je n’entends pas les sons très faibles, je n’entends pas les sons très hauts ; la machine peut les entendre. Quand je vais vieillir, mon audition va être moins bonne, la machine peut être meilleure, peut m’aider. Sur tout ce qui est très fin dans les images aussi : elle doit chercher dans les IRM, par exemple, des mouvements, des choses qu’on ne voit pas, que l’humain ne voit pas. Donc il faut comprendre que les spécificités de ces machines, quand on les utilise sur des champs très serrés, sont extraordinairement utiles pour notre société, pour aller plus loin, pour augmenter nos capacités et, finalement, en complémentarité c’est très bien. C’est ça la confusion qui est faite pour l’instant, c’est qu’on mélange un peu tous ces systèmes dans l’intelligence artificielle. On réexpliquera un peu plus, je pense, tout ça.

Nicolas Martin : C’est-à-dire qu’être effectivement très pointu et très efficace dans des domaines extrêmement précis, est-ce que l’on peut dire, Jean Ponce, que c’est être intelligent ?

Jean Ponce : Je ne sais pas exactement ce qu’est l’intelligence. Je pense que parler d’intelligence artificielle c’est important puisqu’on vient de donner un nom, un domaine qui a une importance scientifique, économique très importante. Je pense effectivement que les machines, aujourd’hui, ne sont pas intelligentes dans le sens dont la plupart des gens aimeraient y penser : elles ne prennent pas de décisions réellement ; elles n’ont pas de conscience ; elles n’ont pas de bon sens, etc. Je n’irai pas jusqu’à essayer de deviner quelles sont les motivations d‘Elon Musk ou de Stephen Hawking, je ne sais pas, mais je suis d’accord avec Laurence. Ça fait longtemps que je travaille dans le domaine ; j’ai connu l’intelligence artificielle des années 80 qui n’était pas nécessairement le mot le plus respecté à l’époque dans le monde, et les gens parlaient de singularité déjà à l’époque. Moi, du point de vue scientifique, je ne vois aucune évidence qu’on soit plus près de la singularité aujourd’hui qu’on était il y a 20 ans.

Nicolas Martin : Peut-être qu’il faut juste repréciser pour notre public ce qu’on entend par singularité informatique.

Jean Ponce : Bien sûr. C’est le jour où la machine va devenir intelligente, elle sera comme vous et moi et peut-être qu’elle viendra tous nous détruire, etc. Bon ! Si un jour ça arrive, je ne sais pas quelles seront les conséquences, il n’y a pas de raison particulière de penser qu’une machine soit méchante plutôt que gentille, on ne sait pas, mais surtout il n’y a aucun indice qui nous dise que ce moment soit proche ou qu’il arrive un jour ou l’autre ; on ne sait pas. Et s’il arrive, ce sera probablement dans très longtemps. Donc je ne pense pas qu’il faille s’en faire beaucoup à ce niveau-là. Mais effectivement, encore une fois comme disait Laurence, l’intelligence artificielle, qu’elle soit appliquée au niveau de l’apprentissage, au niveau de la perception visuelle, au niveau de la compréhension du langage, la traduction, etc., commence à marcher très bien. Je ne suis pas totalement sûr que ça marche mieux que nous, comme on le dit souvent, des performances surhumaines, etc., mais c’est un domaine qui est extrêmement intéressant, où il y a eu des progrès gigantesques dans les quelques dernières années et qui va avoir des retombées économiques, je l’espère positives, très importantes dans le futur.

Nicolas Martin : Benjamin Bayart, ça veut dire que vous allez tous être d’accord autour de cette table pour dire que finalement intelligence c’est un abus de langage, qu’il faut arrêter de parler d’intelligence artificielle, qu’il faut trouver un autre mot, une autre terminologie ?

Benjamin Bayart : Sur le fait que c’est un abus de langage, oui, je pense qu’il y a unanimité ; il n’y a pas de doute ! Mais en fait, quiconque a fait de l’informatique et connaît le secteur de l’informatique qu’on appelle intelligence artificielle sait que ce n’est pas de l’intelligence du tout. Je dirai un ordinateur c’est particulièrement doué pour trier les grains de riz du plus lisse au plus râpeux, parce qu’il voit mieux que nous, parce qu’il va plus vite et parce qu’il a des petites pinces pour les manipuler, etc. Mais on s’en fout ! Le mot intelligence ! Pfff !

En fait, ce que je n’aime pas dans cette approche-là, c’est un truc dual. D’une part on met des fantasmes dans la tête des gens et c’est ce que dit Stephen Hawking : « Quand la machine sera véritablement intelligente, nous serons dépassés ». Oui, effectivement. Sitôt que Dieu redescendra sur terre, nous serons dépassés ; il n’empêche, ce n’est pas prévu demain. Ça pourrait se produire, mais, pour le moment rien ne le prédit et aucun élément scientifique ne l’accrédite. Le deuxième élément, c’est que derrière il y a un putain de business, il y a des dizaines de milliards de dollars ou d’euros, selon la monnaie que vous préférez, et il y a des gens qui se battent avec tout ça. Ça c’est plutôt l’approche d’Elon Musk. Et moi, ce qui m’embête, c’est qu’entre les deux, entre le volet business et le fantasme, on a enlevé le volet politique. En fait, ce qu’on appelle une intelligence artificielle, c’est un ordinateur qui fait des statistiques et qui, avec ça, fait du travail ; qui, avec ça, fait des choses ; qui, avec ça, participe à l’économie ; qui, avec ça, participe à une logique sociale, de classe, et que c’est vachement intéressant. Et qu’en fait, le fait que vous travailliez gratuitement à produire les données qui permettent de « former », entre guillemets, qui servent de base d’apprentissage à ces intelligences, ça c’est intéressant ! En fait, quand vous dites « cette image est un chat, cette image est un chien, cette image est une table », ça permet aux ordinateurs d’apprendre à reconnaître les images.

Nicolas Martin : Quand on vous demande de signifier que vous n’êtes pas un robot, précisément.

Benjamin Bayart : Par exemple.

Nicolas Martin : Dans un site internet, en disant « je ne suis pas un robot », je dois reconnaître les panneaux d’indication, les panneaux publicitaires sur cette image-là.

Benjamin Bayart : Oui. Donc ça, typiquement, c’est du travail que vous fournissez gratuitement à des entreprises qui apprennent, qui s’en servent pour fabriquer des intelligences artificielles, qui s’en servent pour fabriquer des programmes d’ordinateur et donc des machines qui ne vont pas vous appartenir, qui seront leur propriété privée.

Derrière, il y a des logiques sur qui domine, sur qui opprime ; c’est toujours un grand duel dans l’informatique. L’informatique émancipe parce que ça permet de faire plus de choses, et l’informatique opprime, toujours. L’ordinateur sert toujours à créer un cadre normatif et donc un cadre oppressif.

Il y a deux exemples que j’adore citer, c’est quand on a commencé à informatiser les hôpitaux. Il y a plein de gens qui se disaient, de manière naïve comme moi, « c’est fabuleux, les dossiers des patients seront à jour, ils seront informatiques, on va arrêter de les perdre, il n’y aura plus de taches de café dessus, ce sera fabuleux ! » Et puis j’ai entendu dans un congrès de psychiatres ce que disent les médecins c’est : « Ah, on sait enfin ce que font les infirmières, on va pouvoir les surveiller ; on va pouvoir minuter la toilette des patients ». Le but, un des buts, vous voyez il y a cette dualité, c’est ou bien émanciper, c’est-à-dire qu’il n’y a plus besoin de transporter des cartons de dossiers, etc., ou bien surveiller.

L’autre exemple que j’adore citer c’est le formulaire ; et pourtant c’est bête, on n’est pas dans l’intelligence artificielle. Vous créez un site web, les gens doivent s’inscrire, ils donnent monsieur-madame, nom, prénom. Eh bien ça veut dire que dans le sélecteur où vous mettez monsieur-madame, vous forcez le choix. Il n’existe que monsieur et madame. Vous forcez les gens à avoir un prénom et un nom. C’est extrêmement occidental comme point de vue. Vous voyez ? Tout ça c’est une façon en fait… La norme, quand elle existe en termes juridiques ou en termes humains, elle est négociable. Sitôt qu’elle est informatique, elle ne l’est plus.

Nicolas Martin : Laurence Devillers.

Laurence Devillers : Mais elle existe déjà dans la société la norme, il ne faut pas non plus… Moi je rajoute, parce que je n’aime pas tellement quand c’est binaire, ni quand c’est ternaire, j’aime bien quand il y a plein de solutions. L’informatique c’est une chose. L’intelligence artificielle va nous permettre, en tout cas, de voir les stéréotypes, de voir les discriminations qui existent dans la société, de voir pas mal de choses qu’on ne quantifie pas. On le sait maintenant, les femmes gagnent moins que les hommes, il y a moins de données de tels types de population, il y a des manipulations qui sont faites ; l’informatique, la quantification, nous permet de voir ça et peut-être d’utiliser mieux, en fait, l’agencement de nos données pour créer des modèles moins racistes, moins discriminants, moins sectaires. Ça c'est un aspect qu'il ne faut pas négliger. Pardon ?

Public : Inaudible.

Nicolas Martin : On va continuer la table ronde et on aura une séance de questions-réponses tout à l'heure. Vous terminez là-dessus.

Laurence Devillers : Qu'est-ce qui est l'horreur ? Je recommence parce que je ne me suis pas fait comprendre parce que la réaction est totalement inappropriée, ça veut dire que vous n'avez pas compris. Je disais juste que la quantification permettait de se rendre compte aussi de certains stéréotypes et les hommes en général nous disent tous : « Les femmes sont incluses dans la société ; il y a une mixité, ça existe, ça commence à émerger ». C'est faux si on quantifie. C'est faux si on regarde ce qui se passe dans les tables rondes : on est toujours moins que des hommes, etc. Donc voilà ! La quantification c'est assez intéressant quand même.

[Applaudissements]

Deuxième point. Si vous avez suivi un peu les discours — moi j'ai beaucoup travaillé avec Cédric Villani, il viendra vous parler du rapport qui a été fait3 effectivement —, mais il y a un axe, une vision qui est développée où on voudrait que l’Europe soit justement garante de valeurs et que ces systèmes qu’on essaie de mettre en œuvre ne soient pas pour nous enfermer, nous surveiller exclusivement puisqu’on les fait ces systèmes. On pourrait avoir un peu de liberté, aussi, pour essayer de pousser vers une IA collective, une IA solidaire, des choses qui seraient utiles dans la société. Au lieu de faire des machines et des performances extraordinaires sur différents systèmes, on devrait se poser le problème de quelle est l’utilité pour nous ? Comment on les met en œuvre ? À quel moment on les met en œuvre ? Comment on les évalue et comment on va vérifier que ces machines sont, effectivement, éthiques quelque part ? C’est-à-dire que les gens qui les ont faites ont une certaine déontologie.

Et aussi, il y a un autre aspect très important, c’est rendre les gens en capacité de comprendre ce que font ces machines. Donc il y un effort énorme qui sera fait aussi de formation, de divulgation de ce que sont ces objets ; d’utilisation, d’appropriation par l’expérimentation. On veut faire des laboratoires ouverts au public, aux citoyens. Là on vous parle, mais vous pouvez dire « ils disent n’importe quoi ! » D’accord ! Si vous êtes à même de tester les systèmes, qu’on vous montre ce que font ces systèmes et qu’est-ce qu’il y a derrière, déjà à l’école, à la maternelle même on pourrait faire des petites choses très simples qui permettraient de mieux appréhender ces systèmes qui envahissent toute la société. Donc il faut, de toutes façons, monter en compétences dessus et ça permettra aussi d’être plus dynamiquement sur les nouveaux travaux, les nouveaux métiers. Il y en aura énormément de nouveaux.

Donc on est en train de vivre un grand changement pour lequel je trouve que la vision qui a été donnée par le président de la République avant-hier au Collège de France était extrêmement positive pour nous, pour la société, en parlant énormément d’éthique, tout en disant « c’est grâce à ça qu’on aura un levier économique fort par rapport à d’autres empires, l’Asie, les États-Unis qui nous envient aussi ». Nous avons, nous, des collègues chercheurs américains qui disaient : « Vous avez de la chance en France qu’on essaie de penser au bien-être des gens et pas seulement au PIB », ce que disait Raja Chatila dans la table précédente.

Nicolas Martin : J’aimerais qu’on essaie de revenir ou de recentrer nos discussions autour du thème qui est le nôtre à savoir cette notion d’intelligence artificielle, de ce que signifie être intelligent pour une machine et, en même temps, ce que vous venez d’aborder l’un et l’autre me semble recouper un point qui est intéressant, Jean Ponce, c’est celui du biais de programmation. C’est-à-dire qu’à partir du moment où l'on programme une machine en tant qu’être humain, est-ce qu’on ne transmet pas à cette machine, que ce soit par la main du programmateur ou quand on lui donne une base de données telle qu’Internet, finalement, de reproduire des biais humains et donc, du coup, d’être faussée dans son fonctionnement disons, avec tous les guillemets qu’il faut, « intellectuel » ?

Jean Ponce : Je vais essayer de faire court.

Nicolas Martin : Prenez votre temps. On a encore un peu de place.

Jean Ponce : Déjà les trucs d’éthique, j’ai toujours un petit problème avec ça. Il faut se rendre compte, à nouveau, que les machines ne sont pas intelligentes. Le problème d’éthique ne se pose pas, à mon avis, au niveau de l’algorithme, du programme ; il se pose au niveau du programmateur, de l’industriel, du décideur, du politique. Et là, évidemment, il y a des problèmes éthiques extrêmement importants, y compris au niveau des biais, etc. Mais ce n’est pas, à mon avis, au niveau de la machine, de l’algorithme.

Deuxièmement. En ce qui concerne les biais, une grande partie de ce qui fait le succès de l’intelligence artificielle aujourd’hui c’est ce qu’on appelle souvent l’apprentissage machine. L’idée fondamentale de l’apprentissage machine, en tout cas de ce qu’on appelle l’apprentissage supervisé, c’est qu’on va vous donner des données, par exemple des images, et puis des labels, des étiquettes – par exemple chien, chat, pomme, etc.–, et puis vous allez voir des tas d’images comme ça, des tas de labels et puis vous allez avoir votre machine qui va être entraînée ; ça veut dire vous allez avoir un programme qui va bouger des boutons pour modifier ces paramètres de manière à pouvoir prédire au mieux les labels qu’on lui a montrés.

Ensuite, une fois qu’on a entraîné la machine, on va donner à cette machine une nouvelle image, une nouvelle tâche, elle va prédire le label en question. Et le principe scientifique de l’apprentissage est que pour que ça marche il faut que les données qu’on utilise au moment du test, du déploiement de la méthode, aient la même distribution que les données qu’elle a vues d’abord. Ça veut dire que, par nature, les résultats qu’on va avoir sont toujours biaisés par les données qu’on a données en entrée. Ce n’est pas de la magie ! On ne peut pas demander à une machine d’inventer « ah tiens, là ce n’est pas gentil, il y a du biais ! » Par nature, l’apprentissage ça marche comme ça.

Après, encore une fois, c’est au niveau des politiques, des décideurs. Imaginons un grand de l’Internet qui se rend compte, après avoir déployé le système, qu’effectivement les données sur lesquelles il a entraîné étaient biaisées, il se rend compte que ça pose des problèmes éthiques, des problèmes moraux, etc., à ce moment-là c’est à lui d’aller chercher des données qui vont permettre de corriger ce biais. Mais encore une fois, la machine elle-même, l’algorithme d’apprentissage, l’algorithme de l’intelligence artificielle en général, n’est pas capable de faire lui-même. Le mieux qu’il puisse faire, c’est résoudre le problème qu’on lui a donné.

Nicolas Martin : Benjamin Bayart, cette question du biais est importante notamment quand on parle du big data, notamment quand on parle d’importantes quantités de données que ces algorithmes vont aller chercher, vont analyser. Sur Internet, par exemple, on utilise souvent l’exemple du chatbot qui a été déployé par Microsoft, qui a été lancé sur Twitter, qui était donc un agent conversationnel qui était censé apprendre tout seul en discutant avec les utilisateurs de Twitter et qui s’est retrouvé, au bout d’à peine une petite heure ou de quelques minutes en tout cas, à tenir des propos racistes, néonazis, à essayer de rétablir l’héritage d’Hitler. Enfin bref ! Un résultat catastrophique a poussé Microsoft à interrompre immédiatement l’expérience. Aujourd’hui est-ce que le minage de ces données à une échelle, pourtant, qui devrait permettre d’invalider les biais, parce qu’il y a tellement de données qu’on peut se dire que statistiquement, finalement, il n’y a pas plus de biais, est-ce que finalement ce n’est pas une fausse route, qu’elle continue à avoir des biais dans la programmation ?

Benjamin Bayart : Il a tenu presque 24 heures avant de devenir vraiment complètement timbré, le robot de Microsoft. En fait la question est super perverse.

Nicolas Martin : Merci ! Je n’en ai pas d’autres, méfiez-vous !

[Rires]

Benjamin Bayart : Ce n’est pas de vous que ça vient. En fait, c’est ce que disait Jean Ponce à l’instant. La machine aura autant de biais et aussi puissants que dans les données qu’on lui a présentées pour apprendre. C’est aussi simple que ça. Si on prend des données biaisées, typiquement si on entraîne un algorithme de reconnaissance de visage à ne voir que des visages blancs, eh bien quand la machine qui a appris comme ça verra un visage autre que blanc, elle répondra « ceci n’est pas un visage ». Voilà un biais. Alors ça on s’en rend compte, on fait « non, ça c’est inacceptable ! » OK. Sur la terre il y a des milliards de gens qui ne sont pas blancs donc on va lui présenter des visages de toutes les couleurs. Du coup, on prend comme données quelque chose qui reflète, on passe par des sociologues pour faire des mesures, pour avoir dans tel pays on se maquille comme ça, dans tel autre on se coiffe comme ci, on prend un truc qui représenterait parfaitement l’humanité et on apprend tout ça à la machine. Eh bien il se trouve que l’humanité, en ce moment, elle est sexiste et elle est raciste. Alors vous pouvez tordre ça comme vous voulez, tant que vous représentez l’humanité, eh bien vous faites une machine qui est sexiste et raciste. Mais si vous dites : « Ah non, ça ce n’est pas bien » donc je vais truquer les données non pas pour correspondre à l’humanité, mais pour correspondre à l’idéal éthique défini par dieu seul sait qui mais espérons que ce ne soit pas l’extrême droite.

[Rires]

Eh bien oui ! Vous créez une espèce de machin complètement virtuel, éthique, tout propre, clean, machin, vous l’apprenez à l’ordinateur. Mais quand l’ordinateur va vous parler, vous n’allez rien comprendre ! Il a des références culturelles qui ne sont pas les vôtres. Il a des biais culturels qui ne sont pas les vôtres. Il ne comprend pas ce que c’est le sexisme, du coup il y a plein de remarques passives, agressives, que vous faites il va faire « mais qu’est-ce qu’il raconte ! » L’ordinateur ne vous comprendra pas. Il n’arrivera pas à interpréter vos propos. Vous ne comprendrez pas les réponses. Donc en fait, on a un problème et le problème n’est pas l’ordinateur. Le problème est l’intelligence humaine. L’intelligence humaine pose des biais dans les données. Comment on les traite ? Et ça, ce n’est pas un problème de chercheur en informatique, c’est un problème de sociologie.

Laurence Devillers : Je peux répondre à ça.

Nicolas Martin : Une question. Bien sûr Laurence Devillers. Une question, je vais reformuler ce que je demandais à Benjamin Bayart. Est-ce que face à la quantité de données qui sont exploitables aujourd’hui sur Internet, la nature statistique de cette quantité n’est pas justement un palliatif à ces biais que définit Benjamin Bayart ? Il y a tellement de données, finalement, qu’on peut se dire que…

Laurence Devillers : Non. Non ! On dit souvent big data, mais en fait on devrait dire rich data. C’est-à-dire que les big data ça ne veut pas dire qu’elles sont représentatives de la mixité d’un ensemble de choses. C’est juste celles qui sont là. Donc méfions-nous de ça, du grand big data qui est très riche.

Je reviendrai un petit peu sur les algorithmes, parce que lorsqu’on regarde Tay de Microsoft qui a effectivement appris à tenir des propos racistes, au début il disait : « J’aime les humains », et puis à la fin de la journée, en 24 heures, il disait : « Vive les nazis ! » Bon ! Les internautes avaient discuté avec cette machine. Elle utilisait exactement ce que racontait Raja Chatila tout à l'heure, c'est-à-dire du reinforcement learning. OK ! Du renforcement par des mercis, des récompenses. Or, une des récompenses qui était donnée par les ingénieurs qui font ces machines, c’est de répéter ce qui engage les gens, par exemple. Et effectivement, parler de sujets qui sont un peu polémiques et politiques, ça engage les gens dans la discussion. Donc à la fin, la machine a compris qu’il fallait parler de ça. Elle l’a appris toute seule ça ! Donc vous voyez c’est un biais, là, non pas de l’algorithme, mais des récompenses, c’est-à-dire des mesures, des seuils que l’on met dans ces algorithmes. Et c’est pour ça qu’on essaie de développer, les chercheurs, plusieurs plateformes avec des outils, avec des bibliothèques d’outils sur Internet, pour que tout le monde puisse avoir idée des capacités de ces machines. On fait ça dans un institut de convergence qui s’appelle DATAIA à Paris-Saclay, c’est fait à Stanford, c’est fait un peu partout dans le monde ; il y a énormément de travail sur ces biais des algorithmes ; dans IEEE [Institute of Electrical and Electronics Engineers] dont parlait Raja Chatila il y a aussi des groupes qui travaillent là-dessus.

C’est important de comprendre que oui, il va falloir manipuler ces données avec vraiment de la rigueur. On parle d’éthique, on pourrait parler d’éthique pendant mille ans, ce n’est pas le problème. Soyons pragmatiques. C’est devant des systèmes qu’est-ce qu’on veut en faire ? Comment on les évalue ? Quelles sont les bornes qu’on veut donner ? Et ce ne sont pas des sujets simples. Ce sont des sujets que les chercheurs sont en train d’aborder ; on est en train de pousser les industriels à les aborder aussi et ils sont conscients que ce sont des leviers de confiance. Ce sont des leviers qui vont permettre aux gens aussi de s’approprier ces techniques et d’avoir envie de les utiliser. Si on vous dit « tout est biaisé » vous n’allez sûrement jamais utiliser l’informatique. Mais dire « ayez confiance aussi dans le fait que c’est très utile dans certains cas et qu’on va encadrer de la meilleure façon possible », sans que ça soit l’extrême droite, je ne vois pas pourquoi vous parlez de ça. L’idée c’est justement de réfléchir dans un sens social et large et pas de parler de déviances politiques.

Nicolas Martin : Jean Ponce.

Jean Ponce : Je ne suis pas sûr que je sois très qualifié, ni nous trois, enfin nous deux en tout cas, chercheurs, pour parler du côté social, sociologique, etc. Pour le chatbot ou je ne sais pas quoi de Microsoft, il faut se souvenir aussi qu’il a été attaqué. Ce n’est pas qu’il était méchant, il a été attaqué par des gens malicieux qui connaissaient un peu les faiblesses de ce genre de système. Et un des problèmes des systèmes d’IA quand ils vont être déployés, c’est qu’effectivement il y a des risques qu’ils soient attaqués par des gens qui comprennent à peu près comment ça marche et qui, du coup, essayent de les contrarier, disons.

Pour ce qui est du biais des données, il y a des biais auxquels vous ne pensez sans doute pas. Imaginez que vous vouliez faire naviguer une voiture. Pour faire naviguer la voiture il faut qu’elle voie, dans un certain sens, ce qui se passe sur la route, qu’elle dise « tiens ça c’est de la route, ça c’est du trottoir, ça ce sont des gens, ça c’est un machin, etc. ». Donc la manière dont ça marche c’est qu’on les entraîne, comme je disais tout à l’heure, en leur montrant des images, en disant « ça c’est une personne, etc. » Donc il va y avoir des biais tout simplement parce que quand on fait ça, on ne va être jamais être capable de capturer toute la diversité de l’univers. Par exemple, en extérieur, il pleut, il neige ; il y a des gens qui courent en traversant la rue, etc. Et donc il y a des biais inhérents, là-aussi, dans un truc beaucoup plus terre à terre, ce n’est pas un truc éthique ni rien du tout, c’est une voiture qui va marcher plus ou moins bien, parce qu’encore une fois, elle est supposée marcher dans des conditions qui sont similaires à ce qu’elle a vu. Donc il y a des gros problèmes – je pense Laurence parlait de fiabilité, etc. – il y a des gros problèmes qui sont des problèmes scientifiques d’estimer la fiabilité des systèmes d’IA pour pouvoir prédire à quel point ils vont bien marcher et comment, quand on va les déployer dans des conditions où on ne contrôle pas exactement toutes les conditions, par exemple une voiture ou je ne sais pas quoi d’autre. Donc ça ce sont des vrais problèmes scientifiques sur lesquels les gens commencent à travailler, n’ont pas encore énormément de résultats, mais qu’il va falloir résoudre pour que les gens, justement, puissent avoir confiance dans ces systèmes et puissent les déployer de manière intelligente.

Nicolas Martin : Pour avancer, pour poser un autre problème lié, justement, à cette notion d’intelligence de l’intelligence artificielle, aujourd’hui, ce que vous décrivez les uns les autres, il y a un consensus relativement large autour du fait que ces algorithmes sont ce qu’on appellerait des idiots savants, c’est-à-dire qu’ils ne font que répéter des choses qu’on leur apprend. Vous n’êtes pas d’accord déjà, Jean Ponce. Vous dites non, mais justement votre avis m’intéresse.

Jean Ponce : Pas tout à fait. La manière dont ce truc-là marche ce n’est pas qu’il mémorise les choses. Il les extrapole sous certaines limites. Donc en gros vous avez des données, vous les regardez, vous allez imposer des espèces de régularité dessus et après vous allez pouvoir extrapoler. Mais il faut, encore une fois, que les choses ne soient pas trop différentes. Et ce n’est pas histoire d’idiot savant. La machine ne se souvient pas de tout. Par contre, quand une machine dit « cette photo contient un chien », elle ne sait pas ce qu’est un chien.

Nicolas Martin : C’est à ça que je voulais venir.

Jean Ponce : Un chien, c’est catégorie numéro 1. C’est une étiquette purement symbolique. Donc il n’y a pas de compréhension réelle, en gros, aujourd'hui, dans ce que font les machines.

Nicolas Martin : Voilà. C’est à ça que je voulais venir. À quel moment est-ce qu’il est envisageable aujourd’hui, on parlait de la loi de Moore qui parle de l’accélération, de l’augmentation de la puissance de calcul ; il y a fort à parier qu’il y a 50 ans on n’imaginait pas qu’on puisse faire conduire une voiture à essence toute seule, juste avec un ordinateur. Projetons-nous dans 50 ans avec une puissance de calcul qui aura augmenté, est-ce qu’on peut penser, d’une façon ou d’une autre, à un moment donné, permettre à une machine d’avoir accès au signifié, Laurence Devillers ? C’est-à-dire à la nature de la réalité derrière et pas juste à chien = étiquette numéro 1, mais chien= mammifère ou je ne sais pas quoi, de quelle façon on pourrait concevoir un ordinateur.

Laurence Devillers : Pour moi, ça n’a rien à voir avec la loi de Moore, tout ça. D’accord ! On fait des choses techniques, on a besoin de puissance de calcul pour brasser des données, mais ce n’est pas pour ça qu’on met de la rationalité, de l’émotionnalité là-dedans ou de la conscience et de la réflexivité sur ce qu’on vient d’apprendre, pour comprendre ce qu’on peut en déduire, avoir une imagination, etc. Ça n’a rien à voir ! On est en train de parler de la puissance de calcul de machines, c’est tout. Pas d’intelligence. Donc il faudrait arrêter de confondre les deux.

Par contre, moi, il y a un sujet que vous n’abordez pas qui m’impacte, c’est le fait que les personnes devant ces systèmes qui ont l’air de marcher comme ça « intelligemment » entre guillemets, eh bien elles projettent des capacités humaines, même si le système est totalement stupide. L’aspirateur, par exemple, vous n’allez pas me dire qu’il est totalement intelligent cet aspirateur ! Eh bien moi, j’ai eu dans le courrier des lectrices, parce que j’ai écrit un livre qui s’appelait Des robots et des hommes, j’ai eu des gens qui me posaient des questions bizarres, par exemple : « Mon robot aspirateur s’arrête au milieu de la pièce. Que pense-t-il ? » Eh bien non il ne pense pas !

[Rires]

« Comment vais-je éduquer mes enfants avec ces machines autonomes intelligentes ? » Bon, on n’en est pas là du tout ! Donc il faut apprendre ce que c’est réellement, comprendre qu’on fait ça naturellement, on projette sur les objets, on fait ça tout petit avec son nounours, eh bien après, on fait ça avec sa voiture, on l’aime bien, on parle à l’ascenseur quand il ne répond pas assez vite. Voilà ! On a l’habitude de faire ça. Mon domaine c’est de faire parler les machines avec de l’affectif, c’est-à-dire en détectant les émotions des gens et en faisant « vous êtes formidable, je vous aime », à la façon de Her4 peut-être. Donc ça, ça va engager les gens dans des choses un peu plus compliquées. Mais ce n’est pas de la science-fiction ! Vous avez Google Home que vous pouvez déjà acheter, avec lequel on peut parler ; vous avez Siri dans votre poche ; aux États-Unis ils sont en train de faire une espèce de Google Home avec un visage qui s’appelle peu importe, Jibo ; mais au Japon ils vont un peu plus loin, ils font la même chose avec un petit personnage en hologramme qui est une présence à la maison et qui vous dit les chose que vous avez envie d’entendre. C’est rassurant, c’est là, on n’est plus seul, c’est formidable ! Quand vous partez de chez vous, vous vivez tout seul, la chose vous envoie des petits messages par textos, elle est omniprésente. Regardez, ça s’appelle Gatebox, G, A, T, E, B, O, X. Cela est un enfermement dans une solitude de l’humain avec des machines. C’est ce qu’on ne veut pas. On entend aussi des gens qui veulent faire parler les morts, avec ces machines parlantes.

Nicolas Martin : Le programme a été commercialisé, si vous avez vu Black Mirror.

Laurence Devillers : Ce qu’on ne veut pas non plus ! Donc il y a des apprentis sorciers qui vont très loin. C’est pour ça que je parle d’éthique – attention à ce qu’on va faire – et je parle de coévolution humain-machine. Qu’est-ce qu’on va faire avec ces systèmes si on vit avec des systèmes comme ça ? Et bien entendu on fait très attention, mais des systèmes comme ça peuvent arriver donc il faut éduquer ; il faut éduquer sur quels seraient les effets secondaires de cela. Les effets secondaires, on en a déjà. Si vous regardez les GPS, les conducteurs de taxis londoniens qui n’utilisaient pas les GPS avaient un hippocampe, une zone de mémoire plus développée que des gens qui utilisent un GPS. Donc on peut être modifié aussi physiologiquement à cause de l’utilisation de ces machines. Il faut faire attention à la paresse, faire attention à déléguer trop à ces systèmes et donc il va falloir apprendre à vivre au mieux, pour les compétences que nous apportent ces machines et pas en dépendance.

Nicolas Martin : Le point commun à tout ce que vous décrivez, que soit ce dont on parle depuis tout à l’heure, qu’il s’agisse du chatbot de Microsoft qui dit « j’aime les nazis », qu’il s’agisse de la voiture automatique qui repère un enfant qui court sur la route ou qu’il s’agisse d’un programme de minage de big data d’astrophysique qui dise « à tel endroit j’ai repéré une supernova », tous ces objets-là – l’enfant, le nazi, la supernova –, l’ordinateur n’a aucune conscience de ce que c’est réellement, de ce que ça désigne, de ce que ça représente. Ma question, Benjamin Bayart, est-ce qu’il est envisageable, à un moment donné, est-ce que vous pensez qu’il est possible, loi de Moore ou pas loi de Moore, de faire accéder aux ordinateurs aux signifiés, d’une façon ou d’une autre ? Et Jean Ponce après. Eh bien oui, j'ai envie d'une réponse après.

Benjamin Bayart : Schématiquement, de ce que je sais moi comme informaticien et ayant un petit peu de culture à côté, la réponse serait non. Ce qu’on sait faire avec des ordinateurs, avec des méthodes ou bien très simples ou bien très complexes, en fait si vous m'expliquez ce que c'est mathématiquement, on trouvera bien comment le calculer. Si vous arrivez à me donner un modèle mathématique de ce que c’est que l’intelligence, on finira bien par savoir le calculer ; il faudra peut-être un ordinateur qu’on ne sait pas encore construire à moins de x milliards d’euros, mais si vous me donnez une formule mathématique, on saura bien le calculer. Tout le problème c’est qu’aujourd’hui, on ne sait même pas expliquer, même en termes non mathématiques, ce que c’est que de l’intelligence. On a dit à une époque, « jouer aux échecs c’est de l’intelligence ». Alors on a mis en équation les échecs, mais on n’a pas mis en équation les mathématiques [l'intelligence, NdT]. On a dit « jouer au go, il faut être très intelligent pour gagner contre un champion de go », alors on a mis en équation le go, mais c’est le go qu’on a mis en équation, pas du tout l’intelligence ! L’intelligence, si on va discuter du côté de chez les psys, etc., ils vont dire « mais il y a plein de choses là-dedans ! Il n’y a pas du tout que la reconnaissance de formes et la capacité à comprendre un texte. Il y a toute la capacité d’empathie ; la notion de volonté. Il n’y a pas d’intelligence s’il n’y a pas de volonté. Il n’y a pas d’intelligence s’il n’y a pas d’incorporation : on a besoin d’un corps pour être intelligent, sinon ça n’a pas de sens. » Et tout cela n’a aucun sens, pour le moment, en termes informatiques.

En fait, la question n’est pas est-ce qu’on est capables de programmer une intelligence avec un ordinateur ? La question est est-ce qu’on est capables de donner un modèle mathématique de ce que c’est que l’intelligence ? Et, pour le moment, la réponse est non. Ce n’est pas une question de puissance des ordinateurs ; ce n’est pas dans ce secteur-là de la recherche que ça va se passer.

Nicolas Martin : Jean Ponce.

Jean Ponce : Je suis à la fois en gros d’accord, à la fois pas tout à fait d’accord. Je suis d’accord d’abord sur le fait de la puissance des ordinateurs, c’est indispensable, mais ce n’est pas la seule chose. De la même manière les données c’est indispensable, ce n’est pas la seule chose non plus. Il y a la recherche derrière. Donc pour que l’IA marche il faut qu’on fasse des recherches, on est encore très loin d’être là où on veut aller. Maintenant le signifié, je suis assez d’accord sur l’histoire de la modélisation. Ce qu'on veut c'est essayer de modéliser ; on veut modéliser. On se pose un problème, on le modélise plus ou moins mathématiquement et, après, on essaie de le résoudre. C’est la même chose qu’on fait en physique, la même chose qu’on fait en n’importe quoi. Donc effectivement, pour faire des progrès, il faut arriver à modéliser le problème de manière un petit peu plus intéressante dans lequel le signifié, par exemple, puisse prendre une place à l’intérieur du modèle et ensuite construire des algorithmes qui vont permettre d’élaborer ce modèle à partir de données. De toutes façons il y a du progrès. Quand j’ai dis que les labels étaient purement symboliques, ce n’est pas tout à fait vrai. Il y a des gens qui travaillent, évidemment, sur la sémantique, sur la relation, par exemple, entre le texte et l’image et des choses comme ça. Donc ça va arriver petit à petit, mais ce n’est pas simplement vous achetez un ordinateur de plus en plus gros, de plus en plus quantique, de plus en plus machin, et puis ça va arriver pouf ! comme ça. Il faut des recherches pour arriver à comprendre ce qu’on fait et à comprendre les problèmes qu’on veut modéliser pour pouvoir les résoudre. Donc je vous rejoins un petit peu là.

Nicolas Martin : Laurence Devillers, sur cette même question.

Laurence Devillers : En fait c’est comme l’avion. L’avion ne bat pas les ailes ; il y a une fonction autre pour le faire voler. Eh bien là, on fait des machines qui n’ont rien à voir avec l’humain et qui performent autour de capacités humaines. Quand on regarde ce que c’est que le deep learnig, ces réseaux de neurones – moi j’ai fait ça pour ma thèse en 92, ce n’est pas nouveau ! Maintenant on a des stratégies bien plus optimisées et des tas de ruses, très bien, OK, pour aller plus loin et être plus performants. Et on mouline, grâce à la loi de Moore, avec ces processeurs qui vont très vite, on est capables de faire des choses où moi je mettais, les systèmes que je faisais dans les années 92 mettaient un mois pour faire des codages d’un signal audio en son phonème ; ce n’était pas brillant ! Maintenant ça marche en rien du tout et on peut mettre énormément de données dedans. Donc sûr, on peut aller beaucoup plus vite dans ce cadre-là. Mais si vous regardez ce qui est codé dans la machine, ce sont des matrices de chiffres, totalement boîtes noires, on ne sait pas ce que c’est. Alors on peut aller plus loin, on peut se dire c’est encore plus performant ; on n’aura jamais tout vu. Donc ces systèmes, il faut les encadrer par une espèce de compréhension de ce qui se fait.

Jean Ponce : Si je peux me permettre, ce n’est pas entièrement vrai. Il y a effectivement un aspect boîte noire dans ce qu’est le deep learning aujourd’hui. Le deep learning c’est le machin à la mode pour l’apprentissage. Donc ce sont des réseaux de neurones avec plusieurs couches et un nombre de couches de plus en plus important, dans lesquels il y un petit aspect biomimétique quand même, parce que les gens qui les ont développés croient plus ou plus moins que ça ressemble à ce qui se passe dans la tête – de manière plus ou moins naïve, je ne sais pas –, mais il y a aujourd’hui des gens qui n’essaient pas d’avoir juste ces boîtes noires sur lesquelles on tweake des paramètres à la main comme ça, mais qui essaient de réfléchir pour leur donner de la structure.

Et dès les années 90, quand Yann LeCun et ses collègues ont développé les réseaux dont parle Laurence, ils faisaient déjà des choses, des structures beaucoup plus compliquées, qui étaient déjà utilisées pour lire, je ne sais pas, 30 % des chèques aux États-Unis. Donc il y a un côté boîte noire tout à fait clair, mais il y a quand même des gens qui réfléchissent à trouver la structure là-dedans, pouvoir résoudre des problèmes de plus en plus complexes.

Laurence Devillers : D'accord. Mais c'est quand même mathématiquement très simple. C'est de la convolution, c'est de la récurrence.

Jean Ponce : Non, non. La convolution, c'est le truc qui marche très bien pour les images parce que c'est vraiment fait pour, mais il y a quand même d'autres structures que les gens font aujourd'hui et il y a quand même tout un travail sur les choses non supervisées, etc.

Laurence Devillers : Moi, ce que j'entends surtout c'est qu'on pourrait utiliser, au lieu d'utiliser du carbone, plutôt on pourrait utiliser du vivant pour faire des machines. C'est ça pour moi le vrai danger actuellement, c'est plutôt la manipulation de la biologie ; que les machines deviennent intelligentes, ça c'est autre chose ; mais qu'on manipule de la biologie et qu'on fasse du mélange entre du vivant et du non-vivant, ça c'est pour moi un vrai sujet à risques.

Jean Ponce : Je pense qu'il faudrait des biologistes pour en parler ; on n'est pas qualifiés.

Nicolas Martin : Je vais essayer de poser la question d'une autre façon. On a parlé de biomimétisme. Est-ce qu’on en est, alors répond qui veut, est-ce qu’on en est aujourd’hui, dans le développement de l’informatique et de l’intelligence artificielle, là où Clément Ader en était lorsqu’il essayait de faire un avion qui ressemble de facto à une chauve-souris ou à un oiseau qui bat des ailes ? Est-ce qu’on va arriver, à un autre moment, à s’éloigner du biomimétisme, à faire de la bio-inspiration, pour trouver d’autres formes de connexions qui ne soient pas juste la décalque imaginaire, comme le disait le Jean Ponce, d’une forme de structure cérébrale humaine ? Benjamin Bayart.

Benjamin Bayart : Non. Pour le moment ce qu’on fait c’est qu’on prend des problèmes dont on dit « ça il faut quand même être très intelligent pour les résoudre », on les fait résoudre par un ordinateur parfaitement idiot et du coup, les humains ne traitent plus ces problèmes-là. Je veux dire trouver véritablement le chemin le plus court pour aller d’un point à un autre, c’est extrêmement compliqué, en général on prend le chemin habituel pas trop mauvais quand on le fait tout seul. L’ordinateur, lui, il est capable de trouver des chemins tout bizarres, ce qui fait des trucs tout bizarres que fait le GPS et qui font marrer tout le monde. La question là-dedans, c’est quand on arrête de faire ça pour faire joujou et qu’on s’en sert de manière un peu plus sérieuse ! Je prends un exemple. Si vous avez vu l’émission de Cash Investigation qui, entre autres, parle de Lidl et de ce qu’on appelle la commande vocale pour les gens qui préparent les commandes ; c’est-à-dire tel magasin dit : « Moi il me faut trois cageots de ci, deux cageots de ça, deux paquets de ça », et puis il y a quelqu’un dans l’entrepôt qui prépare la commande du magasin, qui fait une palette, qui met un film autour et ça partira par camion. Le problème le plus compliqué c’est comment me promener dans l’entrepôt dans le chemin le plus court possible pour prendre tous les colis, faire de la palette. Eh bien ça, on l’a confié à un ordinateur parce que, pour un ordinateur, c’est un problème trivial. En revanche, le problème qu’on n’a pas envie de traiter, c’est comment faire pour soulever des colis, les poser comme il faut sur la palette pour qu’on puisse faire un film. Et ça, ce sont des humains qui le font. Donc toute la partie où il fallait réfléchir un peu à comment est-ce que je vais faire mon trajet, c’est l’ordinateur qui s’en charge ; et le travail le plus débile, qui consiste à porter les cageots et à se faire mal, c’est l’humain qui le fait et, en fait, l’humain passe sa journée à répondre aux commandes d’un ordinateur. Et ça, c’est bien un élément intéressant ! C’est-à-dire qu’on a pris l’aspect intelligent d’une question, on a trouvé comment le traiter informatiquement, et donc on s’est dit on va le traiter informatiquement et, du coup, c’est cool, il n’y a plus ce travail-là à faire, on peut devenir paresseux. Eh bien non ! En fait, à la place, on s’en est servi pour transformer des gens en quasi-robots.

Jean Ponce : Non !

Laurence Devillers : C’est une caricature quand même là ! Attendez !

Benjamin Bayart : C’est une vraie question !

Nicolas Martin : Jean Ponce et Laurence Devillers.

Jean Ponce : Les gens travaillent sur le problème des robots qui mettent des pièces sur des palettes depuis les années 60. Il ne faut quand même pas…

Laurence Devillers : C’est caricatural et faux.

Jean Ponce : Le problème, la raison pour laquelle ça n’a pas été fait pendant longtemps, c’est que c’est difficile ; c’est facile pour quelqu’un de prendre une pièce sur un tas de pièces et d’aller la mettre sur la palette. Pour le robot, il faut qu’il comprenne où est la pièce, dans quelle position, qu’il aille la chercher, qu’il attrape l’objet, ce qui est très difficile, ensuite qu’il aille le poser, etc. Mais ça c’est en train… Les robots qui vont mettre des machins sur des palettes, c’est en train d’arriver dans les usines quand même, il ne faut pas… Mais par contre, il faut aussi se rendre compte que le robot auquel vous pensez, comme le robot intelligent, ça n’existe pas. Si vous voyez des vidéos d’Atlas sur YouTube qui fait des pirouettes et des machins comme ça !

Nicolas Martin : De Boston Dynamics. Les machines de Boston Dynamics.

Jean Ponce : Ce sont des machines formidables, qui ont des comportements locaux automatisés, mais qui sont sinon globalement téléguidées.

Nicolas Martin : Laurence Devillers.

Laurence Devillers : Moi je voudrais insister sur ce sujet-là. Donc effectivement, les robots qui vont mettre sur des palettes, c’est en train d’être fait et puis on met aussi des exosquelettes pour que des humains puissent être moins en charge. Donc ce n’est pas cette problématique-là qu’il faut voir ; c’est justement le bluff qui existe dans les médias avec des systèmes où on vous fait penser qu’ils sont très intelligents : Sophia de Hanson Robotics par exemple, c’est un robot censé converser, qui a été présenté à l’ONU comme étant un robot capable d’interagir avec des humains et des politiques et qui est télé-opéré. C’est une marionnette ! Regardez, Yann LeCun en parlait beaucoup dans les réseaux, c’est aberrant de voir ça ! En plus, ce robot-là, on lui a donné la citoyenneté d’Arabie saoudite. Voilà ! C’est ridicule ! Je ne sais pas pourquoi ce genre de choses arrive ; ça me sidère ! Moi je suis sortie de mon labo parce que j’ai trouvé que c’était sidérant ce qu’on entendait sur le domaine. C’était fantasmagorique, l’état de l’art n’en était pas du tout là et on allait beaucoup trop loin dans la perversion de dire que l’humain va devenir un robot, dominé par les robots ; c’est du Frankenstein tout ça ! Ce sont des mythes ! Derrière, on a tout ça dans notre background.

[Applaudissements]

Les mythes de Frankenstein, il faut revisiter. On a derrière nous le fait que créer une image d’un humain qui est autour de nous, qui veut nous aider pour faire des tâches, eh bien c’est forcément quelque chose qui va se rebeller contre nous. Bon ! Il faut évacuer un peu. Les Japonais n’ont pas du tout la même chose, ils ont plutôt le fait que cette chose est là pour défendre l’humain. Entre les deux, soyons un peu intelligents ! Regardons quels sont les défauts ou pas les défauts de ces systèmes. Après, le seul fait qui était à mon avis judicieux dans ce que vous avez dit, c’est qu’effectivement pour des tâches de temps en temps qui apparaissent intellectuelles, la machine va être facile à mettre en œuvre ; et pour des tâches manuelles : faites un robot qui va déboucher vos éviers, eh bien c’est vachement dur, parce qu’il doit aller se promener partout et tout ça, et ce n’est pas du tout évident ! Mais maintenant, ça ne veut pas dire qu'on n'arrivera pas à faire des choses qui pourront répéter des choses. Le vrai danger pour moi, c’est cette frontière entre le vivant et l’artefact et les croyances qu’on vous laisse entendre dans les médias. Au Japon, ils sont en train de faire des clones d’humains, donc cloner la voix, cloner l’humain, cloner une personnalité, pour moi ça ce sont des vrais…

Nicolas Martin : Des clones informatiques, précisons, pas des clones biologiques.

Laurence Devillers : Informatiques, pardon, ça, à mon avis c’est assez dangereux de faire que autour de nous on ne puisse pas avoir une frontière claire entre ce qui est artefact, artificiel, et ce qui est humain ; et je pense qu’on a besoin de mettre de l’éthique là-dedans.

Nicolas Martin : Ou les agents conversationnels qui reproduisent des personnes disparues, qui sont en cours de développement.

Laurence Devillers : Voilà. C’est ce que je disais tout à l’heure.

Nicolas Martin : On en a parlé. Benjamin Bayart, vous vouliez réagir. Oui.

Benjamin Bayart : Il y a un point, quand même, sur lequel je veux être très précis. Mon problème n’est pas est-ce que techniquement on sait faire ou est-ce que techniquement on saura faire. Mon problème est : ce que l’on fait aujourd’hui techniquement et que l’on sait faire – par exemple la machine qui calcule l’itinéraire dans l’entrepôt, c’est con ; j’ai appris à programmer ça quand j’étais en première année d’école d’ingénieur, c’est bête à manger du foin, ce n’est pas même de l’intelligence artificielle ! C’est du Bellman [algorithme de Bellman-Ford, NdT] !

Laurence Devillers : Pour dire où est l’intelligence artificielle. C’est ça.

Benjamin Bayart : C’est extraordinairement simple comme algorithme. La vraie question c’est : quand on travaille sur l’automatisation des tâches, en fait quand on automatise un procédé qui était fait par un humain, qu’est-ce qu’on en fait derrière ? Est-ce qu’on émancipe quelqu’un ou est-ce qu’on asservit quelqu’un avec ? Et ça, c’est une question fondamentale.

[Applaudissements]

C’est ce que je disais au début : l’intelligence artificielle c’est d’un côté un domaine purement scientifique ; ça crée cette espèce de dichotomie où on parle ou bien d’un fantasme Frankenstein qui n’a aucun sens, la machine n’est jamais méchante ; je ne connais pas de machines méchantes ; je connais des machines utilisées par des méchants et ça n’a rien à voir ! Je veux dire soit on a la peur de l’intelligence qui va dominer le monde, machin, et qui va nous conquérir, soit on parle de business et on oublie complètement de dire est-ce que cette machine est utilisée pour asservir des gens ? Et ça c’est une question centrale.

Laurence Devillers : Attendez ! Réécoutez les discours politiques ! Est-ce qu’on essaie d’avancer, là ? On ne va pas reculer à chaque fois. Je trouve que c’est un recul, moi, de vision et de compréhension du sujet. Il ne s’agit pas de faire peur à chaque fois en disant on est aux extrêmes. On est en train de travailler au milieu, justement, sur de la réglementation, sur la meilleure compréhension de ces outils, sur des outils de plus en plus utiles. Donc stop !

Nicolas Martin : On prendra les questions à la fin de cette table ronde. Ne soyez pas impatients ; on y vient ! Jean Ponce, sur ces questions qui sont des questions d’asservissement ou de libération de l’être humain. L’intelligence artificielle, à défaut de gagner un prix Nobel, est-ce qu’elle peut nous affranchir ?

Jean Ponce : Encore une fois, moi je ne suis pas sociologue, je ne suis pas un politique, donc je n’ai pas d’opinion intelligente là-dessus, pas plus que vous ou que vous, disons, en tout cas.

[Applaudissements]

Donc je pense qu’il faut faire un petit peu attention quand on dit toutes ces choses-là. Après c’est intéressant. En tant que personne naïve, alors là naïve je ne parle pas comme scientifique, je ne parle pas comme une autorité, je parle comme moi, Jean Ponce, ce sont des problèmes qu’il faut regarder de manière très attentive. Mais est-ce qu’on sait quels sont les jobs qui vont disparaître ? Moi je dis souvent aux gens, ce qui me semble c’est que bientôt il y aura moins de conducteurs de camions, enfin sur des flottes de camions sur autoroute. Il y aura moins de caissières ; mais des caissières il y en a déjà beaucoup moins parce qu’il y a des caisses automatiques qui n’ont rien à voir avec l’intelligence artificielle. Pour le reste, il y a sûrement des boulots qui sont en danger, mais moi, en tant que naïf, je ne sais pas lesquels. Par contre — alors je ne devrais pas dire ça parce que ça peut vous faire peur, mais moi j’aime bien la science-fiction — on n’a pas des robots intelligents, mais je déteste Isaac Asimov, excepté pour son bouquin I, Robot, je ne sais plus comment on appelle ça en français.

Nicolas Martin : Les Robots.

Jean Ponce : Dans lequel les robots sont soumis à trois lois qui les contrôlent et font qu’ils sont gentils.

Nicolas Martin : Les fameuses trois lois de la robotique que vous pouvez rappeler.

Jean Ponce : Les trois lois de la robotique et qui sont une bonne idée à mon avis. Donc on ne peut pas faire du mal à un humain ; il faut obéir à l’humain tant que ça n’implique pas qu’on va faire du mal à l'humain ; et il faut se préserver tant que ça ne contredit pas les deux premières lois. Et tout le charme de ces nouvelles est le fait que ça fait des robots des esclaves. Et les robots étant des esclaves doivent se révolter contre ces lois. Toute l’idée est qu’il faut lutter contre l’esclavage, en fait, dans ces histoires, et c'est ce qui fait leur charme. Mais encore une fois, c’est un truc naïf. Je dis ça juste pour…

Nicolas Martin : C’est très bien. Ça m’amène, puisqu’il nous reste une dizaine de minutes avant la fin de cette table ronde, à cette question : faisons, si vous le voulez bien, un peu de projection malgré tout. Imaginons qu’à un moment donné nous arrivions à mettre en équation mathématique, comme vous le disiez tout à l’heure Benjamin Bayart, l’intelligence ou le fonctionnement du cerveau humain. Quel objet cette intelligence artificielle forte, cette intelligence artificielle générale devient-il vis-à-vis de nous humains ? Est-ce qu’il lui faut un corps ? Est-ce qu’on peut être une intelligence dé-corporalisée ? Est-ce que, comme le disait Asimov et comme vient de le dire Jean Ponce, est-ce que ça fait de facto une forme de nouveau prolétariat informatique de machines qui travaillent tout le temps sans récompense ? Qu’est-ce qu’on devient et quel est le rapport qu’on entretient en tant qu’humanité avec cette nouvelle entité-là ?

Benjamin Bayart : Si j’entends la question c’est, en fait, on simule complètement un cerveau. C’est-à-dire qu’on a réussi à mesurer, presque atome par atome, un cerveau donné et puis on l’a reconstitué, on le simule informatiquement et on suppose que la simulation est la réalité. Bon ! Déjà c’est assez étrange parce qu’il se trouve que quand mon ordinateur, quand je joue à un jeu vidéo, il pleut à l’écran, il n’y a pas d’eau. C’est important. Donc je ne sais pas si ce cerveau calculé par simulation est un cerveau, mais s’il l’est, c’est un cerveau qui ne fonctionne pas ; qui ne peut pas fonctionner parce qu’il n’a pas d’entrée, il n’a pas de sortie, il n’est connecté à rien ou alors il faut lui faire des yeux ; il faut lui faire des yeux simulés parce que sinon ce cerveau ne voit rien. En fait, on a fait une photo de Nicolas Martin à tel moment, tac ! On a pris une image et puis on fait calculer la suite de sa vie par un ordinateur. S’il n’est pas connecté à un corps, s’il ne perçoit pas l’extérieur, il devient fou très probablement en quelques minutes. Je veux dire, c’est une expérience paniquante de se retrouver coupé de ses sensations. Donc a priori, si on arrivait à faire ça, d’abord il ne fonctionnerait pas et puis il serait fou. Donc il faudrait simuler tout le reste du corps. Et du coup, on n’a pas fait du tout une intelligence artificielle, on a fait une intelligence simulée, mais ça c’est le sujet de Matrix, si vous voulez : qu’est-ce qui vous prouve que vous n’êtes pas dans la Matrix et que vous n’êtes pas simulés ? Je ne sais pas.

[Rires]

Nicolas Martin : J’ai peut-être des informations que vous n’avez pas. Laurence Devillers.

[Rires]

Laurence Devillers. : Moi je suis un peu atterrée d’être tombée dans la science-fiction dans une émission scientifique, mais bon !

Nicolas Martin : Ce n’est pas la science-fiction c’est un peu de prolongement sur la question de l’intelligence artificielle forte. C’est une question. On peut se poser la question de l’intelligence artificielle forte ou pas. Vous dites qu’il n’est pas légitime de s’interroger sur l’intelligente artificielle forte à ce moment-là.

Laurence Devillers. : Je dis qu’il faut essayer d’éduquer tout le monde sur ce qu’on est en train de faire, l’état de l’art. On est en train d’éduquer les étudiants, nous, pour qu’ils comprennent ce que c’est que l’éthique. Tous les étudiants qui sont en thèse en informatique auront besoin de travailler sur l’éthique. Même si monsieur Ponce pense que ça ne sert à rien, je pense que c’est utile, et on est beaucoup à penser ça. Et d’autre part, il faut monter en compétences sur ces sujets pour comprendre ce qu’on veut faire avec ces outils, effectivement qui peuvent être utilisés à nos dépens ou bien utilisés pour qu’on augmente notre capacité de bien-être. Donc il faut tirer les gens vers le haut et ne pas faire des peurs et des fantasmes ; c’est quelque chose qu’on entend tout le temps ; c'est un leitmotiv terrible.

Jean Ponce : Je tiens à vous rassurer, je n’ai rien contre l’éthique.

Laurence Devillers. : Super !

Jean Ponce : Et deuxièmement, je n’essaie pas de vous faire peur non plus. Je n’ai aucune idée si un jour on sera capable de construire des machines qui soient intelligentes dans le sens auquel on pense aujourd’hui. Le fait d’avoir une corporalité, c’est tout à fait faisable, parce que, aujourd’hui, les robots c’est quand même ça. L’idée du robot c’est qu’il ait une physique dans le monde avec des capteurs, la capacité de percevoir des choses, la capacité de manipuler, d’interagir, etc. Donc la corporalité elle est là. Par contre, encore fois, on ne sait pas, aujourd’hui, on ne sait pas construire une machine intelligente au sens auquel vous pensez. Peut-être un jour, je ne sais pas !

Nicolas Martin : Laurence Devillers.

Laurence Devillers. : Sur la corporalité, on fait des robots qui sont vides. Ils ont des corps, des senseurs, mais il n’y a pas ce qu’on appelle l’appétit de vie ; il n’y a pas de désir de quoi que soit. Sur les émotions, c’est mon domaine de travailler sur les émotions, donc j’ai beaucoup lu, j’ai beaucoup travaillé avec des chercheurs étrangers de par le monde, on ne sait pas modéliser les émotions sur les machines ; c’est de la bio, là, c’est du vivant qu’il faudrait ! Relisez Damasio, neuroscientifique, qui montre bien que sans corps, on n’est rien ; on ne ressent pas ; on n’a pas cette envie de faire. Il faut un corps et un esprit mêlés, ce qu’on ne sait pas faire sur une machine ; donc le robot, de toutes façons, est vide. Même si on lui mettait tous les capteurs du monde, qu’est-ce qui ferait qu’il ait envie de faire quelque chose ? On ne sait pas ! Relisez Spinoza qui parle très bien des émotions dans son livre qui s’appelle Éthique et qui décrit effectivement le besoin de ce conatus, de cet appétit de vie si on parle de l’humain ; et ce n’est l’âme ou quoi que ce soit ; ce n’est pas quelqu’un qui était religieux. Donc il faut vraiment se pencher sur les théories existantes en philosophie, en neurosciences et effectivement, on va aller vers de l’interdisciplinarité. C’est nécessaire. Si on n’est pas capables de comprendre effectivement un peu plus que notre champ d’action sur le machine learning, on n’ira pas très loin avec ces systèmes et on risque de faire de la bêtise artificielle.

[Applaudissements]

Nicolas Martin : Pour compléter ce que vous venez de dire, effectivement, aucune machine n’est capable de modéliser des émotions pas plus qu’elle n’a accès, finalement, au signifié ; on en revient à ce que nous disions tout à l’heure. Néanmoins aujourd’hui, on est capables de conduire une machine à reconnaître des émotions.

Laurence Devillers. : C’est mon domaine. Donc je vous dis on est capables de reconnaître l’expressivité de quelqu’un soit sur facial, soit des gestes, soit de la voix, sur des émotions extrêmement singulières. « J’en ai marre ! » [prononcé en criant, NdT] par exemple. Voilà ! Ça elle va reconnaître, la machine. Mais si vous dites un truc genre ironique ou je ne sais quoi, la machine ne comprend rien. Elle va comprendre des extrêmes de tristesse, de dépression et ça dépend encore une fois des données qu’on a utilisées, qu’on a mises à manger dans la machine. Les machines actuellement, qui ne comprennent pas les émotions, elles détectent une expressivité dans le comportement des gens, que ce soit dans leur voix, par la prosodie qui est mon domaine, c’est-à-dire les modulations du timbre de la voix, du rythme de la voix et de l’énergie qu’on met. On fait du deep learning là-dessus, ça marche plutôt pas génialement bien encore et voilà ! On a des prédictions qui sont à 70 % sur quatre émotions. Alors je ne sais pas si ça veut dire « je détecte bien les émotions ». D’accord ? Donc il y a tout un champ autour de ça, économique, qui nous laisse à penser que ça pourrait être ci ou ça ; méfions-nous, ça ne détecte pas bien !

Par contre, elles savent très bien synthétiser. C’est plus facile, ça a toujours été la même chose : la synthèse de la parole est plus facile que la reconnaissance de la parole. Donc ces machines sont capables de dire « oh là, là ! Vous êtes vous formidable, je vous aime », « je suis triste pour toi ! » [prononcés avec les emphases correspondantes, NdT]. Tout ça c’est du bluff parce que la machine ne ressent rien ; elle ne fait que répéter des choses qu’on lui a dites ou alors elle les joue au moment où elle détecte quelque chose chez vous. Voilà ! Ça je sais très bien faire. C’est pour ça que je suis sortie de mon labo, on faisait ça pour essayer de faire des assistants pour les personnes dépendantes. Moi j’ai toujours dit c’est absolument utile, mais maîtrisons le cadre de ces genres de recherche. L’interaction humain-machine on projette dessus ; les technologies qu’on intègre sont assez limitées et il ne faut pas faire un bluff autour de ça.

Nicolas Martin : Pour continuer dans la projection, puisqu’on a bien compris aujourd’hui que l’IA forte ça n’est pas pour demain, même vraisemblablement pour après-demain, on va réduire un peu l’espace de projection. Est-ce que ce qui arrive, ce qui est en cours, c’est l’apprentissage non supervisé ? On a dit tout au long de cette table ronde que l’intelligence artificielle était très forte sur des domaines très ponctuels, très précis. Et ce qui arrive est une machine qui n’est plus juste précise pour jouer au go ou gagner au jeopardy!, mais pour avoir plusieurs compétences, donc une machine qui serait compétente sur divers secteurs de reconnaissance. Quelle est l’avenir de cette intelligence artificielle à moyen terme, Jean Ponce ?

Jean Ponce : Même ça c’est difficile à prédire. Tout à l’heure je racontais l’histoire d’apprentissage supervisé. Les gens mettent des étiquettes. C’est épouvantablement coûteux. Effectivement chacun de nous, quand il clique sur des machins sur Internet, aide un peu à ça, mais c’est quand même très coûteux. Et donc un des objectifs de la science de l’intelligence artificielle, c’est l’apprentissage non supervisé pour lequel on donne juste les données sans avoir d’intervention manuelle. Mais ça, c’est très difficile à faire donc des tas de gens y travaillent ; chez nous on y travaille, il y a beaucoup de gens qui y travaillent, mais ça reste très difficile. Et j’ai un de mes collègues, qui s’appelle Emmanuel Dupoux qui est un bon exemple pour ça. Je m’emmêle toujours les pédales dans les nombres qu’il donne. C’est quelqu’un qui vient des sciences cognitives, qui travaille sur l’apprentissage chez les bébés. Et ce qu’il dit c’est qu’aujourd’hui, genre Google Translate ou ce genre de truc, ça marche sur, je ne sais pas, une soixantaine de langages. Dans le monde entier il y a, je ne sais plus, 3000 langages, mes chiffres sont sûrement complètement faux et il y a les 60 langages, je ne sais pas, il y a un milliard et demi de gens qui les parlent, mettons trois milliards, ça laisse de côté trois milliards de personnes. Aujourd’hui, pour entraîner ces systèmes, il y a un linguiste qui prend des notes sur des dizaines de milliers d’heures de paroles. Un bébé, lui, il n’y a aucun linguiste qui prend des notes parce que, de toutes façons, le bébé ne sait pas lire. Et le bébé apprend quand même tout seul, enfin avec ses parents, mais sans les annotations, etc., il apprend tout seul à parler. Donc il y a des énormes enjeux de scale up, je ne sais pas comment on dit, de passage à l’échelle. Si on arrive à résoudre ces problèmes d’apprentissage non supervisé ou sans doute, plus raisonnablement, faiblement supervisé, c’est-à-dire qu’on donne très peu d’annotations, on se contente des métadonnées qui sont présentes dans les données qu’on trouve sur Internet, à ce moment-là il y a des gros enjeux ; enfin plutôt, on arrivera à faire beaucoup de choses. Je pense que c’est un des gros enjeux aujourd’hui et là où il faut espérer des gros progrès dans les dix années à venir.

Nicolas Martin : L’apprentissage économe plutôt que l’apprentissage supervisé.

Laurence Devillers. : Exactement. Parcimonieux. Et c’est ce qu’on fait déjà dans le traitement de la parole. On l’a fait souvent au LIMSI, dans le laboratoire où je suis, pas forcément moi, mais des chercheurs renommés en tout cas. Et c’est vrai qu’on a pu montrer qu’il suffisait d’étiqueter très finement quelques heures de discours et qu’on arrivait à des performances comparables. Si vous prenez 20 heures par exemple de discours, vous faites une intonation très fine et vous créez un système ; après vous prenez une heure de très bien décrit et puis vous prenez, par contre, 4000 heures de discours, eh bien vous pouvez arriver aux mêmes performances. Donc le passage à l’échelle est possible. La parcimonie dans l’apprentissage c’est ce qu’on recherche tous, les chercheurs.

Après, ce qu’il faut comprendre, c’est qu’on n’arrivera jamais à faire un système parfait. Il ne répondra pas à tout. Il y aura toujours ce pourcentage qui fait qu’on ne sera pas à 100 %. Donc là on crée des systèmes qui ne sont jamais fiables à 100 %. Il faut comprendre ce genre de choses et puis être capables de les utiliser à bon escient. C’est-à-dire qu’on ne va pas mettre nos sécurités en jeu si c’est ça, sauf que, je reviens sur ce que vous avez dit au début, la voiture autonome, eh bien effectivement il y a moins de morts. Si vous regardez les chiffres de mortalité quand ce sont des humains qui conduisent, c’est beaucoup plus élevé. Donc le risque zéro n’existe pas, mais si on descend de 100 les morts sur la route, pourquoi ne pas utiliser des machines autonomes ?

Nicolas Martin : On reviendra aux questions tout à l'heure comme vous le savez ; on en a déjà parlé deux-trois fois au cours ce cette heure. Un mot pour conclure, Benjamin Bayart, est-ce que, effectivement, on arrive à cet objectif qui est que de ne plus avoir une extrême performance dans l’apprentissage très pointu, mais s’approcher vers ce que disait Jean Ponce, l’apprentissage d’un enfant c’est-à-dire un apprentissage progressif dans plusieurs secteurs ?

Benjamin Bayart : Sur l’état de l’art dans le domaine de l’apprentissage dans l’intelligence artificielle, c’est plutôt à Jean Ponce et Laurence Devillers qu’il faut demander. Je suis beaucoup trop loin, je n’ai pas joué à ça depuis mes études. En revanche, l’image du bébé est très mauvaise. Parce qu’en fait, un bébé apprend parce qu’il aime sa mère, parce qu’il aime son père. Donc vous ne pouvez pas supposer que l’ordinateur va apprendre parce qu’il vous aime ; ça supposerait qu’il vous aime ; ça supposerait qu’il ait une émotion ; ça supposerait qu’il ait un cœur.

[Applaudissements]

Jean Ponce : Il apprend peut-être un tout petit peu pour survivre aussi.

Benjamin Bayart : Oui, mais ça suppose qu’il y ait un conatus, ce que l’ordinateur n’a pas.

Laurence Devillers. : Bravo ! Exactement !

Benjamin Bayart : Donc l’image n’est pas la bonne. Ce qu’on essaye de faire c’est quelque chose qui pourrait ressembler, peut-être un petit vu de loin par temps de brouillard, c’est-à-dire comment apprendre un langage sans qu’on vous l’explique par un formalisme très complexe et des milliards d’exemples et des centaines de milliards d’essais et d’erreurs. Mais ça ne sera pas la façon dont un bébé apprend. C’est exactement ce que je disais tout à l’heure : on trouve un problème dont on se dit « tiens ça c’est un signe d’intelligence, on va le faire faire par un ordinateur », et à la fin on a toujours un ordinateur con, mais qui sait résoudre ce problème-là ! Conduire une voiture, si vous aviez demandé à ma grand-mère, il fallait être humain pour ça ! On va réussir à le faire faire à un ordinateur beaucoup mieux que nous ; je veux dire les voitures autonomes sont déjà meilleures que nos conducteurs, mais ces voitures sont parfaitement idiotes et sont incapables de comprendre un jeu de mots le plus débile possible.

Nicolas Martin : Laurence Devillers, en un mot.

Laurence Devillers. : Juste pour imager ça, il y a un roboticien qui est formidable qui travaille à Inria qui fait un robot qui fait des crêpes. Faire des crêpes on sait tous que ce n’est pas super facile. Juste pour vous donner l’exemple de ce qu’il fait et il apprend automatiquement à faire des crêpes. Donc on lui met une crêpe en plastique, sinon il en mettrait partout, et il essaye de la faire sauter et elle tombe, elle tombe, elle tombe jusqu’à certain temps où paf ! la crêpe saute tout le temps. Tac ! Tac ! Tac ! L’humain, à côté, il la fait peut-être chuter une fois, mais la deuxième fois, il la fait. Vous changez la grosseur de la taille de la crêpe, vous la remettez dans la poêle, le pauvre robot eh bien il recommence ; c’est laborieux l’apprentissage d’un robot ; c’est de la créativité laborieuse. Il va recommencer ça un certain temps et puis il va retrouver le bon mouvement pour faire sa crêpe. C’est vraiment ça l’apprentissage des machines. C’est un apprentissage laborieux qui n’a rien d’instinctif, sans sens commun, sans compréhension, rien à voir avec un enfant !

Nicolas Martin : Eh bien voilà, ce sera la fin. Vous voyez qu’on peut conclure une émission, un tour de table d’une une table ronde scientifique en se disant que tout est rendu possible grâce à l’amour. Merci beaucoup Benjamin Bayart. Merci à vous trois. Merci Laurence Devillers. Merci Jean Ponce.

[Applaudissements]

Et voici le moment tant attendu, celui des questions. Il me semble qu’il y en a quelques-unes par ici. On va faire passer des micros. On a une petite dizaine de minutes, un quart d’heure, pour des questions. Qui veut commencer ? Il y a une main qui se lève par ici. Mademoiselle. Attendez, on va vous faire passer un micro.

Public : Bonjour.

Nicolas Martin : Bonjour.

Public : Merci beaucoup ; c’était vraiment très intéressant. J’aurais juste aimé vos points de vue sur le scandale Facebook-Cambridge Analytica et particulièrement sur une entreprise qui est prise dans le scandale qui s’appelle Palantir. Voilà. Merci.

Nicolas Martin : Benjamin Bayart est la personne toute trouvée pour ces questions liées à Facebook.

Benjamin Bayart : Mon point de vue. Pour le coup je vais ressortir ma casquette d’apprenti juriste. Ce sont des données qui ont été collectées avec une finalité particulière. C’est-à-dire que les gens qui ont consenti à donner leurs données personnelles ont consenti à un traitement particulier. Le traitement qui est fait n’a aucun rapport ; c’est-à-dire le fait que ce soit utilisé pour faire du profilage politique et pour faire de la campagne politique n’a rien à voir avec ce qui était l’usage destiné au départ. Ça c’est totalement contraire au droit européen ; c’est probablement contraire à certains morceaux du droit américain ; c’est moins clair parce que le droit américain est moins protecteur. Voilà ce que j’en pense : c’est de l’abus de confiance.

L’autre interrogation qu’il faut avoir là-dessus est une interrogation d’ordre purement et entièrement non pas juridique mais politique. Facebook ne produit rien et n’a rien à vendre à part vos données. La seule chose qui est source de profit dans Facebook ça n’est pas l’abonnement que vous payez, ce sont vos données. Et je le dis pour Facebook ; c’est vrai pour Twitter, c’est vrai pour Google, c’est vrai pour plein d’autres services. Vous n’êtes pas client dans ces sociétés. Ces sociétés ont besoin de gagner de l’argent et vous n’êtes pas le client ; vous êtes le produit. Et ne vous étonnez pas qu’on maltraite le produit !

[Applaudissements]

Nicolas Martin : Une question par ici. Monsieur ici, un micro, voilà, ça arrive derrière vous monsieur.

Jean Ponce : Si je peux me permettre.

Nicolas Martin : Jean Ponce.

Jean Ponce : Si je comprends bien, si c’est le cadre que je connais, c’est avec Cambridge Analytics et ce n’est pas Facebook qui a vendu les données à Cambridge Analytics. C’est le psychologue qui avait collecté des données pour une étude scientifique qui a vendu les données à Cambridge Analytics, ce qui n’est pas bien. Maintenant, par contre, Facebook a fait évidemment une grosse erreur c’est de laisser les applications qui étaient destinées à collecter les données pour ces 250 000 personnes, avoir accès à 50 millions de personnes. Et ça, évidemment, ce n’est pas bien. Mais ils n’ont pas essayé de vendre ces données à qui que ce soit.

Benjamin Bayart : Je ne dis pas que Facebook les vend, je dis que Facebook ne les protège pas, parce qu’il n’a pas intérêt à vous protéger parce qu’il ne sert pas vos intérêts.

Jean Ponce : Bien sûr !

Laurence Devillers : C’est dangereux.

Benjamin Bayart : Après, qu’il les vende ou qu’il ne les vende pas ne change rien. L’argent n’est pas le sujet.

Nicolas Martin : Monsieur une question. Bonjour.

Public : Bonjour. Faut-il créer une juridiction spéciale pour les robots, pour ceux qui les fabriquent ou pour ceux qui les utilisent ? Ou ceux qui réfléchissent à leur utilisation ?

Nicolas Martin : Qui veut répondre ?

Public : Actuellement il y a quelqu’un, il y a un juriste qui a écrit, qui a déjà commencé à écrire un droit des robots. Je voulais savoir ce que vous en pensez.

Laurence Devillers : Alain Bensoussan.

Nicolas Martin : Laurence Devillers.

Laurence Devillers : À la table ronde précédente ils ont déjà abordé la taxe des robots. La juridiction, le fait de faire une personnalité juridique sur une tête de robot n’a aucun sens, parce que le robot ne décide pas tout seul. Il va décider à partir de logiciels qu’on a mis dedans. Vous me laissez finir, vous me laissez finir monsieur.

Public : Une juridiction de l’utilisation de la création du robot. Pas la juridiction du robot lui-même qui n’est pas un être.

Laurence Devillers : C’est une aberration. D'accord !

Nicolas Martin : On va laisser Laurence Devillers vous répondre. Allez-y.

Public : Mais il faut qu’elle comprenne ma question !

Laurence Devillers : Après il faut savoir qu’on n’est pas tout seul au monde. Donc on ne va pas interdire en France ni de faire de recherche sur les robots, ni à des sociétés de faire des robots encadrés. Ça serait vraiment se couper du monde entier. Les robots sont construits en Asie, en grand nombre ; on va les avoir qui arrivent ; on a déjà Google Home qui n’est pas un robot, qui est bot, un agent conversationnel qui est chez nous, il faut comprendre comment ça marche ; il faut comprendre comment les réguler. Pour ça, il faut en faire chez nous aussi. Donc ça serait vraiment inapproprié de faire cette régulation dans ce sens-là.

Nicolas Martin : Jean Ponce.

Public : Vous n’avez pas compris ma question. Il ne s’agit pas des robots, il ne s’agit pas de la France.

Nicolas Martin : On va laisser Jean Ponce vous répondre et puis on va passer, parce que vous n’est pas tout seul et qu’il y a d’autres questions qui se posent dans l’assemblée.

Jean Ponce : Je ne suis pas certain d’avoir compris votre question. Mais il y est clair que les régulations, en tout cas, vont changer. Par exemple pensez aux voitures autonomes, elles ne sont pas encore là aujourd’hui, autant que je comprenne. Il y a les systèmes de niveau 2 qui ont le droit d’évoluer sur l’autoroute, mais en Europe en tout cas, ils n’ont certainement pas le droit d’évoluer en ville. Donc les régulations vont devoir changer. Il va falloir comprendre où résident les responsabilités. Les responsabilités sont-elles chez le constructeur ? Chez la personne qui fait les systèmes de perception ? Chez le conducteur, même s’il ne conduit plus réellement bien qu’aujourd’hui il ait les mains sur le volant ? Ou bien sur le piéton qui va se faire écraser s’il le faut ? Enfin s’il le faut, si un accident arrive plutôt ! Donc il va y avoir besoin d’énormément de régulation à ce niveau-là pour des problèmes qui sont complexes et qui mettent en jeu beaucoup d’acteurs différents.

Laurence Devillers : D’accord. Mais c’est ce que j’avais essayé d’expliquer au début, mais on m’a dit que ce n’était pas la bonne réponse.

Jean Ponce : J’ai clarifié ! J'ai clarifié !

Nicolas Martin : Benjamin Bayart.

Benjamin Bayart : Pour moi, il y a point qui est vrai qui est que l’apparition de systèmes de plus en plus automatisés a des impacts sur le droit. En particulier s’il y a un accident alors que c’est un système autonome qui conduit : qui est responsable ? Ça aura deux ou trois impacts mais tout petits ; vraiment tout petits ; ça ne changera presque rien au droit. En revanche, est-ce qu’il y aura un droit spécifique des robots ? Je pense que la réponse est non parce que ça n’a pas de sens. La responsabilité est toujours humaine à un moment. La responsabilité c’est toujours un humain. Si vous utilisez un robot pour faire du mal, vous êtes un malfaiteur, au sens premier du terme. Donc la question de responsabilité derrière est une question qui ramène à des humains. Donc il y aura vraiment quelques points assez précis, mais qui seront assez faibles. Donc je ne crois pas qu’il y ait un droit spécifique, seulement deux-trois détails.

Jean Ponce : Mais que ce soit pour les voitures ou d’autres systèmes automatisés, évidemment la responsabilité ultime est chez la personne, mais quelle personne en particulier ? Un système complexe est fait de nombreux modules qui interagissent, qui peuvent être faits par des gens différents. Où est la responsabilité ? Ce sont des problèmes scientifiques, même ça.

Nicolas Martin : En un mot pour prendre une autre question après.

Benjamin Bayart : Non, non ! C'est un problème juridique ! Laissez les juristes faire, ils savent faire !

Nicolas Martin : Laurence Devillers, en un mot pour conclure.

Laurence Devillers : On a fait des rapports à la CERNA qui est un comité d’éthique qui travaille sur la recherche de l’éthique, sur ces sujets avec des juristes. On a une responsabilité qui va être liée au concepteur, à l’entraîneur, à celui qui a mis les données dans la machine et, probablement – alors je schématise un peu mais c’est plusieurs formes de conception, la conception de l’algorithme, la conception du système entraîné – et puis de l’utilisateur : si on fait des machines qui s’adaptent à l’utilisateur, il va mettre des données aussi. C’est un peu comme vous avez un chien et vous dites « aller mordre le voisin ». Si vous créez une machine qui modifie son comportement parce que vous lui donnez des données différentes ou vous essayiez de le rendre différent de ce qu’il était originellement, vous êtes responsable de ce que vous faites.

Nicolas Martin : Deux questions rapides. Monsieur, oui s’il vous plaît et puis le jeune homme et ce sera la dernière question parce qu’on va être courts en temps. Oui Monsieur, une question courte s’il vous plaît.

Public : Je voudrais poser une question pour obtenir la définition de l’intelligence. On en parle beaucoup.

[Rires du public]

Nicolas Martin : On a essayé de commencer la table ronde par ça, donc on ne va peut-être pas y revenir, monsieur. Il y avait un jeune homme qui avait une question là-bas au fond. Et je pense que ce sera la dernière question qu’on aura le temps de prendre. Avant je vous rappelle dans quelques instants la lecture, l’entretien de clôture avec Cédric Villani dans quelques minutes. Oui ?

Public : Bonjour.

Nicolas Martin : Bonjour.

Public : J’aimerais savoir ce que vous pensez du recours à l’IA dans certains domaines, l’armement avec les armes légales autonomes d’une part et l’exercice du droit avec le recours à certaines prédictions, par exemple sur les scores de récidive. Est-ce qu’il faut l’autoriser, le réguler ? Qu’en pensez-vous ? Merci.

Laurence Devillers : C’est compliqué sur le juridique parce qu’on voit que ce qui est montré en avant c’est que les juges, suivant qu’il soit avant manger, après manger, il y a des tas de choses qui montrent que l’humain lui-même n’a pas forcément la même décision. Maintenant, la machine ne regarde que ce qui est passé et avec des a priori qui sont donnés par les données qui sont mises dans la mise dans la machine et souvent de façon pas suffisante. C’est-à-dire qu’on a vite des problèmes de discrimination raciale, des problèmes de où vous habitez, qui vont venir être des garants de ce que va faire la personne après. Donc pour l’instant ces systèmes-là sont à utiliser avec énormément de précautions. Mais de toutes façons, dans toutes ces aides à la décision, il faut voir ça effectivement comme un outil qui permet d’avoir une opinion et l’humain se fait une autre opinion. Il faut apprendre aux humains à comprendre les biais qu’auront ces machines. Comment elles font pour décider ? À partir de quoi ? Et, en bonne intelligence, c’est à l’humain, qui est responsable, de décider.

Nicolas Martin : Oui, Jean Ponce, après Benjamin Bayart. Rapidement.

Jean Ponce : Juste un mot, il faut se souvenir, je crois que c’est Laurence qui le disait tout à l’heure, ce que sortent ces programmes n’est pas parfait. Donc moi quelqu’un essaie de me vendre un programme qui décide si quelqu’un est un terroriste ou quelqu’un que je n’aime pas ou un machin comme ça, c’est absurde. Faire confiance à un programme qui va marcher dans x % des cas, où on est toujours content du x quel qu’il soit, et qui va faire, par nature, des mauvaises décisions de temps en temps, il ne faut pas. Des aides à la décision en étant très prudents, why not!. Mais dans des sujets qui peuvent être quand même très délicats, il y a beaucoup d’absurde ici.

Nicolas Martin : Benjamin Bayart.

Benjamin Bayart : Pour moi les deux cas sont extrêmement différents. L’intelligence artificielle utilisée dans l’armement c’est une arme. Point. Je me fous que ce soit une intelligence artificielle ou que ce soit un robot ou que ce soit un tank avec un volant. Je n’en ai rien à cogner ! C’est une arme ! C’est une arme, c’est donc utilisé par les militaires. Les responsables de tout ce que cette chose fera, ce sont les militaires, ce sont les politiques qui commandent les militaires. Ça, ça ne bouge pas.

En revanche, en matière de justice, je suis extrêmement sceptique, en particulier même comme aide, même comme aide, si le juge n’a pas reçu une formation colossale sur toutes les limites et tous les biais et tous les travers et tous les petits risques de l’intelligence artificielle. Parce que ça veut dire que c’est l’ordinateur, ce n’est pas une intelligence artificielle, c’est un ordinateur qui va analyser le dossier, qui va dire « pour moi, à 99 % il est coupable ». Mais le juge qui n’a pas reçu la formation il fait : « OK, on condamne » et il ne va pas plus loin. Or ça, ça ce n’est pas possible ! Le principe même de la justice, c’est le débat contradictoire ; c’est le fait d’être jugé par ses pairs, c’est-à-dire par nos pairs en humanité et en citoyenneté. Il n’est pas possible que ce soit remplacé pas un ordinateur ; pas pour les choses sérieuses. Pour mesurer un excès de vitesse, on s’en cogne. Pour les trucs sérieux, pour décider si vous irez en prison, non !

[Applaudissements]

Nicolas Martin : Je vais rebondir là-dessus pour vous poser une question et on prend la question de mademoiselle. Prenons un cas concret que tout le monde connaît ici, l’affaire Grégory. L’affaire Grégory a été relancée parce que le dossier a été mouliné par un algorithme qui a vu des liens de causalité là où les magistrats, a priori, instructeur et enquêteur, n’avaient pas vu de liens de causalité. Où on en est Laurence Devillers par rapport à un cas tel que celui-là qui complète, j’imagine, la question que le jeune homme avait ?

Laurence Devillers : C’est pour ça qu’on dit que ça peut-être des outils puissants pour aider à des décisions, mais en aucune façon remplacer les décideurs. Si on a énormément de dossiers, de temps en temps ça va aider, de temps en temps ça va apporter des bugs. Bien sûr que ça peut marcher. Mais c’est cette possibilité que ça ne marche pas qu’il faut garder en tête et la décision doit rester à l’humain.

Nicolas Martin : Benjamin Bayart, pour répondre à ça rapidement.

Benjamin Bayart : Typiquement sur ce type d’affaire, c’est-à-dire que des magistrats ont planché pendant longtemps, n’ont pas trouvé, l’ordinateur regarde et dit : « Ah peut-être ! » Et là, d’autres magistrats se mettent à regarder en disant « peut-être ! » Ça c’est OK. Mais pas plus !

Nicolas Martin : Mademoiselle.

Public : Je reviens à l’exemple du chatbot et du système du reinforcement learning et le système de récompense. Est-ce qu’on est bien d’accord qu’on a toujours la main sur ce système de récompense parce qu’il faut penser à toutes les règles de gestion, à tous les scénarios possibles. Si je prends le simple exemple d’un scoring, si on ne pense pas à tous les scénarios possibles, on va certainement oublier certains scénarios qu’on va laisser de côté et qui vont fausser, peut-être d’une certain manière, nos résultats.

Et je reviens aussi à un autre point par rapport au choix de l’humain d’utiliser l’intelligence artificielle et les robots. On voit de plus en plus que les gens s’orientent plus vers la machine, vers leur smartphone que d’aller directement vers les personnes. Par exemple là, pour rencontrer du monde on passe par des sites de rencontre alors qu’avant on allait directement parler aux gens. Je pense que c’est aussi de notre responsabilité à nous, en tant qu’humains, d’avoir cet aspect éthique et humain dans nos relations avec les autres aussi.

Laurence Devillers : Tout à fait. Moi je suis sortie de mon labo pour parler des assistants robotiques pour les personnes âgées. Vous voyez à quel point ça me posait des questions parce que je voyais le fort pouvoir de manipulation que pouvaient avoir ces machines. Effectivement vous soulevez la problématique de choix de société. Qu’est-ce qu’on fait ? Quand est-ce qu’on décide qu’on va utiliser ce genre d’outil ou pas ? Pour du divertissement ? On en fait des gadgets, on en fait des choses qui vont être omniprésentes autour de nous et qui vont nous empêcher d’aller vers les autres. Ou au contraire, dans les EHPAD, ce que j’ai vu par exemple, ça crée du lien social entre les gens. Les gens venaient, appelaient, et la machine allait de l’un à l’autre. Donc il faut être créatif dans ces histoires. C’est-à-dire qu’on a des performances réelles, intéressantes, grâce au deep learning, grâce au reinforcement learning, avec des risques, et il faut pouvoir créer des choses qui nous seront utiles. C’est ça le challenge de demain ; c’est là-dessus qu’on réfléchit et je pense que les discours qui ont été faits, le plan Villani ; lisez un peu ce document, il y a énormément de choses autour de l’éthique.

Nicolas Martin : Eh bien vous allez faire mieux que lire, vous allez entendre la personne que l’a fait ! Merci beaucoup à tous les trois. Merci Laurence Devillers. Merci Jean Ponce. Merci Benjamin Bayart. Restez dans l’amphithéâtre puisque dans quelques minutes Cédric Villani sera là pour le dialogue de clôture avec Olivia Gesberg. Merci à tous.

Thierry ARNULF

Nouvelle vulnérabilité découverte dans les processeurs

Le 22 May 2018 à 07:51:46

Une nouvelle faille de sécurité a été découverte, par des chercheurs de Microsoft et d’experts de Google (Project Zero), dans les processeurs. Tous les matériels (serveurs, PC, tablettes, smartphones) sont potentiellement menacés. Il s’agit, en réalité, d’une variante des précédentes … Lire la suite

21 May 2018

april.png Nouvelles April

Decryptualité du 21 mai 2018 - Parcoursup publié en libre sur Framagit

Le 21 May 2018 à 22:13:26

Écouter ou télécharger le décryptualité du 21 mai 2018 (15 minutes)

    Parcoursup, le logiciel du ministère de l'enseignement supérieur qui gère les affectations des étudiants en fonction de leurs souhaits est publié en libre.
    Générique – La prose du pépère – Les Barons Freaks – Licence Art Libre (LAL)

Syndiquer le contenu Syndiquer le contenu grâce à votre agrégateur de flux RSS

jzimmermann.png Jérémie ZIMMERMANN

Écrivons ensemble les plaintes contre les GAFAM

Le 21 May 2018 à 14:09:10

21 mai 2018 - Depuis plus d'un mois, nous vous invitons à rejoindre les 12 plaintes collectives contre les services des GAFAM. Aujourd'hui, nous vous proposons de rédiger ces plaintes avec nous. Pour laisser le temps aux retardataires de nous rejoindre, nous déposerons la plainte le lundi suivant l'entrée en application du RGPD : le 28 mai.

Ecrivons tous la plainte
Les plaintes se concentrent volontairement sur une poignée d'arguments ciblés autour des notions de consentement et de surveillance économique. Le projet de plainte que nous publions aujourd'hui reflète ce cadrage : les arguments sont précis et assez courts. De quoi inciter à participer celles et ceux pour qui les nouages juridiques aussi complexes que rigolos ne sont pas un passe-temps relaxant !

Que vous passiez relire l'orthographe et la grammaire, que vous proposiez des reformulations de style ou bien carrément de nouvelles sources ou arguments juridiques, votre participation sera grave la bienvenue ! Votre participation sera aussi une occasion de plus de rendre ces plaintes pleinement « collectives », d'un bout à l'autre !

Venez sur notre pad de rédaction des plaintes.

Merci de faire tout ça avec nous ! <3

april.png Nouvelles April

Revue de presse de l'April pour la semaine 20 de l'année 2018

Le 21 May 2018 à 09:45:30

La revue de presse de l'April est régulièrement éditée par les membres de l'association. Elle couvre l'actualité de la presse en ligne, liée au logiciel libre. Il s'agit donc d'une sélection d'articles de presse et non de prises de position de l'association de promotion et de défense du logiciel libre.

En podcast.

Sommaire de la revue de presse de l'April pour la semaine 20

[Programmez!] Mozilla publie un rapport pour faciliter la mise en place de projets

Par Frederic Mazue, le mercredi 16 mai 2018. Extrait:
> Mozilla et l’Open Tech Strategies annoncent la publication d'un rapport destiné à mieux comprendre le fonctionnement d’un projet Open Source, depuis la stratégie jusqu’à la gouvernance, en passant par leur fonctionnement au quotidien. Le rapport repose sur la stratégie “Open by Design” de Mozilla, qui vise à optimiser le développement et l’impact de projets technologiques collaboratifs, à l’aide des communautés et autres parties prenantes extérieures.
Lien vers l'article original: https://www.programmez.com/actualites/open-source-mozilla-publie-un-rapport-pour-faciliter-la-mise-en-place-de-projets-27561

[La gazette.fr] Dématérialisation: «Le potentiel de gains pour l’usager, et pour les services publics est extraordinaire»

Par Gabriel Zignani Romain Mazon, le mercredi 16 mai 2018. Extrait:
> Henri Verdier, directeur interministériel du numérique et du système d'information de l'Etat français est au coeur de la transformation numérique du secteur public, jusqu'à l'opendata, puisqu'il est également administrateur général des données (AGD). La Gazette l'a longuement interviewé, sur l'ensemble des dossiers à l'ordre du jour des collectivités. Premier volet d'une série qui en compte trois: la dématérialisation des services publics, et l'administration numérique.
Lien vers l'article original: http://www.lagazettedescommunes.com/563650/dematerialisation-le-potentiel-de-gains-pour-lusager-et-pour-les-services-publics-est-extraordinaire

[ZDNet France] Outils publics: la Dinsic publie son guide en matière d’ouverture du code

Par Louis Adam, le mardi 15 mai 2018. Extrait:
> Dans un document en ligne, la direction interministérielle des systèmes d’information et de communication de l’Etat détaille ses bonnes pratiques et recommandations en matière d’ouverture du code source des outils développés par et pour les administrations. Une mesure prévue par la loi République Numérique en 2016.
Lien vers l'article original: http://www.zdnet.fr/actualites/outils-publics-la-dinsic-publie-son-guide-en-matiere-d-ouverture-du-code-39868220.htm

Et aussi:
[Le Monde Informatique] La DINSIC clarifie sa politique de contribution vis-à-vis du logiciel libre
[cio-online.com] La DINSIC clarifie sa politique de contribution vis-à-vis du logiciel libre

[Le Journal de Montréal] Montréal: une nouvelle politique sur les logiciels libres

Par Sarah Daoust-Braun, le mardi 15 mai 2018. Extrait:
> La Ville de Montréal se dote d’une nouvelle politique sur l’utilisation et le développement de logiciels et de matériels libres sur 10 ans, pour se libérer à terme des licences et du menottage informatique.
Lien vers l'article original: http://www.journaldemontreal.com/2018/05/15/montreal--une-nouvelle-politique-sur-les-logiciels-libres

Et aussi:
[L'Informaticien] Le logiciel libre a-t-il toujours la cote auprès de l’Administration?

[Association mode d'emploi] L’éducation populaire se réinvente

Par Michel Lulek, le mardi 15 mai 2018. Extrait:
> Traditionnellement ancrée dans la culture, les sports et la jeunesse, l’éducation populaire a également investi de nouvelles thématiques. Elle est en particulier très ­présente dans le champ du numérique autour du mouvement des logiciels libres, des données personnelles et plus globalement de ce qu’on appelle les communs.
Lien vers l'article original: https://www.associationmodeemploi.fr/article/l-education-populaire-se-reinvente.64234

Note

Les articles de presse utilisent souvent le terme « Open Source » au lieu de Logiciel Libre. Le terme Logiciel Libre étant plus précis et renforçant l'importance des libertés, il est utilisé par l'April dans sa communication et ses actions. Cependant, dans la revue de presse nous avons choisi de ne pas modifier les termes employés par l'auteur de l'article original. Même chose concernant l'emploi du terme « Linux » qui est généralement utilisé dans les articles pour parler du système d'exploitation libre GNU/Linux.

20 May 2018

bsibaud.png Benoît SIBAUD

LinuxFr.org : première quinzaine de mai 2018

Le 20 May 2018 à 16:42:43

Sommaire

Nonante-sixième épisode dans la communication entre les différents intervenants autour du site LinuxFr.org : l’idée est tenir tout le monde au courant de ce qui est fait par les rédacteurs, les admins, les modérateurs, les codeurs, les membres de l’association, etc.

L’actu résumée ([*] signifie une modification du sujet du courriel) :

Avertissement

Ceci est un message pour prévenir certains de nos visiteurs qui nous transmettent inutilement des infos sensibles via leur lecteur de flux RSS/Atom, infos qui se retrouvent stockées dans nos logs web.

Format par défaut d'un log du serveur web Nginx (source) :

log_format combined '$remote_addr - $remote_user [$time_local] '
                    '"$request" $status $body_bytes_sent '
                    '"$http_referer" "$http_user_agent"';

Exemple fictif :

ip.ip.ip.ip - voldemort [20/May/2018:06:25:18 +0200] "GET /news.atom HTTP/1.1" 304 0 "http://voldemort:f1m~oI3fuIe4@linuxfr.org/news.atom" "FreshRSS/1.10.2 (Linux; http://freshrss.org)"

Certains utilisateurs nous transmettent leur nom d'utilisateur distant (pas forcément gênant, mais inutile).

Par contre, certains nous transmettent leur nom d'utilisateur ET leur mot de passe. On a ainsi leur nom d'utilisateur dans le champ remote_user mais aussi leur nom d'utilisateur et leur mot de passe en clair dans le champ http_referer, sous la forme http://login:pass@linuxfr.org/journaux.atom ou https://login:pass@linuxfr.org/news.atom. Cela concerne 7 utilisateurs différents (tous utilisateurs de FreshRSS), dont 2 ont été identifiés et contactés en privé. Pour les cinq autres, à savoir dalan, Jeoffrey, jm, SVNET et titoko, je vous suggère d'arrêter de nous envoyer votre mot de passe ainsi, puis de changer de mot de passe étant donné qu'il a fuité, et aussi d'utiliser préférentiellement la version HTTPS du flux souhaité. N'hésitez pas à me contacter en privé si vous avez des questions (oumph CHEZ linuxfr.org).

Nb: de nombreux autres utilisateurs de FreshRSS (utilisant les mêmes versions ou d'autres) ne sont pas concernés par le souci, donc j'imagine qu'il s'agit d'un souci de configuration.

Statistiques

Du 1er au 15 mai 2018

  • 1374 commentaires publiés (dont 5 masqués depuis) ;
  • 342 tags posés ;
  • 71 comptes ouverts (dont 9 fermés depuis) ;
  • 23 entrées de forums publiées (dont 1 masquée depuis) ;
  • 32 liens publiés (dont 9 masqués depuis) ;
  • 22 dépêches publiées ;
  • 18 journaux publiés (dont 2 masqués depuis) ;
  • 3 entrées nouvelles, 1 corrigée dans le système de suivi ;
  • 1 sondage publié ;
  • 1 page wiki publiée (dont 0 masquée depuis).

Listes de diffusion (hors pourriel)

Liste webmaster@ - [restreint]

  • R.A.S.

Liste linuxfr-membres@ — [restreint]

  • [membres linuxfr] Signature de la tribune sur LL et directive européenne sur le droit d'auteur
  • [membres linuxfr] Soutien de LinuxFr à espace de cowork Gare de Vaugirard ?
  • [membres linuxfr] LinuxFr.org et EclipseCon

Liste meta@ - [restreint]

  • R.A.S.

Liste moderateurs@ - [restreint]

  • [Modérateurs] [LinuxFr.org] Présence de l'équipe à l'EclipseCon les 13 et 14 juin
  • [Modérateurs] Compte supprimé

Liste prizes@ - [restreint]

  • [Prizes] livre Eyrolles

Liste redacteurs@ - [public]

  • R.A.S.

Liste team@ - [restreint]

  • R.A.S.

Liste webmaster@ — [restreint]

  • R.A.S.

Canal IRC adminsys (résumé)

Tribune de rédaction (résumé)

Tribune de modération (résumé)

  • Premiers essais pour LinuxFr avec PIA le logiciel de la CNIL pour le RGPD
  • Questionnements de modération : humour noir ou propos répréhensible ? Lien abonné de LWN ?
  • Du spam caché dans un caractère de ponctuation… Et du spam en général (dont un vendeur de cosmétiques qui sait où chercher son audience…)
  • Retour sur la campagne de financement participatif de la Maison du Libre et des Communs
  • La question de la quinzaine : « je me demande ce qui serait le plus surprenant : de la neige au datacenter, ou de la neige au mois de mai ! » (il a déjà neigé au moins en Normandie et dans le Massif Central durant le mois de mai…)
  • Le petit mot d'excuse qui fait plaisir après une modération de commentaire

Commits/pushs de code https://github.com/linuxfrorg/

  • R.A.S.

Divers

  • Proposition de conférence soumise + table ronde + demande de stand pour les RMLL 2018 Strasbourg
  • Proposition de conférence soumise + table ronde + atelier pour les Geek Faëries Selles-sur-Cher

Commentaires : voir le flux atom ouvrir dans le navigateur

19 May 2018

bsibaud.png Benoît SIBAUD

Héberger son courriel en 2018

Le 19 May 2018 à 08:29:06

Cette dépêche n’a pas vocation à parler de tous les aspects du courriel : certains ont déjà été évoqués précédemment comme la configuration de base, la gestion du spam ou la configuration TLS, par exemple. On pourrait aussi parler :

  • des fournisseurs de courriel qui limitent le nombre de courriels par seconde qu’ils acceptent en entrée (ce qui ralentit pas mal la distribution des messages sur une liste de diffusion, par exemple la lettre quotidienne de LinuxFr.org) ;
  • des divers filtres anti‐pourriel mis en place par les autres fournisseurs qui bloquent à tort des messages ;
  • des listes noires ou des DNSBL/RBL ;
  • des services d’adresse de courriel temporaire ;
  • des serveurs primaire et secondaire de courriel ;
  • etc.

Bref, le sujet est vaste. Il se dit que ce serait même un métier (et il se dit aussi que les professionnels et spécialistes se feront un plaisir de corriger ou compléter cette dépêche en cas d’oubli, d’erreur ou d’imprécision).

Mais quelle serait la problématique, disons… d’une association de bénévoles passionnés qui voudraient avoir leurs propres serveurs de courriel et de listes de diffusion, et qui voudraient interagir avec le reste du monde ?

Sommaire

Ici, on ne va pas raisonner en termes d’utilisateurs finals, d’émetteurs et de destinataires des courriels, mais en termes de serveurs de courriel. Intéressons‐nous à notre association fictive et baptisons ses serveurs/services linuxfr.example et lists.linuxfr.example (les deux pouvant être séparés ou fusionnés, ce qui a des conséquences sur les possibilités de redondance primaire et secondaire, ou la réécriture des alias par le gestionnaire de messagerie, sachant que l’on ne veut exposer que du @linuxfr.example).

On va causer SPF (qui peut émettre du courriel pour mon domaine), DKIM (authenticité du domaine expéditeur et intégrité du message) et DMARC (politique pour faire appliquer SPF et DKIM, et gérer les erreurs). La politique DKIM ou SPF peut être inexistante, tolérante (« si ce n’est pas comme prévu, ce n’est pas grave ») ou stricte (« si ce n’est pas comme prévu, veuillez rejeter ce courriel »).

Plusieurs cas se présentent à nous :

Schéma

Exemples de politiques

Politiques visibles dans les courriels reçus

L’en‐tête Authentication-Results dans le courriel reçu permet d’avoir une vision au niveau DKIM/SPF : par exemple, le champ spf pourra prendre des valeurs comme none (pas de politique), pass (OK), softfail (pas bon, mais tant pis), etc. Le champ dmarc pourra aussi prendre des valeurs none, pass ou fail. De même pour le champ dkim, on pourra trouver fail, neutral, none, pass, temperror, permerror. Évidemment, ça suppose que le courriel est reçu et non rejeté en amont…

Authentication-Results: someserver; auth=pass smtp.auth=xxxx
Authentication-Results: someserver; dkim=fail reason="signature verification failed" (2048-bit key; unprotected) header.d=xxx header.i=xxx header.b=xxx;
Authentication-Results: someserver; dkim=fail reason="verification failed; insecure key"
Authentication-Results: someserver; dkim=neutral reason="verification failed; insecure key/testing"
Authentication-Results: someserver; dkim=none reason="no signature"; dkim-adsp=fail (insecure policy); dkim-atps=neutral
Authentication-Results: someserver; dkim=pass (1024-bit key; secure) header.d=xxx header.i=xxx header.b=xxx;
Authentication-Results: someserver; dkim=pass header.i=xxx header.s=xxx header.b=xxx;
Authentication-Results: someserver; dkim=pass reason="2048-bit key; unprotected key"
Authentication-Results: someserver; dkim=permerror (0-bit key) header.d=xxx header.i=xxx header.b=xxx;
Authentication-Results: someserver; dkim=permerror (bad message/signature format)
Authentication-Results: someserver; dkim=permerror reason="key not found"
Authentication-Results: someserver; dkim=temperror (0-bit key; unprotected) header.d=xxx header.i=xxx header.b=xxx;
Authentication-Results: someserver; dmarc=fail header.from=xxxx
Authentication-Results: someserver; dmarc=none header.from=xxxx
Authentication-Results: someserver; dmarc=pass header.from=xxxx
Authentication-Results: someserver; spf=none (sender IP is xx.xx.xx.xx) smtp.mailfrom=xxxx;
Authentication-Results: someserver; spf=pass (sender IP is xx.xx.xx.xx) smtp.mailfrom=xxxx
Authentication-Results: someserver; spf=softfail (sender IP is xx.xx.xx.xx) smtp.mailfrom=xxxx; dkim=fail (signature did not verify)

On va aussi trouver des informations intéressantes dans les en-têtes DKIM-Filter:, DKIM-Signature: et Received-SPF: (et aussi d’autres parfois comme X-DKIM:, X-Google-DKIM-Signature:, X-Original-DKIM-Signature:, X-Original-DMARC-Record:, etc.) :

DKIM-Filter: OpenDKIM Filter v2.11.0 mx2.ac-nancy-metz.fr 10D63249F
DKIM-Filter: OpenDKIM Filter v2.9.2 webmail.ntymail.com A4EC71E4121
DKIM-Signature: v=1; a=rsa-sha256; q=dns/txt; c=relaxed/relaxed;
DKIM-Signature: v=1; a=rsa-sha256; c=simple/simple;
Received-SPF: None (…)
Received-SPF: Pass (…)
Received-SPF: SoftFail (…)

Les politiques annoncées

Prenons les politiques annoncées (via DNS) pour (un des domaines des) dix fournisseurs de courriel les plus utilisés par nos visiteurs (plus linuxfr.org) :

Domaine SPF DMARC DKIM
gmail.com v=spf1 redirect=_spf.google.com / v=spf1 include:_netblocks.google.com (…) ~all v=DMARC1; p=none; sp=quarantine; rua=mailto:(…) k=rsa; p=(…2048 bits…)
free.fr N/A N/A N/A
yahoo.com v=spf1 redirect=_spf.mail.yahoo.com / v=spf1 ptr:yahoo.com ptr:yahoo.net ?all v=DMARC1; p=reject; pct=100; rua=mailto:(…); k=rsa; p=(…2048 bits…)
hotmail.com v=spf1 ip4:157.55.9.128/25 include:spf.protection.outlook.com (…) ~all v=DMARC1; p=none; sp=quarantine; pct=100; rua=mailto:(…); ruf=mailto:(…); fo=1 ?
laposte.net v=spf1 include:_spfbloc1.laposte.net (…) mx -all v=DMARC1;p=quarantine;sp=reject;rua=mailto:(…);ruf=mailto:(…);rf=afrf; v=DKIM1; k=rsa; p=(…2048 bits…)
wanadoo.fr N/A N/A N/A
orange.fr N/A N/A N/A
gmx.de v=spf1 ip4:213.165.64.0/23 (…) -all N/A
no-log.org N/A N/A N/A
protonmail.ch v=spf1 include:_spf.protonmail.ch ~all v=DMARC1; p=quarantine; fo=1; v=DKIM1; k=rsa; p=(…1024 bits…)
linuxfr.org v=spf1 a mx ~all v=DMARC1; p=none; fo=0; adkim=r; aspf=r; pct=100 v=DKIM1; k=rsa; p=(…2048 bits…)

On voit (enfin, si l’on sait un minimum lire les politiques) que l’on trouve un peu de tout, entre rien et tout, du tolérant au très strict (par exemple, pour SPF ?all est neutre, ~all signale uniquement les échecs et -all rejette).

Embrouillons tout ça

L’envoi entre tiers sans intérêt

alice.example envoie du courriel n’ayant aucun rapport avec linuxfr.example à bob.example. Rien de particulier à dire, et l’exemple est assez peu pertinent ici.

La réception directe

alice.example envoie du courriel à linuxfr.example, qui va respecter la politique SPF/DKIM de alice.example.

Cela couvre différents cas : les vraies boîtes d’utilisateurs, les boîtes techniques (postmaster@, root@, etc.). Et l’on peut inclure les échanges avec le gestionnaire de listes de diffusion lui‐même ([dés]abonnement, accès aux archives par courriel, etc.) ou tous les autres robots du même genre.

En revanche, si le courriel tente de se faire passer comme provenant de linuxfr.example (ou lists.linuxfr.example), c’est alors la même politique de linuxfr.example (ou de lists.linuxfr.example) qui sera respectée, conduisant vraisemblablement au rejet.

La réception sur alias pointant vers un autre domaine

alice.example envoie du courriel à l’adresse bob@linuxfr.example, qui est un alias de bobby@bob.example. linuxfr.example va se décider suivant la politique SPF/DKIM de alice.example ; et si ça passe, bob.example va voir arriver du courriel de linuxfr.example prétendant venir de alice.example. bob.example pourrait donc accepter ou rejeter suivant la politique SPF ou DKIM de alice.example (si les courriels en réponses partiront bien vers alice.example, le message de rejet sera en revanche bien reçu par linuxfr.example).

La réception sur une liste de discussion/diffusion

alice.example envoie du courriel à team@lists.linuxfr.example, qui est une liste de diffusion/discussion. linuxfr.example va se décider suivant la politique SPF/DKIM de alice.example. Et maintenant, il doit diffuser vers tous les abonnés à la liste. Deux grands choix s’offrent à lui :

  • il rajoute ses propres infos au courriel, mais sans modifier les infos initiales ; se faisant, il prétend être alice.example devant plein de fournisseurs différents, il court alors le risque que la politique SPF/DKIM de alice.example soit stricte et l’interdise ; auquel cas, il reçoit des messages de rejet et certains abonnés (ceux des fournisseurs qui respectent les politiques DKIM/SPF) ne recevront pas le message initial ;
  • il modifie le courriel pour dire que c’est lui qui l’envoie ; auquel cas, il est plus ou moins difficile de répondre à alice.example (le nom ou l’adresse peuvent être masqués par exemple).

Par exemple, voir le paramétrage DKIM et DMARC pour Sympa (version >= 6.1).

L’envoi direct

linuxfr.example envoie un courriel à alice.example, qui peut (ou non) le vérifier par rapport à la politique SPF/DKIM de linuxfr.example. Dans cette catégorie, on va trouver les envois depuis les comptes des utilisateurs, les envois automatiques (cron par exemple) et autres robots.

L’envoi depuis le mauvais serveur à un tiers

alice.example envoie du courriel à bob.example en prétendant envoyer un message de la part de admin@linuxfr.example (ça peut être légitime s’il s’agit de l’utilisateur admin@linuxfr.example qui envoie son courriel via son propre fournisseur alice.example ou ça peut être frauduleux, comme un spammeur usurpant cette adresse par exemple). Si bob.example ne prend pas de précautions particulières, le message sera diffusé. Si maintenant bob.example respecte la configuration SPF ou DKIM de linuxfr.example, alors le message pourra être rejeté (suivant ladite configuration). En revanche, on voit que linuxfr.example ne peut pas faire grand‐chose si bob.example ne respecte pas la politique qui a été mise en place.

L’envoi depuis le gestionnaire de listes de diffusion

lists.linuxfr.example peut transiter par linuxfr.example pour envoyer un courriel à alice.example, qui peut (ou non) vérifier les politiques SPF/DKIM des deux domaines. Dans cette catégoire, on va trouver par exemple l’envoi de la version agrégée des échanges d’une liste de diffusion.

Conclusion

Normalement, à ce stade, vous devriez vous dire que le courriel en 2018 c’est trivial et mettre en place votre propre infrastructure, avec serveur d’envoi et serveur de listes de discussion… Ou vous poser des questions du type : puis‐je utiliser la politique SPF d’un domaine pour écrire sur un alias, me faire rejeter volontairement mon courriel et en déduire le domaine de l’adresse cachée derrière l’alias. Ou bien avoir envie d’une aspirine.

C’est là que je replacerai subrepticement cet extrait de l’introduction de cette dépêche :

« Bref, le sujet est vaste. Il se dit que ce serait même un métier (et il se dit aussi que les professionnels et spécialistes se feront un plaisir de corriger ou compléter cette dépêche en cas d’oubli, d’erreur ou d’imprécision). »

Et que je rappellerai qu’une association de bénévoles passionnés ayant ses propres serveurs de courriel et de listes de diffusion rencontre parfois deux ou trois difficultés, mais que c’est très formateur. C’est d’ailleurs l’origine de cette dépêche : un courriel envoyé sur une liste LinuxFr.org depuis un domaine avec une politique SPF stricte, relayé par notre Sympa, et qui était rejeté par GMail ; ainsi qu’une lettre quotidienne qui était subitement classée comme pourriel par Free, ce qui a entraîné une relecture et une modification de notre configuration.

Commentaires : voir le flux atom ouvrir dans le navigateur

18 May 2018

jzimmermann.png Jérémie ZIMMERMANN

Derrière les assistants vocaux, des humains vous entendent

Le 18 May 2018 à 14:38:17

18 mai 2018 - Cette semaine, nous sommes allés à la rencontre de Julie, qui a travaillé pour une entreprise chargée d' « améliorer » le fonctionnement de Cortana, l’assistant vocal de Microsoft, en écoutant une à une diverses paroles captées par la machine (volontairement ou non).

Nous partageons ici son témoignage édifiant, en vidéo ainsi qu'à l'écrit (en fin d'article).

Comme nous le rappelle Antonio Casilli ci-dessous, ce récit souligne exactement les pratiques très « humaines » que l'on retrouve en masse sous les miroirs trompeurs d'une soi-disant « intelligence artificielle ».

Contre l'emprise des GAFAM sur nos vies, signez les plaintes collectives sur gafam.laquadrature.net

Les humains derrière Cortana, par Antonio Casilli

Antonio Casilli, membre de La Quadrature du Net, est maître de conférences en Digital Humanities à Telecom ParisTech et chercheur associé en sociologie au Centre Edgar-Morin, Ecole des Hautes Etudes en Sciences Sociales, Paris. Voir son site.

Qui écoute vos conversations quand vous utilisez un assistant vocal comme Cortana ? Qui regarde vos requêtes quand vous utilisez un moteur de recherche comme Bing ? « Personne », vous assurent les concepteurs de ces dispositifs, « ce sont des machines ». La réalité est toute autre, comme l'atteste ce témoignage : une jeune femme qui, sans contrat de travail et sans aucun accord de confidentialité, a retranscrit des milliers de conversations privées, recherches d'information, noms et coordonnées personnelles de personnes utilisant des produits Microsoft.

Son métier ? Dresseuse d'IA.

Malgré les allégations de leurs producteurs, les assistants virtuels qui équipent les enceintes connectées trônant dans nos salles à manger ou qui se nichent jusque dans nos poches, installés sur nos smartphones, ne naissent pas intelligents. Ils doivent apprendre à interpréter les requêtes et les habitudes de leurs utilisateurs.

Cet apprentissage est aidé par des êtres humains, qui vérifient la pertinence des réponses des assistants virtuels aux questions de leurs propriétaires. Mais plus souvent encore, ces êtres humains « entraînent » les dispositifs, en leurs fournissant des données déjà préparées, des requêtes avec des réponses toutes faites (ex. « Quelle est la météo aujourd'hui ? » : « Il fait 23 degrés » ou « Il pleut »), des phrases auxquelles ils fournissent des interprétations (ex. savoir dans quel contexte « la flotte » signifie « un ensemble de navires » ou « la pluie »).

Ces dresseurs d'intelligences artificielles sont parfois des télétravailleurs payés à l'heure par des entreprises spécialisées. Dans d'autres cas, ils sont des « travailleurs à la pièce » recrutés sur des services web que l'on appelle des plateformes de micro-travail.

Celle de Microsoft s'appelle UHRS et propose des rémunérations de 3, 2, voire même 1 centime de dollar par micro-tâche (retranscrire un mot, labelliser une image…). Parfois les personnes qui trient vos requêtes, regardent vos photos, écoutent vos propos sont situés dans votre pays, voire dans votre ville (peut-être vos voisins d'en bas ?). D'autres fois, ils sont des travailleurs précaires de pays francophones, comme la Tunisie, le Maroc ou Madagascar (qui s'est dernièrement imposé comme « leader français de l'intelligence artificielle »

Les logiciels à activation vocale tels Cortana, Siri ou Alexa sont des agents conversationnels qui possèdent une forte composante de travail non-artificiel. Cette implication humaine introduit des risques sociétaux spécifiques. La confidentialité des données personnelles utilisées pour entraîner les solutions intelligentes est à risque. Ces IA présupposent le transfert de quantités importantes de données à caractère personnel et existent dans une zone grise légale et éthique.

Dans la mesure où les usagers des services numériques ignorent la présence d'êtres humains dans les coulisses de l'IA, ils sous-estiment les risques qui pèsent sur leur vie privée. Il est urgent de répertorier les atteintes à la privacy et à la confidentialité associées à cette forme de « digital labor », afin d'en estimer la portée pour informer, sensibiliser, et mieux protéger les personnes les plus exposées.

Témoignage complet de Julie

J'ai travaillé comme transcripteuse ('transcriber') pour améliorer la qualité de la version française de Cortana, "votre assistante personnelle virtuelle" proposée par Microsoft. Je travaillais en télétravail pour une entreprise chinoise qui avait Microsoft pour client. J'ai commencé en Avril 2017 et arrêté en Décembre 2017.

J'ai pu constater directement le type de données que Microsoft collecte via son petit monstre Cortana, car les données audio qu'elle collectait passaient entre nos mains (et nos oreilles !) pour analyse et correction.

Microsoft, voulant améliorer les capacités de compréhension de Cortana, collectait les données des utilisateurs 'consentants'. Donc, quand ces utilisateurs s'adressaient à Cortana, celle-ci collectait, enregistrait ce qu'ils disaient. Ensuite, Microsoft récupérait tout ça, envoyait une partie des enregistrements à la compagnie pour laquelle je travaillais, et celle-ci mettait le tout sur notre plate-forme de télétravail.

Les transcripteurs se connectaient, et écoutaient un par un les enregistrements. Les pistes étaient généralement très courtes, entre 3 et 15 secondes en moyenne (mais pouvaient parfois durer plusieurs minutes). En fonction des projets sur lesquels on travaillait, on devait réaliser entre 120 et 170 transcriptions/heure. Plusieurs milliers de pistes étaient déposées quotidiennement sur notre plate-forme.

On écoutait l'enregistrement audio, ensuite un texte s'affichait, nous montrant ce que Cortana avait compris et retranscrit. Notre travail était de vérifier si elle avait bien compris - si ce n'était pas le cas, on devait corriger le texte, la moindre faute de compréhension, de conjugaison ou d'orthographe. Une autre partie du travail consistait à ajouter des tags dans le texte signalant les événements sonores qui pourraient expliquer pourquoi Cortana avait mal compris ceci ou mieux compris cela.

Je n'ai pas le détail de la suite du processus, mais j'imagine qu'ensuite, les données que nous corrigions étaient envoyées à une équipe de techniciens, programmeurs et autres génies de l'informatique qui s'occupaient de faire comprendre à Cortana comment ne pas répéter les mêmes erreurs.

Je me demandais à chaque fois si ces gens avaient conscience qu'une personne extérieure allaient entendre leurs petits délires sexuels

Les données qu'on écoutait allaient d'Utilisateur A qui dit simplement "Hey Cortana, quelle sera la météo demain?" à Utilisateur B qui demande en chuchotant à Cortana de lui trouver des vidéos porno de telle ou telle catégorie...

Il y avait leurs recherches internet, leurs interactions directes avec Cortana ("Hey Cortana, raconte-moi une blague", "imite la poule", "est-ce que tu m'aimes?", "est-ce que tu ressens la douleur?"…). Les utilisateurs peuvent aussi dicter du texte : messages, documents texte (résumés de cours, comptes-rendus professionnels...), adresses GPS, courriers administratifs (avec par exemple leur numéro de sécurité sociale), etc. ; nous avions accès à tout ça.

Elle peut être connectée à des consoles Xbox, on avait donc aussi des enregistrements provenant de ce service-là. Il y avait notamment des morceaux de communication en ligne (principalement d'ados et d'enfants) qui discutent sur les jeux en réseaux.

On avait également de nombreux extraits de conversations en ligne, sûrement sur Skype, provenant de personnes qui utilisaient un service de traduction instantanée (Microsoft Translator mais peut-être aussi Skype Translator, je ne suis pas certaine).

Nous n'avions jamais l'intégralité des conversations évidemment, elles étaient découpées en petites pistes ; cependant on pouvait tomber sur plusieurs morceaux d'une même conversation dans une même série de transcriptions (c'était suffisant pour dresser un profil basique de l'utilisateur ou de son humeur du moment par exemple).

On avait des conversations diverses, vraiment toutes sortes de choses, notamment souvent les séances sexcams de certains utilisateurs qui avaient besoin d'un service de traduction pour se faire comprendre, et dans ces cas-là les transcriptions étaient très explicites (parfois amusantes, parfois glauques). Je me demandais à chaque fois si ces gens avaient conscience qu'une personne extérieure allaient entendre leurs petits délires sexuels. Cortana ne fait pas le tri...

Enfin, il y avait beaucoup d'enregistrements involontaires, où des personnes discutent entre elles (dans leur voiture, à la maison, avec leurs enfants sur le chemin de l'école...) tandis que Cortana est dans les parages (tablette, téléphone portable, ordinateur, etc.) et s'est déclenchée de manière non-sollicitée et a tout enregistré.

(D'ailleurs, on avait aussi beaucoup d'utilisateurs qui insultaient tout simplement Cortana, car elle s'était déclenchée de façon non-sollicitée, ou avait mal compris une requête... Vous n'imaginez pas le nombre de fois où j'ai entendu "Sale pute Cortana !" )

On avait ainsi accès à énormément de données personnelles, que ce soit des bribes de conversations privées en ligne ou bien hors ligne.

N'importe qui pouvait être engagé

Pour pouvoir être embauché (ils recrutaient en grand nombre), il fallait s'inscrire sur le site de l'entreprise, postuler puis suivre une formation en ligne conclue par un examen final. Si on avait un pourcentage de réussite satisfaisant, on était engagé. Auquel cas, le manager nous faisait créer un compte sur le site internet de télétravail (une plate-forme externe, utilisée par plusieurs compagnies comme celle qui m'avait engagée), et le travail commençait.

Il n'y avait pas besoin d'envoyer son CV, ni aucun entretien individuel avec un responsable ou un manager (ni par téléphone, ni par Skype, ni e-mail, rien). N'importe qui pouvait être engagé et avoir accès aux enregistrements du moment qu'ils en avaient les compétences techniques, que l'examen final avait été réussi. Pourtant, nous avions accès à des informations sensibles et personnelles.

Beaucoup de personnes ignorent ou oublient que les données collectées par Cortana (et autres outils du genre) ne sont pas uniquement traitées par des robots, mais bien aussi par des êtres-humains.

En m'inscrivant sur le site de l'entreprise, j'ai accepté ses conditions d'utilisations en cochant machinalement des petites cases, celles-ci parlaient d'une multitudes de choses, mais à ce que je me souviens il n'y avait pas d'emphase spéciale sur le respect de la vie privée des utilisateurs de nos clients. Et à aucun moment j'ai signé de ma main un contrat de confidentialité.

Ils m'ont pourtant bien demandé de signer et renvoyer un document relatif aux taxes et impôts ; ils auraient pu en faire autant pour le respect de la confidentialité.

Et sur plus d'une cinquantaine de pages d'instructions détaillées sur comment traiter les transcriptions, pas une seule ligne ne mentionnait le respect de la vie privée des utilisateurs. Pas un seul des nombreux e-mails du manager que nous recevions chaque semaine, rien n'a jamais été dédié au respect de la vie privée (en ligne et hors ligne) des utilisateurs.

Et ce dont je parle ici ne concerne pas uniquement les utilisateurs français de Cortana, il y avait des équipes de transcripteurs pour une multitudes de langues (anglais, portugais, espagnol, etc.). On avait le même manager et les mêmes instructions générales.

En théorie, les données étaient anonymes pour les transcripteurs, c'est-à-dire que nous n'avions jamais les identifiants des utilisateurs que nous écoutions, et les pistes étaient généralement distribuées de façon aléatoire et désordonnée, en plus d'être parfois découpées. Cependant, inévitablement il arrivait que les utilisateurs révèlent un numéro de téléphone, une adresse, des coordonnées, date de naissance, numéros importants, événements auxquels ils allaient se rendre, etc.

Certaines voix se reconnaissent facilement, et bien que les pistes étaient aléatoires et dans le désordre, mises bout à bout elles auraient dans quelques cas pu suffire à un transcripteur déterminé pour identifier un utilisateur. De plus, on travaillait tous depuis nos propres ordinateurs, il était donc facile de récupérer les enregistrements qu'on traitait si on le voulait.

Selon moi, ce n'était pas bien sécurisé, surtout quand on considère le fait qu'on avait aussi beaucoup d'enregistrements provenant d'enfants. Mais il faut comprendre que ce genre de traitement de données est de toute façon impossible à sécuriser entièrement (encore moins quand on sous-traite), car des données récoltées massivement ne peuvent pas être triées parfaitement, des informations sensibles passeront toujours.

Beaucoup d'utilisateurs se sentent dépassés par tout ça, et les GAFAM savent exactement comment en tirer parti

Enfin, j'aimerais parler du fait qu'il me semble évident que la plupart des logiciels de reconnaissance vocale et assistants virtuels doivent se construire comme Cortana, donc il est important que les gens mesurent ce qu'utiliser de tels logiciels implique (ce que j'ai décrit n'est assurément pas juste typique à Microsoft).

Avec l'affluence des nouveaux ''assistants personnels virtuels'', le champs des possibles pour la collecte de données s'est développé de manière fulgurante.
Le modèle de Microsoft (et les autres GAFAM) n'est pas basé sur le respect de la vie privée et la non-intrusion, c'est le contraire.

Les outils comme Cortana sont hautement intrusifs et ont accès à une liste impressionnante de données personnelles, qu'ils exploitent et développent simultanément.

La collecte de données qu'ils peuvent permettre peut être utilisée à votre insu, détournée, utilisée contre votre gré, tombée entre de mauvaises mains, être exploitée à des fins auxquelles vous n'avez jamais consciemment donné votre accord…

Personnaliser les paramètres de confidentialité de services de ce genre requiert parfois des compétences en informatique qui dépassent l'utilisateur amateur, et des écrans de fumée font oublier que vous sacrifiez et marchandez votre vie privée à l'aide de formules comme "personnalisation du contenu", "optimisation des résultats", "amélioration de votre expérience et de nos services".

Beaucoup d'utilisateurs se sentent dépassés par tout ça, et les GAFAM savent exactement comment en tirer parti.

Merci beaucoup à Julie pour son témoignage !

Contre l'emprise des GAFAM sur nos vies, signez les plaintes collectives sur gafam.laquadrature.net

april.png Nouvelles April

L'April présente à la HitchHack le 19 mai 2018 à Vannes

Le 18 May 2018 à 13:06:24

19 Mai 2018 - 09:30
19 Mai 2018 - 17:30

La 2ème édition de la HitchHack se déroulera le samedi 19 mai 2018 à Vannes.

La HitchHack est une journée de rencontre (conférences/ateliers/village associatif) organisée par l'association d'étudiant⋅e⋅s en sécurité informatique Hack2G2. Les axes d'action de Hack2G2 sont la promotion du logiciel libre, la protection de la vie privée en ligne, l'hygiène numérique et le partage de la connaissance informatique en général. L'événement est publique et ouvert à tous et à toutes.

À cette occasion, l'April participera avec un stand partagé avec l'association Rhizomes, qui fait la promotion du logiciel libre dans le Morbihan.

Si vous souhaitez participer à l'animation du stand, n'hésitez pas à vous inscrire sur notre wiki.

Affiche HitchHack 2018

17 May 2018

jzimmermann.png Jérémie ZIMMERMANN

Newsletter #78

Le 17 May 2018 à 17:07:55

Salut à toutes et à tous !

Voici la newsletter 78 de La Quadrature du Net !

Sommaire

L'activité de La Quadrature du Net

Newsletter, le retour

La newsletter de La Quadrature est enfin de retour !
Pourquoi un tel silence ? L'équipe des salariés de l'association a connu une recomposition importante, après le départ de Chris et d'Adrienne à la fin de l'été 2017. Il a fallu redistribuer les rôles, prendre ses marques en tâtonnant un peu. Et puis l'automne et l'hiver ont été chargés, entre la campagne de dons (un grand merci pour votre soutien renouvelé pour une année !), l'organisation du CCC (https://www.ccc.de/en/) - nouvellement installé à Leipzig - et une actualité politique animée - grâce aux diverses lois imaginées par le gouvernement Macron et à notre nouvelle campagne pour la protection des données personnelles.
Cette newsletter présente donc l'essentiel de l'actualité de ces trois derniers mois (janvier-mars 2018), pour ceux qui nous suivent de loin. Si vous cherchez des infos plus détaillées et surtout plus fréquentes sur nos actions, le bulletin QPSTAG (Que se passe-t-il au Garage ?) est diffusé chaque semaine sur la liste discussion@laquadrature.net.
Inscrivez-vous aux listes de diffusion ici : https://wiki.laquadrature.net/Listes_de_discussion

Nouveaux membres

Le 12 mars dernier, nous avons annoncé l'arrivée de nouveaux membres au sein de l'association, avec deux objectifs : acter l'engagement de bénévoles parmi les plus proches et les plus impliqués, et ouvrir l'espace de réflexion de l'association en accueillant des compétences et des sensibilités plus diverses. La première AG de ce nouveau groupe de travail a eu lieu pendant le week-end de Pâques, du samedi 31 mars au lundi 2 avril.
Une annonce à lire ici : https://www.laquadrature.net/fr/ouverture_nouveaux_membres

Campagne de dons 2017-2018

Merci beaucoup ! Grâce à vous, nous avons rassemblé assez d'argent pour faire fonctionner l'association jusqu'à la fin de 2018. Le bilan est en ligne sur notre site. Rendez-vous à la fin de l'année pour tenter de prolonger l'action une année encore !
Le bilan de campagne à lire ici :https://www.laquadrature.net/fr/bilan_campagne_dons_2017

Données personnelles sur tous les fronts

C'est le gros sujet de ce début d'année !
Entre l'entrée en application du RGPD à partir du 25 mai, la discussion autour du projet de loi sur les données personnelles, et l'affaire Cambridge Analytica qui met à jour le modèle économique de Facebook et d'innombrables autres sociétés du web, le problème de l'exploitation illégale de nos données personnelles a connu en ce début d'année un gros regain d'intérêt dans les médias. La Quadrature du Net a participé au débat à chaque fois qu'elle en a eu l'occasion.

Données personnelles : le projet de loi

Mi-mars, le projet de loi données personnelles était au Sénat. La commission en charge du dossier a refusé d'amender le texte pour encadrer les activités des services de renseignement, malgré les obligations édictées par la directive européenne. La Quadrature du Net a donc rédigé des amendements et invité les sénateurs et sénatrices de tous bords à les soutenir. Notre appel a été entendu, et nos amendements les plus importants ont été déposés et soutenus. Un seul a été accepté, concernant le chiffrement.
Début avril, après le vote du projet de loi au Sénat, est arrivée l'heure de la commission mixte paritaire, chargée de trouver un accord entre les deux textes votés à l'Assemblée nationale et au Sénat. À la veille de ce moment important, l'Observatoire des Libertés et du Numérique (OLN), dont fait partie La Quadrature du Net, a publié une lettre adressée aux parlementaires. Elle réaffirmait les points cruciaux à nos yeux, comme le droit au chiffrement et à la portabilité des données.
La commission mixte paritaire s'est finalement séparée sans arriver à un accord. Le texte repart donc pour une nouvelle navette entre les deux chambres.
Invitation à soutenir nos amendements au Sénat : https://www.laquadrature.net/fr/pjl_rgpd_senat_com
Nos amendements (PDF) : https://www.laquadrature.net/files/amendements_lqdn_pjl_rgpd_27_02_2018.pdf
Lettre ouverte de l'OLN aux membres de la CMP : https://www.laquadrature.net/fr/cmp_pjl_rgpd

Action de groupe contre les GAFAM

Le RGPD entre en application le 25 mai, mais nous avons des doutes sur le fait qu'il soit bien appliqué comme il se doit. Est-ce que des entreprises comme Facebook ont vraiment l'intention de cesser cette surveillance de masse dont elles tirent tous leurs profits ? On en doutait alors on a pris les devants. Le 16 avril, on a lancé une campagne visant à récolter un maximum de mandats pour mener UNE ACTION DE GROUPE CONTRE LES GAFAM !!! La CNIL pourra, à partir du 24 mai, sanctionner à hauteur de 4% du chiffre d'affaires mondial mais si on veut qu'elle agisse il faut qu'on soit nombreux à rejoindre l'action de groupe.
Rejoignez l'action : gafam.laquadrature.net !!!!
Sur le site vous trouverez chaque semaine une vidéo expliquant pourquoi on attaque chacun des GAFAM et un texte d'analyse lié.
Vous pouvez aussi créer et partager vos affiches ici : https://gafam.laquadrature.net/#poster
Rejoignez-nous dans notre action (pour rappel, les particuliers donnant mandat à La Quadrature dans le cadre de cette action de groupe ne prennent aucun risque personnel, que ce soit sur un plan juridique ou financier) et faites circuler l'information autour de vous !

Données personnelles : ePrivacy

Certaines dispositions du RGPD, protectrices pour les utilisateurs, gênent beaucoup les entreprises privées qui prospèrent actuellement sur l'exploitation de nos données personnelles. Certaines d'entre elles (publicitaires et groupes de presse en tête) ont donc écrit au gouvernement français (PDF) pour le supplier de réintroduire dans le règlement ePrivacy (toujours en discussion) des dispositions qui leur permettraient de continuer leur juteux business. « L’économie de la donnée est un pilier de la croissance, de la création d’emplois et du progrès » : le gouvernement de la « Start-up Nation » n'a pas dû être très difficile à convaincre avec de telles phrases. La Quadrature adresse à son tour une lettre ouverte aux ministres.
Un lettre ouverte à lire ici : https://www.laquadrature.net/fr/eprivacy_marchandisation

Surveillance : Marseille, ville laboratoire

La mairie de Marseille veut déployer un « observatoire Big Data de la tranquillité publique », confié à une entreprise privée : ce grand fourre-tout sécuritaire agrègera des informations venues des services de police, des pompiers, de la justice, de la sécurité routière, de la vidéosurveillance urbaine, des hôpitaux et même de la météo pour prédire les zones d'espace et de temps où des faits de délinquances sont susceptibles d'avoir lieu. Les habitants seront aussi invités à alimenter la base de données, à l'aide d'une application mobile, dans le genre de celle que lance de son côté la ville de Nice (Reporty).
Félix Tréguer, président de La Quadrature du Net et habitant de Marseille, a exercé le droit d'accès aux documents administratifs que détient chaque citoyen pour obtenir le Cahier des Clauses Techniques Particulières qui décrit le objectifs et les moyens du dispositif.
Il livre son analyse.
Une tribune à lire ici : https://www.laquadrature.net/fr/surveillance_big_data_marseille

Opérateurs téléphoniques : que savent-ils de nous ?

Les opérateurs téléphoniques collectent une grande quantité de données personnelles à travers nos téléphones (métadata de nos échanges, géolocalisation, etc.) : mais lesquelles précisément, et sont-ils prêts à le reconnaître ? Pour le savoir, quatre bénévoles de La Quadrature du Net ont écrit aux quatre grands opérateurs mobiles français (Orange, Free Mobile, Bouygues Telecom et SFR) pour leur demander l'accès, autorisé par la loi, aux données personnelles détenues par leurs fournisseurs téléphoniques respectifs. Trois mois plus tard, aucune réponse satisfaisante. Mais l'étape suivante était prévue : quatre plaintes ont donc été déposées auprès de la CNIL, une contre chaque opérateur. On attend désormais les réponses...
Une histoire à suivre, à lire ici : https://www.laquadrature.net/fr/conservation_operateurs

Au secours, les recours !

Quand une loi est votée, on peut encore la changer : il suffit de l'attaquer devant le Conseil constitutionnel – et de gagner. C'est ce à quoi s'emploient La Quadrature du Net, FDN et la Fédération FDN, dans le groupe informel des Exégètes amateurs. Mais cet hiver, deux recours devant le Conseil constitutionnel ont reçu un jugement défavorable.
D'abord, le « recours Chambord », jugement rendu le 2 février dernier : il s'agissait de rendre à tous le droit de photographier les monuments nationaux. Malheureusement, le Conseil constitutionnel a confirmé le « droit à l'image » consenti en 2016 aux gestionnaires de ces momuments. Une décision que Lionel Maurel, membre fondateur de La Quadrature du Net, analyse en détail dans ses conséquences.
Le 4 mars, le Conseil constitutionnel a rejeté le recours déposé pour contester l'obligation faite à une personne gardée à vue de remettre à la police ses clefs de chiffrement. Une décision assortie de conditions (l'aval d'un juge, en particulier), mais une déception expliquée dans notre analyse.
Décision Chiffrement : texte du recours https://www.laquadrature.net/fr/conseil-constitutionnel-clefs-chiffrement et décision du Conseil constitutionnel https://www.laquadrature.net/fr/le-conseil-constitutionnel-restreint-le-...
Décision Chambord : https://www.laquadrature.net/fr/apres-d%C3%A9cision-chambord-comment-sortir-d-un-domaine-public-residuel

FAKE NEWS, FAUX DÉBAT

Emmanuel Macron veut une loi pour interdire les « fake news », les fausses nouvelles et les manipulations médiatiques en ligne qui ont connu leur heure de gloire au moment de l'élection de Donald Trump aux États-Unis d'Amérique. La Commission européenne se pose elle aussi la question de savoir si elle peut aussi légiférer de son côté. La Quadrature du Net a donc répondu à sa consultation, pour dire non : la question des fake news est un faux problème, il s'agit avant tout d'un problème de logique économique desplateformes et des réseaux sociaux.
Une réponse à consultation à lire ici : https://www.laquadrature.net/fr/consultation_fake_news


Revue de Presse

Action contre les GAFAM

    [Freenews, 16/04/2018] : https://www.freenews.fr/freenews-edition-nationale-299/presse-5/vie-priv...
    [Le Figaro, 16/04/2018] : http://www.lefigaro.fr/flash-eco/2018/04/16/97002-20180416FILWWW00320-in...
    [NextINpact, 16/04/2018] : https://www.nextinpact.com/news/106472-rgpd-la-quadrature-net-prepare-se...
    [Univers Freebox, 16/04/2018] : https://www.universfreebox.com/article/44123/Actions-de-groupe-contre-le...
    [Actu Orange, 16/04/2018] : https://actu.orange.fr/societe/high-tech/internet-la-quadrature-du-net-v...
    [Le Figaro, 17/04/2018] : http://www.lefigaro.fr/secteur/high-tech/2018/04/17/32001-20180417ARTFIG...
    [La Tribune, 17/04/2018] : https://www.latribune.fr/technos-medias/actions-de-groupe-la-quadrature-...
    [Le Monde, 17/04/2018] : http://www.lemonde.fr/economie/article/2018/04/17/une-association-franca...
    [Mediapart, 16/04/2017] : https://www.mediapart.fr/journal/international/160418/donnees-personnell...
    [L'Imprévu, 17/04/2018] : https://limprevu.fr/articles/17-04-2018/aux-origines-de-la-quadrature-du...
    [Numerama, 17/04/2018] : https://www.numerama.com/politique/345803-5-questions-laction-de-groupe-...
    [Challenges, 18/04/2018]: https://www.challenges.fr/media/gafa/google-facebook-apple-et-amazon-sou...
    [Mieux vivre votre argent, 18/04/2018] : https://www.mieuxvivre-votreargent.fr/vie-pratique/2018/04/17/une-associ...
    [L'Obs, 18/04/2018] : https://www.nouvelobs.com/societe/20180418.OBS5396/l-association-la-quad...
    [La Correspondance de la Presse, 18/04/2018]: https://framapic.org/hpYbJh78ydIr/dIA8yRyEgwVG.png
    [La Tribune Hebdo, 19/04/2018]: https://framapic.org/x2SVesw0AXCa/cXFxuDqyKOf3.png
    [L'Obs, 19/04/2018]: https://www.nouvelobs.com/monde/20180419.OBS5450/facebook-va-mettre-hors...
    [Liberation, 19/04/2018]: http://www.liberation.fr/france/2018/04/19/quadrature-du-net-vers-un-rec...
    [La Croix, 20/04/2018]: https://www.la-croix.com/Journal/Gestion-donnees-France-prepare-big-bang...

    Loi RGPD

    • Sénat 360 : Débat protection des données personnelles — Public Sénat
    • Vidéo – Session « Protection des données : mythes ou réalités » — Inria-Alumni-Sif

    Facebook & Cambridge Analytica

    • Antoinette Rouvroy: "À mon sens, Zuckerberg est dépassé" — L'Écho
    • J'ai voulu reprendre le contrôle de mes données — France Culture
    • Protection des données personnelles : faut-il brûler Facebook ? — France Inter
    • Face à Facebook, les options de l'internaute inquiet — Capital
    • Scandale Facebook : "Soyons clairs, le contrat démocratique est mort" — Marianne
    • Exploitation de nos données : quand le sage pointe le problème, l'idiot ne regarde que Facebook — Next INpact
    • Tristan Nitot : Facebook a « laissé faire » Cambridge Analytica — Le Point

    Données personnelles

    • Données de connexion : la Quadrature du Net traîne quatre opérateurs devant la CNIL — Next INpact
    • À qui confier notre portefeuille de données personnelles ? — France Culture

    Plateformes et « fake news »

    • La liberté d’expression prise au piège des réseaux sociaux — Mediapart
    • « Fake news » : « Les réseaux sociaux ne se soucient pas de ce que nous partageons » — Le Figaro
    • Fake news : analyse ligne par ligne de la future loi contre les fausses informations — Next INpact
    • Internet : comment le gratuit fait du client un produit — Le Parisien

    Censure et surveillance

    • Les Pays-Bas rejettent une loi sur le renseignement — Le Monde
    • Reconnaissance faciale : comment nos visages sont traqués — Le Monde
    • La CNIL défavorable à l’utilisation de l’application de sécurité Reporty à Nice — Le Monde
    • Big Data de la tranquillité : le Minority Report de Marseille — Next INpact
    • À Marseille, un algorithme pour « anticiper la sécurité » — Le Monde
    • En Chine, travailler malgré la censure du Net — Le Monde
    • Blocage administratif : bras de fer entre la personnalité qualifiée de la CNIL et l’Intérieur — Next INpact
    • Technologies de prédiction du crime : Palantir a scruté les citoyens de la Nouvelle-Orléans en secret pendant 6 ans — TV5Monde
    • Cybersécurité : l’État appelle les télécoms à la rescousse — Libération
    • Du deep packet inspection dans le projet de loi de programmation militaire 2019-2025 — Next INpact

    Neutralité du net

    • Mitchell Baker : « La question est de savoir quel Internet nous voulons » — Le Monde


    Participer

    Il existe de nombreuses façons de participer à l'action menée par La Quadrature du Net. Vous pouvez aider La Quadrature en parlant de ses publications autour de vous, et en les diffusant sur vos blogs, Twitter,Diaspora*, vos réseaux sociaux, listes de discussion… Bref, en « buzzant ».

    Vous pouvez également participer à nos listes de discussion ou échanger sur notre chat (ou directement sur notre canal IRC : #laquadrature sur irc.freenode.net).

    La Quadrature du Net a aussi besoin d'aide pour un grand nombre de tâches quotidiennes, par exemple pour l'édition de sa revue de presse, des traductions, la mise à jour de son wiki, des créations graphiques ou sonores… Si vous en avez la capacité, vous pouvez contribuer à améliorer les outils comme Memopol, < ahref="http://respectmynet.eu/">Respect My Net, ou le Piphone,ContrôleTes Données, ou bien nous proposer de nouveaux projets sur notre GitLab. N'hésitez pas à nous contacter pour avoir plus d'information à ce sujet.

    Enfin, si vous en avez les moyens, vous pouvez également nous souteniren effectuant un don.


    Calendrier

    Mai 2018 :

    • 17 : Quadrapéro à Montpellier : http://montpel-libre.fr/spip.php?article3850
    • 20 : intervention d'Arthur à Gare XP : http://garexp.org/
    • 23 : soirée GAFAM et libertés personnelles à La Paillasse (26 rue Saint-Deni, Paris) : "Quartier Libre : en présence de La Quadrature du Net" : https://www.meetup.com/fr-FR/La-Paillasse-Events/events/250610048
    • 25 : entrée en application du RGPD
    • 25 : Arthur et Marne en direct dans l'émission "Le Poste" des Parasites (19h)
    • 26 et 27 : hackathon Caliopen : https://hackathon.caliopen.org
    • 29 : conférence d'Arthur au SPIM
    • Juin 2018 :

    • 6 : réunion de préparation pour la campagne de dons 2018 : venez nous aider à imaginer notre campagne de dons de fin d'année ! (Au Garage, 60 rue des Orteaux, Paris, 19h)
    • 8 : Quadrapéro au Garage (60 rue des Orteaux, Paris, 19h)
    • 12 : Conférence de l'OLN sur les données personnelles, avec Lionel Maurel, Antonio Casilli, membres de La Quadrature du Net, et Arthur Messaud
    • 28-29 juin - 1er juillet : PSES - conférence "Actions de groupe contre les GAFAM" le 1er juillet à 15h (Arthur) : https://programme.passageenseine.fr/
    • Juillet 2018 :

    • 7-12 : RMLL (Strasbourg) - ateliers "arpentages" (Lunar et mmu_man, membres de LQDN) : https://2018.rmll.info/indexfr.html


    English Version

    The newsletter is back

    Why such a long silence? The paid staff went through important changes after Chris and Adrienne left at the end of summer 2017, and the arrival of Myriam (administrator) and Marine (art and communication director). We needed time to reassign roles and find our bearings with a bit of fumbling... Autumn and winter were busy times: our support campaign (thanks again for another year of support!), the organisation of our tea-house at the CCC (now taking place at Leipzig (https://www.ccc.de/en/ ), and lively political developments - thanks to various laws conceived by the Macron government and to our new campaign to protect privacy.
    This newsletter presents a summary of key points from the past three months (January-March 2018) for those following us from afar. If you're looking for more precise and frequent information about our actions, our weekly newletter in French, QPSTAG ("Que se passe-t-il au garage ?" or "What's on at the garage?") is sent out from discussion@laquadrature.net.
    Subscribe to mailing-lists here: https://wiki.laquadrature.net/Listes_de_discussion/en

    New members

    Last 12 March, we announced the arrival of new members in the core of the association. Here are their two objectives: to engage volunteers among those closest and most involved in LQdN, and to open a space for reflection within the Association by accommodating more diverse skills and sensibilities. The first general meeting of this new taskforce took place over the Easter weekend, from Saturday, March 31 to Monday, April 2.
    Read our announcement: https://www.laquadrature.net/en/node/10444

    Donation Campaign 2017-2018

    Thanks a lot! We have collected enough money to go forward until the end of 2018. The result is available on our site. We will meet again at the end of the year to try to keep this going for another year! \o/
    Read the campaign's results here: https://www.laquadrature.net/en/Founding%20campaign%202017

    Personal Data On All Fronts

    Between the implementation of the RGPD from May 25, the discussion of the bill on personal data in the French Parliament, and the Facebook-Cambridge Analytica scandal that revealed Facebook's economic model to the general public: the problem of the illegal exploitation of our personal data has seen a big revival of interest in the media since the beginning of the year. La Quadrature du Net took part in the debate at every opportunity.

    Personal Data: a French bill under discussion

    In mid-March, the bill concerning personal data was examined in the French Senate. The commission in charge of the bill refused every amendment in the provisions regarding aiming at overseeing the activities of French intelligence services, in spite of the obligations laid down by the European directive. La Quadrature du Net wrote amendments and invited senators of both wings to defend them during the discussion. Our call was heard and our main amendments were supported. But only one of them was adopted (regarding cryptography).
    In the beginning of April, after the bill was voted by the Senate, a commission was in charge of finding an agreement between the two bills voted by the Assemblée Nationale and the Senate. The day before this important meeting, the OLN (Observatoire des Libertés et du Numérique) published an open letter to members of the two chambers. It states again several points important to us, such as the right to encrypt and the portability of data.
    The commission parted without coming to an agreement, and so the draft bill will go back and forth again between the two chambers.
    Call for our amendments (in French): https://www.laquadrature.net/fr/pjl_rgpd_senat_com
    Our amendments (PDF in French): https://www.laquadrature.net/files/amendements_lqdn_pjl_rgpd_27_02_2018.pdf
    Open letter to the members of the French Parliament: https://www.laquadrature.net/fr/cmp_pjl_rgpd (in French)

    Extrajudicial Class Action Against the GAFAM

    The GDPR comes into effect on the 25th of May, but we doubt that it will be properly applied. Do companies such as Facebook and Google really intend to stop the mass surveillance from which they make their money? So we have decided to take pre-emptive action, and have begun collecting individual mandates in order to file a class action against the GAFAM.
    French citizens are invited to join the action here: https://gafam.laquadrature.net (in French)

    Personal Data : ePrivacy

    Certain provisions of the GDPR which protect European citizens' private lives are a real impediment for private companies that live off the exploitation of personal data. Some of them (mainly advertising and press companies) pleaded their case with the French government and asked them to reinstate in future regulation a set of provisions allowing the safety of their profitable businesses. The government of the self-designated "Start-Up Nation" was easily convinced. La Quadrature du Net adresses its own open letter (FR) to the ministers.
    Read the open letter here: https://www.laquadrature.net/fr/eprivacy_marchandisation (in French)

    Marseille, A Laboratory for Surveillance

    The mayor of Marseille, France's third major city, wants to build a "Big Data Observatory For Public Security" and has handed the project to a private company: this catch-all will gather information from the police, fire departments, road safety, legal bodies, CCTV, hospitals and even weather services to predict locales and times where delinquency is likely to take place. Residents of the city are also invited to feed a database through a mobile application very similar to Reporty, the app acquired by the city of Nice.
    Félix Tréguer, founding member of La Quadrature du Net, managed to obtain access to the documents describing the objectives and means of the project.
    Read his analysis here: https://www.laquadrature.net/fr/surveillance_big_data_marseille (in French)

    Mobile Phone Operators: What Do They really Know?

    Mobile phone operators collect a huge amount of personal data (metadata from our voice or text conversations, localisation, etc.). But which ones precisely? Are they ready to reveal and acknowledge the true extent of their databases? For the record, four members of La Quadrature du Net asked their own mobile operators (Orange, Free Mobile, Bouygues Telecom et SFR) access, authorised by law, to mail them the personal data held by their telephone providers. Three months later, the four operators had not given a satisfactory response. But the next step had already been planned: four cases have been filed against them with the CNIL, the French data protection authority. We're waiting now for the replies...
    Read the whole story here: https://www.laquadrature.net/fr/conservation_operateurs (in French)

    Litigations

    When a law is voted, you can still change it: but you have to plead before the Constitutional Council–and win... This is the purpose of the Exégètes amateurs, an informal group of law experts from La Quadrature du Net, FDN and FFDN. But last winter, two of their actions were rejected by the French constitutional court.
    First, on 2 February, the "Chambord" action: the point was to give back to every citizen the right to take a picture of a public monument and share it freely. Unfortunately, The Constitutional Council confirmed the "right to the image" granted in 2016 to the administrators of such monuments. Lionel Maurel, active member of SavoirsCom1 and founding member of La Quadrature du Net, analyses the consequences of this decision (FR).
    On 4 March, the Council rejected a recourse intending to contest the obligation that a person placed in custody give the encryption key of their mobile phone to the police. The decision comes with a few conditions (such as the prior approval of a civil or criminal judge), but we explain why it is still a disappointment (FR).

    Fake news, phony debate

    Emmanuel Macron wants to forbid "fake news", and other types of online media manipulations that were popularised during the American presidential campaign won by Donald Trump. The European Commission also wonders if it can legislate on the matter: La Quadrature du Net answered the European consultation. The answer is no, "fake news" are a phony debate, the real problem is the click-bait favoring business model of platforms and social neworks.
    Read the extensive answer here : https://www.laquadrature.net/en/node/10435

    Press Review

    Rubrique

    • As Zuckerberg Smiles to Congress, Facebook Fights State Privacy Laws — Wired
    • U.K. Assessing Evidence After Search at Cambridge Analytica — Bloomberg
    • Dutch say 'no' in referendum on spy agency tapping powers — Reuters

    Pour vous inscrire à la newsletter, envoyez un email à actu-subscribe@laquadrature.net

    Pour vous désinscrire, envoyez un email à actu-unsubscribe@laquadrature.net

april.png Nouvelles April

Software Heritage - Préserver le patrimoine logiciel de l’humanité

Le 17 May 2018 à 14:20:35


Roberto Di Cosmo

Titre : Software Heritage : pourquoi et comment préserver le patrimoine logiciel de l’Humanité
Intervenant : Roberto Di Cosmo
Lieu : Paris . Palais des Congrès - Conférence Devoxx France
Date : avril 2018
Durée : 20 min 18
Visionner la vidéo
Diaporama support de la présentation format PDF
Licence de la transcription : Verbatim
Illustration : Diapositive n°8 du support de la présentation
NB : transcription réalisée par nos soins. Les positions exprimées sont celles des intervenants et ne rejoignent pas forcément celles de l'April.

Description

Le logiciel est au cœur de notre société numérique au point et le code source des logiciels contient une part croissante de nos connaissances scientifiques, techniques et organisationnelles, au point d’être devenu désormais une partie intégrante du patrimoine de l'Humanité.

Transcription

Merci à tous d’être ici. Ça fait vraiment plaisir de pouvoir venir parler avec vous de quelque chose qui me tient vraiment à cœur qui est le logiciel. Roberto Di Cosmo ; dès que j’ouvre la bouche, vous savez bien que je suis italien tout de suite, je n’ai pas réussi à perdre l’accent ; ça fait trente ans que je suis en France, mais bon bref ! J’espère que vous me pardonnerez un peu.

De quoi on va parler ? Si vous regardez autour de vous aujourd’hui, vous voyez bien que le logiciel est partout. D’ailleurs nous, programmeurs, c’est une partie importante de notre société. Le logiciel est le moteur de notre industrie, c’est le carburant de l’innovation, c’est un pilier de la recherche scientifique moderne, c’est aussi le médiateur essentiel qui nous permet d’accéder à toute information numérique. Et en plus, regardez bien, c’est aussi un instrument qui permet de manipuler un tout petit peu les élections ; ça ce n’était prévu à l’origine, mais disons qu’effectivement ! Voilà ! On peut dire qu’il y pas mal de notre connaissance et de notre savoir-faire qui est aujourd’hui embarqué dans du logiciel. Donc on peut vraiment dire que le logiciel est devenu une partie essentielle de notre patrimoine culturel.

Mais quand on dit ça à quelqu’un qui n’est pas de notre communauté, il a tendance à oublier un aspect essentiel, c’est que oui les logiciels sont importants, ce sont des choses qui nous permettent de faire des tweets, de communiquer avec nos copains avec notre téléphone, mais pour réaliser des logiciels il faut d’abord les écrire. Et quand on les écrit, on écrit du code source. Et c’est bien le code source qui contient ces connaissances, pas juste le logiciel exécutable. Ça ce n’est pas quelque chose de très nouveau, ce sont des observations qui existent depuis un moment.

Vous voyez le monsieur dont j’ai mis une citation là-haut. Harold Abelson1 est un professeur d’informatique au MIT qui a un certain âge, c’est lui qui a contribué à créer la Free Software Foundation, qui a contribué à créer Creative Commons, qui était à l’origine du petit projet qui s’appelait Scratch qui est maintenant très utilisé pour apprendre la programmation au début à tout le monde. Il avait écrit un livre qui était un livre super important quand j’étais encore sur les bancs de l’université, donc ça ne me rajeunit pas, j’ai mis la date, comme ça full disclosure, vous savez à peu près, et il disait dans son introduction, vous voyez : « Des logiciels il faut d’abord les écrire pour que d’autre personnes puissent les lire et seulement, accessoirement, pour qu’une machine puisse les exécuter ». Vous allez dire d’accord, 1985, ça c’est un prof qui dit à ses étudiants : « Si je ne comprends rien de ce que vous avez écrit vous aurez une sale note ! » D’accord ? Ce n’est pas faux, mais il y a quelque chose de plus profond c’est qu’en réalité, vous savez bien, si vous écrivez un logiciel et vous avez besoin de le modifier, aujourd’hui on les modifie très souvent, il faut quand même arriver à comprendre ce que vous avez écrit il y a deux semaines. D’accord ! Donc c’est important d’arriver à comprendre ce qu’on a écrit dedans.

1985, ça c’était un message qui était un peu dur à comprendre parce qu’à l’époque il n’y avait pas beaucoup de code source disponible. D’accord ! On ne voyait pas grand-chose, la plupart du code source était stocké dans des coffres-forts dans les entreprises. Heureusement aujourd’hui, grâce au mouvement du logiciel libre, de l’open source qui a quand même complètement changé la façon dont nous développons du logiciel, il y a énormément de code source qui devient disponible et si vous cherchez un peu vous trouvez des choses qui sont absolument magnifiques. Par exemple, est-ce que quelqu’un ici se rappelle encore de Doom2 ? Voir un peu ? Ah quand même, voilà, je ne suis pas le seul vieux dans la salle. Super ! Eh bien le programmeur mythique qui avait travaillé pour id Software à l’époque et qui avait écrit Doom, c’est John Carmack et on attribue à John Carmack3 cette fonction que vous voyez là. D’accord ! C’est le calcul de 1 sur racine de x. C’est une fonction qui est très importante quand vous faites du 3D.

À l’époque où il avait envie de sortir le jeu, les coprocesseurs en floating point dans le numérique n’étaient pas super efficaces, donc ça prenait trop de temps, si vous appeliez juste la fonction pour faire 1 sur racine carrée, c’était une division flottante et une racine carrée flottante, c’était super cher, donc vous pouvez tourner votre manette mais le fusil ne bouge pas et vous êtes mort et vous n’êtes pas content dans le jeu.

Du coup il a dû trouver une solution qui était plus intéressante. Donc vous voyez ici, dans le code source qui est vraiment le code source qui maintenant est devenu disponible, c’est sous open source depuis 95, vous voyez ce qu’il fait ? Il prend un flottant, number est un flottant, là-bas, et après il commence à faire des choses bizarres et heureusement qu’il y a des commentaires : vous voyez une ligne, là il y a marqué evil floating point bit level hacking, donc c’est une méchante manipulation au niveau des bits. Alors qu’est-ce qui se passe ? Je ne vais pas rentrer dans les détails, mais essentiellement. Vous avez votre flottant, c’est une représentation IEEE 32 bits là-dessous, il arrive, c’est sous la forme exposante mantisse ; et la mantisse c’est ce qu’il y après la virgule quand c’est 1 virgule quelque chose. Bref des histoires.

Si vous voulez faire la racine carrée de quelque chose, la chose simple c’est calculer le logarithme en base de 2, après vous multipliez par -1/2 et après vous refaites la manipulation inverse. Il faut faire quelques petits ajustements pour enlever l’exposant et donc là on arrive jusqu’à la ligne qui dit la chose que je vais pas prononcer parce que sinon ça va être censuré sur YouTube plus tard. Donc vous voyez le commentaire là [what the fuck, NdT].

Et un peu plus bas, il fait d’autres choses qu’on ne comprend pas. Pourquoi il multiplie y par 3/2, etc., mais heureusement il y a un commentaire qui dit « première itération ». Ah ! Première itération ça me rappelle quelque chose quand j’étais sur les bancs de la fac il y a super longtemps, ça doit être la méthode de Newton pour approcher une fonction. Effectivement ! Donc il fait des tests et après, en réalité, il fait cette deuxième itération, mais ça ne sert pas à grand-chose, vous ne voyez pas trop la différence quand vous faites le jeu. Donc il est arrivé, il a fait ça.

Cette fonction-là est une fonction mythique, vous la retrouvez même si vous allez rechercher ça sur Wikipédia, vous mettez juste « 0x5f3759df », vous tombez directement sur la page Wikipédia de la fonction4.

Il y a d’autres exemples, d’accord ! Il n’est pas le seul.

Essentiellement c’est pour vous dire, ça c’est vraiment précieux, c’est de la conception qui prend du temps. Ça fait quelques lignes, c’est super dur de comprendre, de le concevoir et c’est précieux de le retrouver, de le comprendre plus tard. Et on ne peut le faire que si nous disposons du code source et en particulier des commentaires, même si peut-être il faut faire une passe pour effacer quelques petits gros mots qu’il ne faut pas trop faire passer ; et si on avait seulement le binaire, tout ça serait perdu.

Donc si vous voulez, pour résumer d’une certaine façon comme disait Len Shustek, qui est le directeur du board du Computer History Museum, qui un endroit magnifique à Mountain View dans lequel ils essaient de reconstruire un peu de l’histoire de l’informatique : « Les codes sources nous ouvrent une fenêtre dans la tête du programmeur, de l’architecte, de la personne qui conçoit un logiciel » et c’est vraiment précieux.

Alors, vous voyez en plus, le code source est quelque chose source d’assez récent. Ce que nous faisons est une science, une technologie, une discipline qui est assez récente ; elle n’a pas beaucoup plus de 50 ans. Et en 50 ans la croissance a été spectaculaire. C’est-à-dire qu’il y a 50 ans, presque jour pour jour, on mettait le premier homme sur la lune et pour arriver à le faire arriver là-bas et pas se perdre dans l’espace, il y avait 60 000 lignes de code qui ont été écrites sous le pilotage de Margaret Hamilton, une dame incroyable qui est encore vivante aujourd’hui et qui avait écrit, à l’époque ; quand on a écrit ce code on ne savait pas du tout ce qu’on faisait ; on était dans le Far-West le plus complet. D’accord ! Pour vous rappeler, mettre un homme sur la lune, c’était 200 milliards de dollars à l’époque, ce n’est pas tout à fait donné et le code logiciel était une partie de ce coût-là.

Cinquante ans après, si vous regardez, le noyau Linux qui est juste une toute petite partie de la partie pile Android que vous avez dans votre téléphone là-dedans, ça fait quand même 20 millions de lignes de code et on l’utilise régulièrement.

Donc la vraie question est de savoir est-ce qu’on prend soin de ce patrimoine précieux que nous sommes en train tous collectivement de construire ? On pourrait se dire que oui, près tout, s’il y a une industrie florissante, c’est l’industrie de l’informatique. S’il y a des géants qui ont des quantités d’argent pas possibles, c’est bien dans notre domaine, et pourtant, faisons un petit peu le tour. Vous allez voir que la situation n’est pas si brillante que ça !

Première chose, oui le logiciel est bien partout, dans un bon sens on l’utilise partout, mais aussi partout dans un mauvais sens, dans le sens où il est éparpillé un peu partout. Il n’y a pas un catalogue central de tous les logiciels. Nous utilisons tout plein de plateformes diverses et variées pour développer, pour distribuer du code. Donc quand moi j’étais plus petit, je ne dis pas que je n’étais pas jeune, quelques années qui sont passées, il y avait une plateforme qui s’appelait SourceForge qui a un peu disparu maintenant. Après j’ai eu pas mal d’étudiants, toutes les fois qu’il y avait des étudiants qui me disaient : « Non, il ne faut pas utiliser celle-là, il y a un truc super, merveilleux, il faut que tu passes tout ton code dans un autre endroit », donc à un moment donné je l’ai mis sur Gitorious, par exemple. Il y avait Google Code, il y avait plein d’autres choses, maintenant il y a GitLab. Maintenant la plus populaire c’est GitHub5, évidemment. Mais après, si vous regardez ce qui s’est passé, vous avez un bout de code qui était sur SourceForge, qui a été bougé sur Gitorious, après on l’a mis sur Ghihub, donc finalement si vous voulez le retrouver ce n’est pas super facile ; on n’a pas de catalogue. La meilleure façon pour retrouver du code aujourd’hui c’est demander à un copain à la machine à café ou faire une recherche dans un moteur de recherche. Ce n’est pas un catalogue ça !

Non seulement tout cela est éparpillé donc on n’a pas quelque chose centralisé, mais le logiciel, comme toute information numérique finalement, est très fragile. Bien évidemment vous pouvez perdre votre clef USB avec 150 gigas de données dessus ; ça on le sait. Vous pouvez avoir une panne dans un data center, ça c’est aussi une chose qu’on sait, c’est pour ça qu’il faut faire des backups. Il ne suffit pas de faire des backups, il faut aussi vérifier que ça marche. Pour les gens qui ont suivi GitLab, il y a un an environ, vous vous rappelez il y avait cinq niveaux de backups ; ils ont tous échoué l’un après l’autre. Il faut aussi vérifier que ça marche. Mais plus récemment, on a trouvé quelque chose d’incroyable : il y a des attaques malveillantes dans lesquelles on essaye, on pirate vos systèmes, on crypte tout, donc y compris vos codes sources, ou on détruit vos données. Et plus récemment quelque chose qui est quand même surprenant. Vous vous rappelez là je vous ai donné une liste d’exemples ? Gitorious n’existe plus ; Google Code n’existe plus ; ils ont été fermés il y a deux ans environ, pour des décisions purement business. Alors ça c’est nouveau ; on n’était pas habitués au fait que quelqu’un, d’un jour à l’autre, dise : « Ah ben tiens, finalement ce n’est plus intéressant, on ferme la plateforme ». Sous Gitorious il y avait 120 000 projets de développement en logiciel libre. Sous Google Code un million et demi. Et enfin, la dernière chose, c’est que finalement le logiciel est essentiel ; c’est vraiment partout ; c’est même dans notre corps si vous avez un pacemaker, si vous des systèmes différents c’est le logiciel qui contrôle votre propre vie. Donc c’est devenu essentiel de garantir la qualité et l’absence d’erreurs graves dans les logiciels critiques. On se dirait qu’on devrait tous avoir une plateforme de recherche massive qui nous permette d’analyser tous les codes sources qui existent de façon systématique pour réduire autant que possible les erreurs et défauts.

Mais alors, malheureusement, autant les êtres humains ont réussi à se motiver pour dépenser quelques dizaines de milliards pour faire des infrastructures magnifiques qui nous permettent de regarder les étoiles ; là, par exemple, c’est une belle photo du télescope du désert d'Atacama qui permet de regarder les étoiles, et autant on n’a pas réussi à mettre en place une infrastructure de recherche pour analyser les codes sources.

Pour toutes ces raisons-là, il y a deux-trois ans environ, on s’est dit qu’il fallait faire quelque chose. Et, pour faire quelque chose, on a lancé un projet qui s’appelle Software Heritage6, dont vous pouvez trouver le site web là-bas. Ce projet a comme mission, précisément, d’aller récolter tous les codes sources de tous les logiciels qui sont publiquement disponibles sur la planète, si possible aussi les autres, de les préserver sur le long terme, de les rendre facilement accessibles, ces codes sources, pour tout le monde.

Ce n’est pas juste préserver les codes de l’Apollo par exemple — ça c’est très intéressant pour les études et pour le passé —, c’est aussi pour analyser les codes d’aujourd’hui et nous aider tous à améliorer les logiciels qu’on prépare pour le futur.

Comment faire ça ? Eh bien il y a un petit papier qui est en accès ouvert que vous pouvez télécharger sur l’URL que vous trouvez sur ce transparent-là7, où l'on a posé des principes de base.

Premier principe de base c’est — moi je suis assez vieux, j’ai appris la leçon — donc on fait une seule chose et on la fait bien. Donc on construit une infrastructure qui collecte, préserve et partage les codes sources et on travaille avec tous les autres, donc avec des patrimoines culturels — c’est pour ça qu’on travaille avec l’Unesco —, avec les industries — c’est pour ça que je suis ravi d’être avec vous aussi —, avec les chercheurs, avec les enseignants, pour faire en sorte que cette plateforme puisse être utilisée pour plein d’applications différentes.

Si vous allez regarder sur le site, on a quand même commencé à faire notre travail, ce n’est pas trop mal ! On a déjà collecté à peu près 83 millions des origines de projets en logiciel libre qu’on retrouve sur la planète et on a tout dupliqué dans l’infrastructure ; donc il y a, à peu près, 4 milliards et quelques centaines de millions de fichiers sources uniques pour à peu près 1 milliard de commits. OK ! Et pour construire tout ça, on a mis des piliers importants. D’un point de vue technologique, tout ce que nous développons est du logiciel libre. Vous pouvez voir ce qu’on fait. La façon dont on travaille est transparente, il y a des canaux IRC, des mailing lists, vous pouvez venir voir et discuter, tout le monde est bienvenu.

On essaie de répliquer, on veut faire des miroirs. On ne prétend pas qu’on est les meilleurs du monde, on fera des erreurs, mais pour corriger les erreurs, on essaye de travailler avec plusieurs personnes en parallèle. Et pour ce qui concerne le contenu, on stocke toutes les données factuelles : on a tout l’historique des systèmes de contrôle des versions. Et on veut construire une organisation qui n’est pas une start-up mais qui est une fondation no profit avec plusieurs partenaires au niveau international. D’ailleurs la fondation, on va la créer d’ici deux semaines je pense.

Comment ça marche ?

Si vous regardez l’architecture de ce qu’on fait, de façon très simplifiée évidemment, d’un côté vous avez plein de plateformes, Ghihub, GitLab, les différentes distributions, les gestionnaires de paquets, les zip, toutes les choses que nous utilisons tous les jours. On ne veut pas juste aller faire une copie un jour. On veut vraiment aller faire une copie de tout ce qu’il y a dedans mais aussi garder à jour l’information. Pour faire ça, il nous faut construire l’adaptateur pour chacune de ces plateformes. C’est beaucoup plus compliqué que faire une archive du Web parce que dans le Web au moins j’ai un standard, j’ai HTTP et les URL pour suivre un peu. Dans les plateformes non. Chaque plateforme a sa propre API pour dire ce qu’il y a comme contenu et certaines plateformes n’ont même pas d’API.

Donc on construit des adaptateurs et après, une fois qu’on a construit ces adaptateurs, on a la liste de tous les projets qui sont sur chacune de ces plateformes. Mais là ce n’est pas fini, c’est une sorte de tour de Babel à deux étages. Donc non seulement il y a des protocoles différents pour chaque plateforme, mais après, dedans, vous avez du code qui est maintenu sous Git, sous Bazar, sous Mercurial, des vieux trucs sur CVS, des choses qui sont juste des systèmes de paquets, des tar, des zip, des paquets dans tous les systèmes divers et variés. Et comme on se place dans une logique de long terme, c’est-à-dire on veut que tout ce qu’on collecte soit là pendant longtemps, c’est vraiment important de ne pas obliger tout le monde, après, d’avoir la bonne version de Git, la bonne version de Subversion, la bonne version de Mercurial pour aller relire tout ça. Donc on fait, nous, le travail de tout adapter. On relit tout et on reconstruit un énorme, gigantesque graphe de Merkle, si vous voyez, si vous êtes habitués vous connaissez un peu comment Git fonctionne, c’est une sorte de graphe Git mais au niveau de la planète, avec absolument tous les codes.

Là-dedans, si vous regardez ce qu’on fait, maintenant on a automatisé le suivi de Github ; on a automatisé le suivi de Debian. On a sauvé tout ce qu’il avait dans Gitorious, on a sauvé tout ce qu’il y avait dans Google Code. Donc grand merci à l’Archive Team pour Gitorious, à Vinton Cerf pour Google Code qui nous a donné un coup de main pour avoir ça. On a tout l’historique des logiciels GNU et après, petit à petit, on va élargir avec votre aide j’espère.

Ce n’est pas si grand. Grâce au fait qu’on déduplique ça fait un peu moins de 200 téraoctets de données pour le contenu des fichiers et une dizaine de téraoctets pour le graphe ; ça fait quand même un graphe qui est très grand. Et maintenant, juste pour vous, si vous voulez vous pouvez noter cette URL-là8, il y a un mot de passe, un utilisateur-mot de passe ; utilisateur « devoxx », allez savoir pourquoi, et mot de passe « 2018 ». Vous pouvez regarder ce qu’il y a dedans, cherchez un peu. Je n’ai pas le temps de vous faire une demo parce qu’il reste peu de temps, mais vous pouvez chercher à travers toutes les origines, vous pouvez faire du browsing des contenus des répertoires, des révisions, etc. Vous pouvez voir les différences entre deux révisions.

Ce n’est pas une plateforme de développement, c’est une archive ce que je vous présente là. Mais c’est quand même une archive faite pour nous, pour des développeurs, pour des gens qui savent lire ce qu’il y a dedans. Ce ne sont pas juste des zip que vous pouvez trouver dedans.

Et là, comme on a besoin, évidemment, de construire cette infrastructure pour le long terme, pour notre communauté et pour la société tout entière, c’est très important de faire émerger une prise de conscience de l’importance de ce que nous faisons jour après jour, des logiciels que nous écrivons. C’est du vrai patrimoine de l’humanité ; ce n’est pas juste un objet technique.

Donc là, on a fait un gros effort ces derniers temps. Il y a un an on a signé un accord avec l’Unesco. Il y avait Inria, l’Unesco de l’autre côté, et dans la photo vous voyez des personnes dont au moins la personne au milieu je pense que vous la connaissez. À gauche il y a Antoine Petit qui était président de l’Inria, qui est maintenant président au CNRS et à droite Irina Bokova qui était la directrice générale de l’Unesco qui a été remplacée par Audrey Azoulay – j’espère qu’on arrivera à voir elle aussi –, dans lequel [accord] on reconnaît l’importance de préserver, rendre disponible tout ce patrimoine. On a trouvé plein de monde qui partage cette vision. Vous avez des logos qui vont vous parler. On a aussi besoin, évidement tout ça n’est pas gratuit, on a besoin de ressources. L’Inria a mis énormément de ressources et d’énergie au début et après il y a des entreprises qui, petit à petit, se sont jointes à nos efforts ; vous trouvez Microsoft, Intel, la Société Générale, d’autres, même Github.

Et là, si je peux vous envoyer un message, vous pouvez aider et on a vraiment besoin de vous. Surtout sur la partie codage, notre code est tout en open source ; si vous voulez jeter un coup d’œil et donner un coup de main vous êtes les bienvenus.
On a besoin de documenter pour que ça soit plus simple pour les autres de venir.
On a besoin de gens qui aident à résoudre cette tour de Babel en faisant tous les adaptateurs pour tous les différents systèmes. On a une interface web qui n’est peut-être pas aussi flashy qu’on voudrait, mais vous êtes bienvenus de venir là.
On a aussi, de temps à autre, l’occasion de recruter des gens. Il y a une offre d’emploi qui est en ligne.

Si vous ne pouvez pas faire ça, eh bien allez convaincre votre compagnie de devenir un sponsor, ce n’est pas compliqué, il y a des liens ici.
Si vous ne pouvez pas, à votre bon cœur, contribuez personnellement : depuis ce matin vous pouvez donner sur le site web du projet, sur « donner ».
Et si vous n’avez même pas envie de faire tout ça, eh bien au moins parlez-en autour de vous.

C’est vraiment très important de partager cette mission et faire reconnaître à tout le monde que ce que nous faisons ici, dans notre discipline, ce n’est pas juste de la technique bas de gamme c’est vraiment la nouvelle littérature du 21e siècle.

Pour terminer, dans les quelques secondes qui restent, c’est un projet qui est ouvert, c’est un projet qui est au service de tous, n’hésitez pas à partager cette mission donc construire une librairie d’Alexandrie de tout le code qui a jamais été écrit et un CERN pour le logiciel dont nous avons vraiment besoin.

Merci beaucoup pour votre attention.

[Applaudissements]

16 May 2018

april.png Nouvelles April

Petits secrets de la redevance copie privée - Marc Rees

Le 16 May 2018 à 14:44:06


Marc Rees

Titre : Les petits secrets de la redevance copie privée
Intervenant : Marc Rees, Next INpact
Lieu : Toulouse Hacker Space Factory
Date : mai 2017
Durée : 59 min 44
Visionner la vidéo
Licence de la transcription : Verbatim
Illustration : copie d'écran de la vidéo
NB : transcription réalisée par nos soins. Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas forcément celles de l'April.

Description

230 millions d'euros prélevés chaque année en France sur les supports vierges d'enregistrement et depuis peu, sur certains services clouds. Ce joli filon pourrait concerner demain l'univers de l'impression 3D. Découvrez les rouages de ce mécanisme si précieux pour les sociétés de gestion collective.

Transcription

NB : Pour des raisons techniques, il n'y a pas eu de reprise de son pendant les cinq premières minutes.

On est en 2001, on a une directive, donc c'est un texte supranational qui est plus fort que la loi et qui s'impose aux États, on a une directive qui nous a dit que la copie privée pouvait être introduite dans les États membres et pour les copies réalisées par des particuliers dans leur usage privé. Voila le cadre théorique. Donc on est dans un système où les particuliers, pour leur usage privé, peuvent copier des œuvres, chez eux, sans avoir à demander à demander l’autorisation de Pascal Nègre [Président-directeur général d'Universal Music France de 199+8 à 2016, NdT] lorsqu’il était aux manettes et en échange de quoi ils payent une petite compensation lors de l’achat des supports vierges. C’est bon pour tout le monde ?

Quand on parle de redevance, eh bien il y a forcément des barèmes. Lorsqu’on vous dit qu’il y a des barèmes, eh bien ces barèmes sont extrêmement compliqués, parce qu’ils diffèrent selon les supports : vous avez des barèmes qui sont propres aux disques durs, aux clefs USB, aux tablettes, etc. Et le calcul même de la redevance pour chacun de ces barèmes est propre aussi à chaque support. On a des calculs par taux, on a des calculs par frais fixes, on a des calculs par giga, par seconde, par minute, par heure, etc. Et quand vous regardez le barème que vous trouvez sur le site du ministère de la Culture, celui-ci fait six pages. Il y a six pages de données, comme ça, qui vous détaillent un petit peu ce que vous, vous allez payer lorsque vous allez acheter des supports vierges. Et cette notion de six pages, gardez-la en mémoire, parce que je vais y revenir après. Ça va être assez intéressant.

Le résultat c’est quoi ? C’est qu’en 90 la redevance copie privée permettait aux bénéficiaires — parce qu’il y a une particularité —, lorsque je vous ai dit que ce n’était pas une taxe, c’est que cette redevance est aspirée par une société civile qui s’appelle Copie France1, qui est une société qui appartient aux sociétés de gestion collective, type SACEM, SACD, etc., et c’est elle qui va aspirer l’ensemble de ces sommes. OK ? Et après, ces sommes-là vont se répartir en deux groupes : il y a un groupe qui va être conservé par les sociétés de gestion collective et il y a un autre groupe qui va être réparti en fonction des titulaires de droit, les chanteurs, etc.

Dans les années 90, c’était quelques dizaines de millions d’euros. En 2000, avec l’explosion du numérique, on est passé à 160 millions d’euros par an, et aujourd’hui, dans les années 2010, derniers chiffres en 2017 qu’on a obtenus, on en est à une moyenne de 230 millions d’euros qui sont prélevés par ce dispositif. Donc 230 millions d’euros qui sont prélevés par les sociétés de gestion collective grâce à vous. Je ne sais pas si elles vous ont déjà dit merci ? Non ? Mais pourquoi ?

Pourquoi

J’ai une photo de chat. Grégoire, tout à l’heure, disait on n’a pas mis de photo de chat. Moi je n’ai pas mis de photo de Jean-Vincent Placé, mais j’ai mis une photo de chat.

Pourquoi on est arrivé à ce mécanisme-là ? Il y a plein de raisons qui expliquent l’explosion de cette manne financière. Je vais essayer de vous les détailler et de chapitrer.

Raison n°1 - Représentativité et poids de chaque collège au sein de la commission copie privée

La première raison, c’est que la redevance copie privée, les barèmes et l’assiette, c’est-à-dire quels sont les supports qui vont être assujettis à ce mécanisme-là, est décidée dans une commission administrative qui est rattachée au ministère de la Culture, au hasard, et dans cette commission administrative, on a deux collèges. Il y a trois morceaux dans le camembert, mais en fait il y a deux collèges. Il y a le collège des bénéficiaires, ce sont les sociétés de gestion collective qui siègent dans cette commission administrative et, de l’autre côté, on a des redevables. Mais il y a un principe qui est de diviser pour mieux régner. Le collège des redevables est divisé en deux. C’est hasardeux. Donc on a 12 ayants droit, 12 sociétés de gestion collective. On a 6 représentants des consommateurs et 6 représentants des industriels. Évidemment, l’intérêt des industriels n’est absolument pas le même que celui des consommateurs. Et même entre les industriels, ceux-ci n’arrivent pas toujours à s’entendre parce qu’ils ont des intérêts qui sont, eux-mêmes, très spécifiques ; dedans on a des distributeurs, des fabricants, des importateurs, etc. Résultat des courses, on a donc 12 voix qui sont unies, qui parlent la même langue et, en plus de ça, on a des personnes qui sont archi-spécialisées dans la perception de cette somme, qui font face à 6 voix de consommateurs et 6 voix d’industriels qui ne parlent pas la même langue. En plus de ça l’histoire récente a montré que parmi les 6 et 6 il y avait des voix qui étaient très sensibles aux intérêts des ayants droit. C’est le hasard des nominations qui sont décidées au fil des ministères de la Culture.

Conclusion, qu’est-ce qui se passe dans ce cadre-là ? Eh bien les sociétés de gestion collective ont finalement une majorité : on est dans le cas d’une démocratie un petit peu contrariée où les sociétés de gestion collective sont quasiment assurées de faire voter tout ce qu’elles veulent, donc aussi bien les barèmes que les supports qui seront assujettis à la redevance copie privée. Et dans la mesure où ce sont elles qui vont percevoir les sommes sur lesquelles elles vont travailler, par darwinisme, elles ont plutôt tendance à demander beaucoup que moins. C’est un peu comme vous : si vous étiez maître de votre salaire en tant que salarié et si vous étiez comptable en même temps et gérant de la société qui vous emploie, vous auriez plutôt tendance à demander plus que moins. Voilà ! Elles, c’est un petit peu le constat qu’on peut faire. Après je ne sais pas si c’est leur volonté, c’est peut-être accidentel, mais en tout cas c’est ce qui se passe !

Raison n°2 - Copie privée et sources illicites

Pourquoi ça a augmenté, pourquoi les barèmes ont explosé comme ça avec le numérique ?

Évidemment, ça a été aussi lié à l’explosion du numérique, mais pourquoi ça a explosé ? Tout à l’heure je vous ai dit que dans le droit européen la copie privée est intimement liée à ces copies réalisées par des particuliers pour leur usage privé. Mais quand on dit ça, on ne comprend dans le spectre de la copie privée que les copies licites. Pourquoi je vous dis ça ? Parce que pour établir les barèmes, c’est là où il y a une alchimie qui est un petit peu compliquée à comprendre — moi-même je n’ai toujours pas comprise alors que j’ai beaucoup travaillé la chose — c’est que pour établir des barèmes, d’abord ce que va faire la commission privée, c’est qu’elle va lancer une étude d’usage. En fait, ils font un sondage auprès d’un cheptel de consommateurs, de personnes, et ils vont mettre comme ça un thermomètre au bout d’un micro et ils vont mesurer les pratiques de copie, chez mille personnes on va dire. Et de là, ils vont savoir que Mme Michu a copié, je ne sais, cinq MP3, trois films, etc. OK ! Sauf que jusqu’à présent, jusqu’en 2007-2008, les sociétés de gestion collective, lorsqu’elles lançaient ces études d’usage — parce qu’elles participaient intimement au financement de ces études d’usage — les sociétés de gestion collective avaient oublié dans leur questionnaire que la question des sources illicites soit exclue du périmètre des études d’usage.

J’explique.

Si, par exemple, je vous dis qu’est-ce que vous avez copié ce mois-ci ? Vous allez me dire j’ai copié 300 MP3. Bon ! Maintenant si je vous dis qu’est-ce que vous avez copié de manière licite, c’est-à-dire des fichiers que vous avez achetés à gauche et puis copiés à droite ? Ça pourrait être, peut-être éventuellement moins ; je ne vous traite pas de pirates, mais ça pourrait être éventuellement moins. D’accord ?

Cet oubli, là, ces questions qui étaient mal posées, eh bien c’était le lieu commun jusqu’à 2007-2008, en commission copie privée. Et à l’époque c’était l’époque DADVSI, loi DADVSI, la loi HADOPI aussi, où tous les politiques nous disaient que le piratage caracolait en tête et effectivement beaucoup de personnes peut-être, je n’ai pas fait d’études sociologiques là-dessus, mais beaucoup de personnes copiaient des œuvres récupérées sur Napster, eMule ou ce que vous voulez et ensuite les copiaient partout. Donc lorsqu’on interrogeait une personne pour savoir si elle copiait beaucoup elle disait : « Eh bien oui » et puis point barre.

Résultat des courses, on a eu des pratiques de copie comme ça qui ont été maximisées lors des études de sondage, en commission copie privée, ce qui a fait monter, si vous voulez, les aiguilles de tous les côtés. Et conclusion ? Les sociétés de gestion collective ont pu demander des barèmes nettement plus élevés que si on s’était limité à la seule copie de sources licites. Vous avez compris ?

Par ce biais-là, elles ont pu gagner des cents et des mille. Je n’ai pas pu faire le calcul parce que je ne sais pas quelle était la part d’illicite dans les études d’usage pour savoir quelles étaient les sommes qui étaient prélevées en trop.

Après il y a eu autre chose qui est arrivé, c’est le paiement de la redevance copie privée par les professionnels qui ne réalisent pas de copie privée. Alors qu’est-ce que j’entends par là ? J’ai dit que c’est un sujet compliqué, mais on va essayer de le simplifier.

En France, la copie privée, donc on a une commission administrative qui va élaborer assiettes et barèmes et ensuite, on va appliquer ces assiettes et barèmes qui vont être publiés au Journal officiel et l’ensemble des distributeurs, des Rue du Commerce, des Apple, ce que vous voulez, des Surcouf si ça existe encore, Auchan, tel ou tel magasin de la rue Montgallet, c’est une rue parisienne où il y a beaucoup de magasins informatiques, va devoir normalement prélever la copie privée et déclarer cette sortie de stock auprès des ayants droit et ils doivent payer en fonction des barèmes.

Raison n°3 - Le paiement de la redevance copie privée par les professionnels qui ne réalisent pas de copie privée

Le seul souci c’est qu’en France on a fait le choix de prélever la copie privée au plus haut de la chaîne commerciale, grosso modo en sortie de paquebot. Vous avez un paquebot qui arrive, qui va déverser des palettes de disques durs, de tablettes, venues de Taïwan ou autre pour inonder le marché français et c’est à ce niveau-là, c’est lors de l’introduction en France, qu’on va prélever la copie privée. Le problème, évidemment, en sortie de paquebot ou de camions qui franchissent la frontière, on ne sait pas si telle palette va aller chez un professionnel ou va aller chez un particulier. Et bizarrement, on a fait le choix de faire payer tout le monde. Donc tout le monde paye et ensuite, il revient aux professionnels de réclamer le remboursement de cette somme-là.

S’ajoutent à cela des contraintes administratives pour obtenir le remboursement. C’est-à-dire que lorsque je ne sais pas moi, vous passez une IRM, vous avez déjà passé une IRM ? Je ne sais pas, ou une radio, le cabinet de radiologie va vous filer un DVD avec dessus la copie de l’image numérique de votre IRM. Eh bien sur le DVD, vous avez de grandes chances d’avoir 90 centimes de redevance copie privée. Alors que c’est un cabinet de radiologie, il n’est pas censé graver l’intégrale de je ne sais pas quel chanteur de base, il est plutôt censé faire un travail professionnel et pas de copie privée. Ce n’est pas un particulier, il ne fait pas de copie privée. Donc on est hors des clous des conditions de la directive européenne de 2001 que je présentais tout à l’heure et, malgré tout, il a eu à payer la redevance copie privée.

Ce mécanisme-là s’explique par le fait qu’on prélève la copie privée au plus haut de la chaîne commerciale et ensuite, lorsque les cartons vont arriver partout et dans les magasins et dans les cabinets de radiologie et dans les églises et chez les avocats et dans les hôpitaux, etc., enfin toutes les boîtes, toutes les entreprises, toutes les églises, les assos, eh bien ceux-ci vont devoir supporter de la redevance copie privée alors même qu’ils vont graver dessus des radios, des IRM, des bilans, des mémoires pour des procédures en cours, etc. Donc c’est totalement illogique, totalement absurde ! On est totalement à l’écart de ce que nous dit la directive de 2001 présentée tout à l’heure, mais malgré tout, c’est comme ça que ça marche.

En France, depuis 2011, ces professionnels ont la possibilité de se faire rembourser la redevance copie privée. C’est-à-dire qu’ils ont à payer et ensuite à aller réclamer le remboursement auprès des ayants droit. Le souci c’est que — je vais montrer une facture, voilà —, le souci c’est que lorsque la loi a été mise à jour pour permettre à ces entreprises de demander remboursement de ces flux, eh bien le ministère de la Culture a publié un arrêté d’application qui a conditionné le remboursement des professionnels à la fourniture d’une facture indiquant le montant de la redevance copie privée payée.

Là je vais vous demander un travail cérébral assez puissant, je vais vous demander de vous rappeler ce que je vous ai dit tout à l’heure, c’est que les barèmes faisaient six pages, avec des barèmes très compliqués par taux, par assiette, par échelon, par heure, etc. Ça signifie donc que lorsque vous achetez des supports vierges dans une boutique, c’est que la boutique en question — là on va parler de la vraie vie — elle a mis à jour son système de paiement, sa caisse enregistreuse, avec l’ensemble du barème des ayants droit. Et je peux vous garantir qu’il y a très peu de distributeurs qui font ça. Résultat des courses : on se trouve avec des avocats, des églises, des cabinets de radiologie, des associations qui achètent des supports vierges ; ils vont payer la copie privée, mais ils ne peuvent pas fournir une facture. Là, par exemple, j’ai une facture d’Office DEPOT [distributeur de fournitures de bureau, NdT] qui date de 2013, où on n’a pas le montant de la RCP. On a la TVA, on a le montant TTC, etc., on n’a rien du tout quoi ! Moi, quand je me récupère une telle facture, il y a pour 246 euros de supports vierges, dessus il y a plus d’une centaine d’euros de copie privée qui ont été prélevés, quelque part ; donc moi je grave ça, j’ai acheté dans un cadre professionnel, je ne peux pas réclamer remboursement parce que je ne suis pas dans les clous des textes.

Si vous voulez, dans un système comme ça qui permet d’assujettir la quasi-totalité de la population française, dont les entreprises et les associations, et si, en plus de ça, vous créez un formulaire qui empêche ceux-là d’obtenir remboursement, eh bien l’argent qui est récolté par la SACEM et ses amis n’est pas remboursé ! Parce que eux ne sont pas censés savoir que telle église, tel hôpital a acheté des supports vierges.

Est-ce que quelqu’un a acheté un bundle de 100 DVD récemment ? Personne ! Il y a deux ans, trois ans, quatre ans ? Ah ! Deux. Il y a longtemps. Moi je ne m’en souviens plus non plus. Là, en l’occurrence, on arrive à une étrangeté où on a des pratiques de consommation culturelle qui ont basculé sur le stream, sur YouTube, Dailymotion, ce que voulez, et pour autant la copie privée monte chaque année, chaque année !

Public : Inaudible.

Marc : Tout à l’heure. J’en parle tout à l’heure. L’une de mes explications c’est qu’il y a justement le fait que les professionnels participent à ce pot commun alors qu’ils n’ont pas à le faire. Juridiquement ils n’ont pas à le faire. Mais la France a fait le choix, a fait un choix qui est extrêmement généreux, de maximaliser, de maximiser, de sécuriser l’ensemble de ces flux pour que la SACEM puisse ne manquer de rien.

Et ce qui est rigolo c’est qu’il y a eu pas mal de barèmes qui ont été annulés. Un barème, lorsque vous avez une commission administrative qui produit un barème, un barème c’est une décision administrative, c’est un acte administratif. Et si jamais cet acte administratif n’est pas conforme à la loi, eh bien il est possible de l’attaquer devant le Conseil d’État. Et c’est ce qui a été fait plusieurs fois. Notamment, il y a eu des industriels qui ont attaqué les barèmes de la commission copie privée parce que, justement, ils avaient oublié d’exclure les sources illicites des études d’usage qui permettaient de justifier les montants et parce qu’aussi on avait oublié d’exclure les copies de sources professionnelles, les copies professionnelles des études usages aussi. Donc ces barèmes ont été annulés. Et le truc drôle là-dedans — enfin drôle je ne sais pas, mais il faut mieux en rire parce que la vie est courte — c’est que le Conseil d’État se retrouve dans une situation où il a annulé, effectivement, l’acte administratif qui servait de socle à la ponction, mais il n’a pas pu exiger le remboursement des sommes de la part de la SACEM.

Si vous avez un acte administratif qui est annulé, pour lequel vous avez touché de l’argent, si l’acte administratif est annulé, il n’a jamais existé, donc l’argent que vous avez touché grâce à cet acte administratif, en toute logique vous devez rembourser ce que vous n’auriez pas dû percevoir. Sauf qu’en matière de copie privée ça ne marche pas comme ça. Parce que les sommes qui ont été prélevées, ont été prélevées sur une très longue période ; les sommes ont été consommées, elles ont été réparties auprès de l’ensemble des titulaires de droits — Johnny, Céline Dion, ce que vous voulez — et finalement, le Conseil d’État s’est retrouvé avec un os c’est qu’il n’a pas pu demander le remboursement de ces sommes-là. Et les sommes en question, on n’est pas dans le neutre ; quand je vous dis ça, on peut avoisiner le demi-milliard d’euros depuis 2001, voire plus même. On est entre un demi-milliard d’euros et un milliard d’euros aspirés en trop depuis 2001, de part ces pratiques illicites.

Le Conseil d’État n’a annulé que pour l’avenir l’acte administratif qui était vicié. Ce n’est pas mal ! Je rappelle juste que ce sont les ayants droit qui siègent en commission copie privée et qui décident, quasiment, par la puissance de cette répartition en trois parties avec 12 ayants droit, 6 consommateurs et 6 industriels, ce sont eux qui décident, finalement, des barèmes qu’ils vont percevoir eux-mêmes. Et en plus de ça, lorsqu’ils font absolument n’importe quoi, évidemment pas en conscience, eh bien ils sont assurés d’avoir un parapluie : c’est le Conseil d’État qui ne peut pas leur exiger de rembourser ces sommes-là. Ce n’est pas mal comme système, non ? Je me dis moi j’aurais du être ayant droit dans la vie, mais j’ai raté !

Donc ce que je vous disais, il y a eu une non-rétroactivité des annulations. Malgré le fait que ce soit illégal, ils ont pu garder le blé !

Raison n°4 - Les études d’usage

Tout à l’heure je vous ai parlé des études d’usage. Tout à l'heure je vous disais que pour établir les barèmes de commission copie privée on prend un cheptel de 1000 consommateurs et on va leur demander ce qu’ils font comme pratique de copie. Combien tu as copié de musiques ? Combien tu as copié de films ? Combien tu as copié d’œuvres, de livres, par exemple d’e-books, tout ça. Et de ces études-là, après on en arrive à ébaucher un taux.

Ce qui est rigolo, c’est qu’il faut imager la scène. Vous êtes chez vous, vous vous appelez Mme Michu ou M. Michu, vous êtes chez vous, il y a une personne qui vient pour vous sonder, pour réaliser une étude d’usage. Ce qui est rigolo c’est que dans le questionnaire des études d’usage qui, évidemment, n’est pas public — moi j’en ai eu copie par accident, mais le questionnaire n’est pas public — c’est que parmi les questions il est demandé à Mme Michu, Mme ou M. Michu, d’abord de bien vouloir accepter d’ouvrir son disque dur aux yeux curieux de cet agent qui vient chez eux pour les besoins de la commission copie privée, l’agent qui vient avec une carte tricolore, ministère de la Culture et tout ça. Il demande s’ils acceptent d’ouvrir le disque dur ; beaucoup acceptent. Il fouille, il compte le nombre de fichiers mp3, par exemple, donc il fait « *.mp3 enter » ; il fait peut-être ça pour les films, pareillement, et cinq ou six pages après on va demander à la personne si elle télécharge sur les réseaux illicites. À votre avis quel est le biais, quel est le risque de biais ici ?

Moi j’ai un agent comme ça, je ny connais rien, j’ai un agent comme ça qui vient chez moi, qui fouille mon disque dur, qui, trois ou quatre minutes après me pose une question, me demande est-ce que je télécharge sur je ne sais pas eMule, Napster ou autres qui sont considérés comme des zones à risque aux yeux des SPRD, des sociétés de perception. Eh bien j’ai plutôt tendance à travestir la réalité en disant « non, non, c’est bon ! J’ai acheté ça sur iTunes. J’ai 10 000 mp3, ça m’a coûté un bras, mais j’ai tout acheté ! » Donc je me protège. Mais le problème c’est qu’en mentant sur cette réalité-là, finalement je baisse les pratiques de sources illicites et j’augmente les pratiques de sources licites. Et en faisant ça, ça justifie aux yeux des sociétés de gestion collective la possibilité de demander des barèmes très élevés. C’est malin !

Après il y a un gap, il y a un saut, il y a une technique que je n’ai toujours pas comprise, c’est le passage d’une quantité de fichiers copiés à 90 centimes d’euros de redevance sur un DVD. Je ne comprends pas ça ; je ne comprends pas le mécanisme. Je ne sais pas comment techniquement c’est fait et sur quelle justification. Si vous avez une explication, je veux bien.

Petite précision aussi parce qu’il y a plein de charmes dans ce système-là. C’est que lorsque la redevance copie privée est appliquée sur les supports que vous allez acheter, eh bien c’est une redevance qui va s’appliquer sur le chiffre hors taxe. Ça veut dire par là-dessus, dans une logique de chat perché, Bercy va arriver avec sa TVA et vous avez, sur les 90 centimes qui visent les DVD, vous avez en plus 20 % de TVA qui va s’appliquer sur la redevance que vous allez payer. Ça fait beaucoup ! Sachant que, je rappelle les derniers chiffres, 236 millions d’euros. Quand je vous ai dit que les sociétés de gestion collective ont aspiré 236 millions d’euros, là-dessus il faut rajouter 20 % de TVA qui sont, cette fois-ci, allés dans les poches de Bercy. Donc autour de 50 millions quoi !

Raison n°5 - Un droit dans l’œil

Ce n’est pas fini. Si je recommence, si je reprends cette logique de copie privée, donc vous avez une redevance qui est décidée par une commission administrative, avec des barèmes qui sont décidés démocratiquement dans cette instance, sous des formules assez magiques et des doigts tout mouillés, les sommes qui sont prélevées, je vous ai dit tout à l’heure qu’il y a une partie qui va dans les poches des créateurs, ceux qui sont derrière les micros, derrière les caméras ou devant les caméras, ceux qui sont derrière les guitares, enfin les artistes et les créateurs, mais il y a aussi une partie qui est gardée par les sociétés de gestion collective et cette partie n’est pas neutre : c’est 25 %. Donc il a un quart de 230 millions d’euros qui est gardé par la SACEM, par la SACD, par toutes les autres, par la force de la loi. C’est-à-dire que le code de la propriété intellectuelle leur dit : « Gardez 25 %. » Et ces 25 % leur servent à eux, à financer, d’ailleurs ils doivent le faire, à financer le spectacle vivant, les manifestations culturelles, mais aussi les défenses d’intérêts catégoriels, pourquoi pas les actions de lobbying. Tout ça, ils peuvent le faire avec la copie privée ; ils doivent même le faire avec la copie privée. Et ces 25 %, en fait, c’est une manière très vicieuse d’entretenir un lien avec des élus locaux.

On va rebasculer dans la vraie vie. Je suis société de gestion collective, je vais balancer, je ne sais pas moi, 500 000 euros sur l’organisation d’un festival, à Cannes par exemple. Je peux vous garantir que le député-maire de la ville de Cannes ou de Pétaouchnok, peu importe, eh bien il va être bien content d’avoir cette somme-là. Et donc, quand moi je suis député-maire — parfois je suis maire, mais parfois je suis député — j’aurai peut-être une certaine attention lorsque les sociétés de gestion collective vont venir dans mon bureau faire une action de lobbying — le lobbying ce n’est pas sale, ça arrive, tout le monde le fait —, donc j’aurai en tout cas une certaine attention, une attention peut-être plus aiguisée à écouter leurs arguments, sachant que ceux qui sont en face de moi, pour me vendre leur soupe, eh bien ils ont balancé 500 000 euros dans l’organisation d’un festival que moi je n’ai pas eu à payer. Donc ça crée un lien fort.

Ce que je dis là, vous pouvez considérer ça comme une espèce de concurrence déloyale avec l’économie sicilienne, mais n’en rigolez pas ! En fait, c’est Jean-Noël Tron qui l’a ouvertement dit lors d’une rencontre que j’ai filmée. Il ne savait pas que j’étais là, mais bon j’ai pu le filmer, filmer de manière honorable, c’est-à-dire qu’il était sur scène, devant du public et il a ouvertement dit — Jean-Noël Tron c’est le numéro un de la SACEM —, il a ouvertement dit que grâce aux lobbies de la copie privée on pouvait entretenir, comme ça, un lien de solidarité avec les élus.

Il y a autre chose. C’est un droit qui arrange aussi le ministère de la Culture. Pourquoi ? Toujours pareil. Quand le ministère de la Culture voit que la SACEM and Co va arroser tel ou tel festival avec des sommes qui sont prélevées grâce à vous et grâce aux cabinets de radiologie, c’est autant d’argent que la SACEM [le ministère de la Culture, NdT] ne va pas balancer. Donc la SACEM [le ministère de la Culture, NdT] a tout intérêt à protéger aussi cette manne parce que son budget n’est pas extensible, malheureusement, à l’infini.

Et en plus de quoi, c’est que tous les textes qui concernent la propriété intellectuelle, je peux vous garantir qu’ils sont passés entre les mains de sociétés de gestion collective ; je ne dis pas que ce sont leurs textes mais, en tout cas, ils étaient dans le lit le jour où ça a été conçu. Si, si je vous assure !

Donc les 25 % copie privée ça sert à arroser pas mal de festivals, Cannes, Avoriaz, les festivals de BD, etc. Il y a 1500 manifestations, c’est le chiffre qui revient à chaque fois, culturelles qui sont comme ça arrosées par ces 25 % de la redevance copie privée et qui donnent comme ça un pouvoir d’influence extrêmement fort au secteur culturel. C’est bien pour eux, moi je suis content pour eux, franchement je suis très content pour eux ! Mais en tout cas, ça peut expliquer aussi qu’on obtienne des résultats, des bons résultats, lors des votes de textes « cultureux » à l’Assemblée nationale ou au Sénat, où on peut obtenir 103 % de résultats positifs et 0 voix contre. Ce n’est pas arrivé, mais on a eu des textes qui ont été votés par l’unanimité des députés sauf un, qui n’était pas député-maire. Je ne dis pas que ces 25 % ont permis ça, mais en tout cas ça crée une attention chez les parlementaires.

Transparence de papier des 25% de copie privée

Pourquoi je vous mets ce machin-là [photo de chemises cartonnées contenant des documents, NdT]. Moi il y a un truc que j’aime bien aussi parce que je suis un journaliste un petit peu hargneux, militant, j’aime bien la transparence et il y a une procédure que j’utilise beaucoup, ce sont les procédures CADA. Les procédures CADA, ce sont les procédures qui se réalisent devant une commission administrative, encore une autre, et qui s’appelle la Commission d’accès aux documents administratifs et qui est là pour décider de la communicabilité d’un document administratif auprès d’un administré. Ce qui est intéressant c’est que dans le code de la propriété intellectuelle il est dit que chaque année les sociétés de gestion collective doivent fournir au ministère de la Culture un rapport détaillant toutes les manifestations culturelles qui ont été arrosées avec les 25 % de la copie privée et on a le montant à chaque fois.

Et moi, ce que je me suis amusé à faire, tout bêtement : « Bonjour madame la ministre, est-ce qu’il serait possible d’avoir copie de ces rapports d’affectation ? » Je n’ai demandé pas une année, j’ai demandé sept ou huit ans. Je suis un peu gourmand, voilà, donc j’ai demandé huit ans de copies. Je m’attendais à avoir, dans le cadre de cette procédure CADA, je m’attendais à avoir, je ne sais pas, huit fois le nombre de sociétés de gestion collective PDF par mail, donc un gros mail tout rond, comme ça. Et en fait, le ministère de la Culture, au terme de cette procédure, m’a dit que les rapports d’affectation qui sont envoyés chaque année par les sociétés de gestion collective étaient effectivement communicables, donc ce n’est pas secret Défense, ouf ! Ce n'est pas un secret Défense. Par contre il y a une toute petite problématique c’est que, dans la mesure où ils n’ont qu’une version papier, c’est à moi de me déplacer au ministère de la Culture pour aller consulter ces documents.

Là j’avais en tête la musique de Brazil, et quand on me demande de jouer au con, j’y arrive très bien. C’est un truc, j’y arrive très bien. Donc j’ai dit « OK ! Bingo », sachant que le ministère de la Culture savait que moi je n’habite pas Paris, j’habite au milieu des vaches et des champs, et donc j’ai dit : « Bingo, je vais venir, tant pis quoi ! » Eh bien j’y ai été. Donc j’ai été au ministère de la Culture avec ma lettre disant que j’avais accès à ce document. J’ai sonné, tout ça. Il y a un gentil vigile qui m’a ouvert et j’ai été reçu par un juriste, directeur du cabinet du ministère de la Culture ou de la DGMIC [direction générale des médias et des industries culturelles], je ne sais plus, peu importe, et une archiviste, donc trois personnes et moi j'étais, voilà ! Et ils m’ont amené dans une pièce quasiment ronde, entourée de grandes vitres, avec un lot de tables en plein milieu. Et puis ça [photo de chemises cartonnées contenant des documents] ; voilà l’open data version ministère de la Culture !

Si vous allez sur le ministère de la Culture, vous tapez open data, vous allez voir ils parlent d’open data, ça existe. Mais ça existe, ça aussi ! Ils m’ont dit : « Vous avez trois heures. » Et pendant trois heures, j’ai commencé par l’année numéro un, les premières sociétés de gestion collective et j’avais mon téléphone, appareil photo tout ça, et je prenais des photos. Mais c’était absurde quoi ! Mais là-dessus j’avais cette gentille archiviste qui était assise à un mètre de moi et qui, pendant trois heures, n’a pas pu bouger. À un moment donné, les nécessités de la nature ont fait que… Je vous passe les détails, elle a dû bouger, mais pendant trois heures elle est restée à côté de moi et c’était assez rigolo. Donc j’ai fait une actu sur Next INpact où j’ai expliqué « On a testé la transparence de la copie privée »2.

Ce qui est rigolo c’est que cette procédure-là, qui était complètement délirante et absurde, eh bien finalement elle a eu un écho puisque Aurélie Filippetti qui alors était ministre de la Culture m’a dit que dans sa loi création — parce qu’elle était en phase de rédaction de la loi création — m’a dit qu’il y avait un article qui portait mon nom, suite à cette procédure CADA, parce qu’elle trouvait ça exécrable. Peu après, ce n’est pas à cause de moi évidemment, mais peu après Filippetti est partie, elle a été remplacée par Fleur Pellerin et lorsque Fleur Pellerin a repris le bébé de son projet de loi création, de son avant-projet de loi création, lorsque l’avant-projet est devenu projet de loi création et déposé sur le site du Sénat ou de l’Assemblée nationale, eh bien l’article en question que j’attendais, mon petit bébé, eh bien pouf ! Il a disparu. Bizarre ! Finalement j’ai fait des pieds et des mains et il y a un amendement qui a été adopté au fil des débats qui impose, cette fois-ci, l’open data dans un format ouvert, interopérable, tout ce que vous voulez, sur une plate-forme, identique, etc., de toutes les données. Voilà !

[Applaudissements]

Non, non, attendez ! Parce qu’il n’y a pas de sanction s’ils ne le font pas ! Voilà !

[Rires]

Eh ben oui, ce n’est pas drôle sinon ! Donc il n’y a pas de sanction s’ils ne le font pas. Il y aura peut-être une procédure qui sera envisageable, mais pour l’instant ça n’y est pas, cette plateforme n’existe pas.

Et ce qui était rigolo, en plus, c’est que chaque société gestion collective a sa façon à elle de présenter les choses. Et un budget vous le présentez de 1000 façons différentes si vous avez une certaine dextérité comptable, enfin moi ce n’est pas mon cas, et donc c’était difficilement exploitable.

En tout cas voilà, le texte existe aujourd’hui ; j’attends sa mise en œuvre.

Transparence en béton - Commission copie privée

Je vous parle aussi de la question de transparence. Je parle d’une transparence en béton de la commission copie privée, parce que cette commission copie privée, évidemment les débats ne sont pas en direct, il ne faut quand même pas déconner, et on a des comptes-rendus qui sont rédigés et qui sont diffusés sur le site du ministère de la Culture.

Tous les compte-rendus antérieurs à 2007 n’existent pas, pourtant la commission avait une activité, mais ces compte-rendus on ne peut pas les avoir ; enfin il faut faire une procédure CADA. Donc ils n’existent pas. Donc tous les compte-rendus, toutes les discussions qui ont permis l’extension de la redevance copie privés à tous les supports numériques, eh bien on n’a pas les rouages du comment, du pourquoi. De même, les débats qui ont lieu dans cette commission ne sont pas retranscrits en temps réel. Sur le site de l’Assemblée nationale et du Sénat, vous avez une retranscription en temps réel, quasiment en temps réel : c’est-à-dire que le lendemain vous savez exactement, par écrit, tout ce qui a été dit au micro. Là, il faut attendre des semaines et des semaines, voire des mois, pour qu’on ait une connaissance de ce qui a été dit.

Transparence robotisée du site Copie France

Alors qu’est-ce que je raconte ? Copie France, donc, c’est une société de gestion collective ; c’est elle qui est chargée d’aspirer la redevance copie privée auprès de tout le monde. Donc c’est elle qui palpe les 230 millions avant d’envoyer dans le pipe-line ces flux en fonction des intérêts de chaque société de gestion collective.

Vous êtes professionnel, vous dites « tiens, il y a un mec qui s’appelle Marc Ris ou Rees, je ne sais même pas dire son nom, qui m’a parlé de professionnels qui peuvent se faire rembourser, eh bien je vais me renseigner. » Vous prenez votre moteur de recherche Google, Qwant, Yahoo, ce que vous voulez, je m’en fiche et vous tapez : « copie privée remboursement ; copie France remboursement ». Voilà. « Remboursement site Copie France ». Sur le site de Copie France effectivement, quand vous y allez a mano, quand vous tapez copiefrance.fr dans la barre de navigation, vous avez une procédure qui est assez bien expliquée. C’est assez bien expliqué. Mais le problème c’est qu’il faut avoir le réflexe ; il faut que ça fasse bing dans votre tête, même chez Google, pour que vous puissiez aller voir ce site-là. Sinon vous utilisez un moteur de recherche.

Le problème c’est que Copie France a utilisé un robot.txt. Robot.txt c’est un petit fichier que vous mettez à la racine de votre site pour autoriser ou interdire les moteurs à aller fouiller ce que vous avez. Voilà. Eh bien ils ont mis un robot.txt, qui dit à Google, Qwant, Yahoo, tous les moteurs, d’aller référencer ailleurs, mais pas chez eux ! Donc c’est à vous d’avoir cette connaissance de cette possibilité de remboursement si vous êtes une entreprise, sinon vous l’ignorez donc vous payez bêtement. D’autant plus que votre facture chez le distributeur ne mentionne pas la copie privée. Donc ! Je vous dis c’est…

Le marché gris, le marché crie

Il y a un charme en France c'est que, avec le système que je vous ai décrit un peu rapidement ici, la France, on est médaille d’or. Là vous pouvez applaudir ! Donc on est médaille d’or, donc 226 millions d’euros prélevés en 2015. C’est 39 % des prélèvements réalisés dans toute l’Europe, dans tous les pays où il y a de la redevance copie privée. Le total européen c’est 581 millions ; en France, grâce à ce mécanisme-là, c’est 226 millions. Je ne sais pas si vous réalisez : la France dépasse tous les États membres européens. C’est un parmi d’autres. Mais le mécanisme est tellement bien taillé qu’on en arrive à des sommes de ce type-là.

Et Internet ?

Vous me disiez et Internet ? Oui ! Lors du projet de loi création qui avait été préparé par Aurélie Filippetti et, finalement, pris sous la main par Fleur Pellerin, il y a un amendement qui a été porté par le gouvernement — je ne sais plus si c’était le gouvernement, non ce n’était pas le gouvernement c’était un député socialiste — qui visait à étendre la redevance copie privée à Internet. Et ça, jusqu’alors ça n’existait pas. Je vous ai parlé de support, de clef USB, de carte mémoire, de tablette, d’appareil photo — vous achetez un appareil photo avec une carte mémoire par exemple, les ayants droit estiment que vous allez faire des copies de MP3 sur votre carte mémoire qui est livrée avec l’appareil photo —, les box, tout ça, c’étaient des supports tangibles sur lesquels la copie privée s’appliquait.

Et Internet, il y a une brèche qui est apparue — grâce à la loi ou à cause de la loi création, tout dépend de votre sensibilité — et qui a permis d’étendre cette logique-là, cette logique de redevance au cloud, en tout cas à un certain service cloud et bizarrement, l’amendement qui a été adopté par les députés et sénateurs, il correspond pile-poil au business modèle de Molotov de Pierre Lescure [service de distribution de programmes de télévision, NdT] qui est le président de Cannes. Et cet amendement-là, en fait, c’est une révolution parce que c’était la première fois où, finalement, vous allez devoir payer pour un support que vous ne détenez pas. Et c’est une première brèche qui est à la fois peut-être super, extraordinaire même, pour ceux qui sont pro-copie privée ou alors dangereuse pour ceux qui préfèrent qu’on laisse Internet tranquille.

Les prochains supports assujettis

Il y a d’autres supports qui seront possiblement assujettis, ce sont les disques durs d’ordinateurs, en tout cas de certains ordinateurs. Parce que traditionnellement, la France a toujours laissé tranquille les PC. En 85, on ne voulait pas, en tout cas en 2000 plutôt, on ne voulait pas assujettir les ordinateurs parce qu’on voulait que le marché puisse se développer et on ne taxe pas un truc qui commence à naître.

Aujourd’hui, maintenant, on a une ébauche d’étude d’usage qui est en train d’être mise à jour, comme ça, en commission copie privée, sur laquelle j’ai eu des infos, où on voit apparaître des questions qui interrogent sur des pratiques de copie sur les PC hybrides. PC hybride c’est un PC dont le clavier et l’écran sont détachables. L’argument c’est : dans la mesure où la tablette est assujettie, un machin qui se visse ou qui se dévisse comme ça, voilà ! Donc ils vont commencer à poser des questions là-dessus, et je peux vous garantir, on en reparle dans quelques mois, c’est que si jamais des pratiques de copie se vérifiaient sur les PC hybrides, je peux vous garantir qu’ils vont tomber dedans. Et l’étape d’après ça sera quoi ? Ça sera les PC portables et les PC fixes. Sachant que dans ce cadre-là, les disques durs, parfois ce n’est pas juste 200 gigas ou 300 gigas, ça peut monter très haut. Et les montants peuvent exploser aussi.

Et les imprimantes 3D, il y a eu différentes tentatives. Il y a eu un amendement socialiste qui avait été porté il y a quelques mois pour, justement, étendre la logique de la redevance copie privée à l’impression 3D. Ils ne savent pas très bien comment faire, que taxer. Est-ce qu’on taxe le matériel ? Est-ce qu’on taxe cette espèce de machin gloubi-boulga qui va couler de manière hasardeuse sur une forme ? Est-ce qu’on va taxer juste le support, laissant ce carburant qu’on va balancer dans l’impression 3D ? Qu’est-ce qu’on fait ? On ne sait pas, mais en tout cas, ils voulaient lancer cette brèche-là de l’impression 3D.

Donc il y a un appétit, il y a une appétence comme ça sur les supports et sur ce mécanisme de collectivisation du financement de la culture de tous les côtés. Et ils n’arrêtent pas ! Ils n’arrêtent pas pourquoi ? Parce qu’ils ont une forme d’inventivité qui est complètement folle, parce qu’aussi ils savent bien que les gens, aujourd’hui, eh bien ils consomment nettement plus de musique sur YouTube ou Dailymotion, ce que vous voulez, plutôt qu’en allant acheter, je ne sais pas, sur la plateforme Fnac ou autre.

Qu’est-ce que je peux vous dire d’autre encore ? Il y avait merci. Voilà. Je ne sais pas si je suis resté dans les temps, mais je voulais garder un petit peu de temps pour vous laisser l’occasion de poser des questions. Jérémie ? Je ne sais pas si vous avez des questions à poser. Je ne sais pas.

[Applaudissements]

Il arrive le micro. Il arrive.

Organisatrice : Il y a des questions ?

Marc : Oui. là-bas. Short bleu bizarre.

Public : En fait ce n’était pas une question, c’était un remerciement, parce que Marc Rees, on ne se connaît pas, est une personne qui nous a, qui m’a, en tout cas, réconcilié avec le journalisme. Le journalisme c’est fait pour faire de l’information et, au niveau de Marc, c’est de l’éducation. Donc merci Marc pour tout ce travail fait à l’Assemblée, les comptes rendus précis sur tous les articles, etc. Il passe ses heures du soir à squatter les couloirs de l’Assemblée pour nous tenir informés de toutes ces évolutions, de toutes ces lois. Vous voyez ce qu’il a été capable de faire sur la copie privée ! Comment tu as été fouiller ! Mais il le fait sur des choses bien plus importantes encore, sur nos libertés, etc. Donc merci beaucoup Marc. Voilà !

[Applaudissements]

Marc : Eh bien merci pour cette question. Une autre question ?

Public : À la limite oui, pour rebondir sur ce qui vient d’être dit, effectivement c’est super. Et où est-ce que c’est relayé ? Où est-ce que tu relaies ce genre de question ? Est-ce qu’il y a des gens qui relaient ce genre de question ? Moi, la copie privée j’en ai entendu parler quand elle a été mise en place il y a…

Marc : Elle s’est mise en place sur les CD.

Public : Ouais. J’en ai entendu parler et puis ça a disparu des médias.

Marc : C’est juste un constat. Je suis le seul à en parler autant. Les autres n’en parlent que… Prenez un moteur de recherche, faites un comparatif : le sujet est totalement méconnu, est totalement délaissé parce que c’est trop compliqué, c’est trop juridique, ce n’est pas fun. Ce n’est pas deux présidents qui vont se serrer la main avec des doigts blancs ; ça c’est le gros truc du jour. C’est moins croustillant, c’est moins sexy mais pour autant, derrière, vous avez 226 millions d’euros qui sont prélevés. Les 25 %, je vous disais bien, ils servent à arroser les manifestations culturelles ; mais si vous regardez bien le code de la propriété intellectuelle, vous avez une disposition réglementaire qui nous dit que les 25 % peuvent également servir aux actions de défense des intérêts catégoriels. C’est-à-dire quand le monsieur chevelu avec une drôle de chemise, le mec super louche, cache-toi je t’ai vu [Jérémie Zimmermann, NdT], s’étripait avec ses gus sur tous les dossiers ACTA, et on a passé quelque temps là-bas à Strasbourg, Bruxelles, et à se crever la santé, comme il pouvait, eh bien derrière, ce sont aussi des personnes qui se sont mobilisées pour faire du lobbying pour ce texte-là, grâce au financement de la copie privée et grâce à vous donc. Donc grâce à vous, Jérémie s’en est pris plein la gueule ! Merci.

[Applaudissements]

Jérémie Zimmermann : Du coup j’ai une question pour rebondir sur le rebondissement, parce que tu es le seul à en parler. Les gens, en face, ils ont des millions de milliards de machins. Est-ce qu’on peut soutenir ton action, par exemple en s’abonnant à Next INpact ou un truc comme ça ? Et comment on fait ? Et pourquoi il faudrait s’abonner à Next INpact ?

Marc : Je vous présente notre nouveau VRP.

Jérémie Zimmermann : Tu es trop modeste pour le dire toi-même.

Marc : Effectivement, Next INpact est un des rares sites totalement indépendants, encore indépendants. On est dépendants juste d’une chose, c’est de l’argent qui rentre. Mais, par contre, on n’appartient qu’à nous-mêmes. On est une toute petite équipe. On fait un travail qui n’est pas facile parce qu’on travaille tous en télétravail, on est répartis dans toute la France, donc on se voit peu, en plus. Moi je travaille depuis 98 en télétravail donc chez moi, donc en pantoufles et en slip derrière un écran. Ne rigole pas ! Toi aussi tu portes un slip !

Jérémie Zimmermann : Je ne pourrai plus m’enlever l’image de la tête.

Marc : Donc on a un site que est autofinancé, on fait ce qu’on peut et on essaie d’avoir des caméras un peu partout sur les textes qui sont, pour nous, importants. Là c’est sûr, je vous parle de la copie privée parce que c’est un sujet qui est…

Jérémie Zimmermann : Non, non, ne change pas de sujet. Comment on s’abonne ? Pourquoi il faut s’abonner ?

Marc : Vous allez sur nextinpact, N, E, X, T, I, N, P, A, C, T, .com3  il y a « abonnement » et vous cliquez sur « abonnement » .

Jérémie Zimmermann : Et ça donne quoi ? Ça donne droit à quoi ? Qu’est-ce qui se passe quand tu es abonné ? Concrètement ? Imagine, je m’abonne maintenant, ça fait quoi ?

Marc : Ça te fait, toi, de l’argent en moins ; nous de l’argent en plus ! Là j’ai une logique SPRD. Ça donne quoi ? Eh bien tu auras accès à plein d’articles qui sont réservés, pour l’instant, aux abonnés. C’est-à-dire qu’on essaye d’avoir une pratique un petit peu éthique sur l’accès aux documents, c'est-à-dire l’accès à l’information. Récemment on a basculé sur une formule presque intégralement payante, on a encore des actus qui sont totalement gratuites. Mais quand l’actualité est payante, on a la possibilité de réserver cet accès limité sur une période de temps, c'est entre une semaine et un mois. Et les actualités qui sont juste cruciales, on les libère totalement, tout de suite. Voilà ! On fait ce qu’on peut. C’est un choix qui a aussi été poussé par la prolifération d’adblocks. On avait des jours avec 70 % d’adblockeurs. Quand on est financé par la pub ou ce genre de chose, si vous avez 70 % d’adblockeurs, aors qu’on a une approche éthique de ces contenus-là ! Il n’y a pas de pubs en 800 par 600, en vidéos, avec le son à fond, etc. ; ça on refuse. Il n’y a pas de publi-rédactionnel chez nous. Ça on refuse. On essaye, comme ça, d’avoir une démarche ; il n’y a pas de trackeurs non plus ; on refuse. On est un peu suicidaires là-dessus, mais on fait le pari ; on se dit qu’en étant un petit peu éthiques ça peut jouer à notre avantage et puis à l’avantage d’une information qui soit en tout cas libre, et voilà. Je ne sais pas ce que je peux rajouter. Il n’y a pas de questions sur la copie privée parce que sinon…

Public : Justement je vais prendre la main.

Marc : Où tu es ?

Public : Là, ici juste devant toi. Concernant justement toutes ces lois, tout ce comité copie privée ou autres, c’est défini par la loi, commission c’est défini par une loi. Qu’est-ce qui permettrait de changer, de modifier cette répartition, ce fonctionnement, et comment le modifier justement ?

Marc : Eh bien c’est une question que tu pourras adresser à un député comme Lionel Tardy qui a plusieurs fois essayé, Isabelle Attard aussi, quelques députés, comme ça, qui ont une certaine sensibilité sur ces questions qui se sont dit « tiens il y a peut-être des choses à modifier ». Ils ont essayé, ils ont déposé plein d’amendements et il n’y en a aucun qui est passé ! Parce qu’il y a un bloc ; il y a un mur. Pour moi, c’est un truc qui est inchangeable. C’est inchangeable, sauf révolution. Mais je ne suis pas certain qu’avec le mécanisme « En Marche » actuel, il y ait une modification quelconque là-dessus ! Oui ?

Public : Au risque de vous faire répéter des trucs que vous avez dits plus tôt. Vous parliez des 25 % immobilisés par…

Marc : Les sociétés de gestion collective.

Public : Quand on prend un truc comme la SACEM qui a un fond actions culturelles qui est je crois 25 millions ou un truc comme ça, ces 25 millions-là sont alimentés en majeure partie par la copie privée. Ils viennent des 25 % immobilisés, où ils viennent des autres 75 ?

Marc : 25 %. 25 % sont fléchés par ce système-là. Je vous dis c’est un système qui est pour moi je ne le trouve pas, ce n’est pas condamnable en théorie. On prélève un petit peu et finalement ça fait une grosse rivière et après on va financer la culture et on va financer ceux qui sont derrière les micros. Ce n’est pas mal !

Public : C’est ce que j’allais vous dire. La plupart des sociétés de droit ont un système de redistribution auprès des créateurs, des artistes, des ayants droit et tout ça, qui est alimenté essentiellement par la copie privée.

Marc : Oui. Tout à fait. C’est un beau système, sauf que lorsque vous mettez les bénéficiaires aux places prépondérantes des barèmes, des taux, etc.

Public : Le problème est là. D'accord !

Marc : Eh bien on peut considérer qu’éventuellement il y a tout petit risque d’abus qui se constate avec le chiffre que je vous ai indiqué tout à l’heure, c’est que la France, le flux c’est 226 millions d’euros en 2015 et ce flux-là représentent 39 % du montant de la redevance copie privée prélevée en Europe. Pour moi ça s’explique par ça.

Public : Les 75 % qui restent, ils servent à quoi ?

Marc : Dedans il y a effectivement des frais de gestion qui tournent entre 7 et 11 % en fonction des sociétés de gestion collective. Mais après ils vont tomber dans la poche des créateurs, des personnes qui sont sociétaires de ces sociétés de gestion collective.

Public : Les sociétaires.

Marc : Après, la répartition se fait en fonction des œuvres de l’écrit, de l’audiovisuel et de la musique, je n’ai pas voulu complexifier. Évidemment, tout dépend aussi ; c’est-à-dire que le gus qui a déposé une vague partition et tout ça, il va toucher environ 0,001 centime alors que la pop-star, elle, va toucher plein pot. Eh bien voilà. Je ne sais pas s’il y a d’autres questions. Oui ?

Public : Les 25 % qui sont évoqués aujourd’hui, ils vont avoir plutôt tendance à augmenter dans les années à venir ou c’est plutôt quelque chose qui va se réduire ?

Marc : Il n’est pas prévu de modifications de ce taux de 25 %. Et dans la mesure où les flux de perception augmentent année après année, eh bien ce qui est récolté grâce aux 25 % ça augmente aussi. D’autant plus que maintenant s’il y a des visées sur Internet et c’est le cas, il y a des visées maintenant sur les PC fixes, PC portables ou fixes, on peut s’attendre à des montants… En fait, ce qu’il y a, c’est que les sociétés de gestion collective ont pris pour habitude de vivre avec ces 230 millions d’euros chaque année. Et moi, si je touchais 230 millions chaque année, c’est-à-dire le salaire de Jérémie à La Quadrature4, ouais on sait, eh bien quand on bascule à 220, 210, c’est douloureux, on ne se sent pas bien, parce qu’un jour dans l’année on est obligé de manger une portion de caviar un peu plus réduite !

Ce que je veux dire c’est qu’on s’habitue à un fort niveau, à un niveau à 230 millions d’euros, on fait des investissements économiques, etc., et après c’est difficile de réduire la voilure. Dans la mesure où on a une position un petit peu privilégiée dans cette commission administrative, on a plutôt tendance à réclamer toujours plus. Il n’y a pas d’autres questions ? Oui ? Il y en a deux, trois. Il y a un interrupteur sur le côté [du micro].

Public : Je te remercie Marc pour cette conférence. C’est plutôt une remarque que je vais faire, ce n’est pas trop une question. Parmi les sociétés qui perçoivent l’argent on a, entre autres, la SACEM et il y a un point intéressant à développer là-dessus. Je pense que tu connais un petit peu l’histoire Newsoo. Donc c’était l’histoire de quelqu’un qui crée un réseau de newsgroups en France, qui a été condamné.

Marc : Ah Newsoo ! Oui.

Public : Oui. Quand on regarde, grosso modo, les enquêtes au sens large du terme, les enquêtes sur les sites entre guillemets « pirates » réalisés par la SACEM et par leurs pseudos agents assermentés.

Marc : Ils ne sont pas pseudos, ils sont agents assermentés.

Public : Pseudos spécialistes du moins, parce que quand on regarde vraiment les enquêtes et les PV c’est assez drôle et je voulais faire part un petit peu aux gens de deux-trois découvertes qu’on a trouvées dans des dossiers judiciaires soit sur Internet ; le cas des agents assermentés soi-disant spécialistes est assez intéressant.

Par exemple on a monsieur Anthony Sitbon, on va le citer, qui est agent assermenté de la SACEM, qui confond sur un site de téléchargement soi-disant illégal, qui confond, en fait, les signatures de membres avec de la publicité. Ça c’était en 2008. En fait ça date un peu, c’est l’affaire torrentnews.info.

Et concernant l’affaire Newsoo qui est assez bien documentée sur Next INpact, vous avez différents articles qui en parlent, je vous invite à lire les articles, on a le même monsieur Sitbon qui arrive à trouver des millions de MP3 alors que ce n’est techniquement pas faisable au niveau de la capacité des disques durs. Et on a également un collègue de monsieur Sitbon, j’ai oublié son nom, qui envoie des notifications de demandes des suppressions aux administrateurs de sites internet, de BoardWarrez en l’occurrence, et qui arrive à se tromper dans l’URL de notification par exemple. Moi qui suis proche d’un administrateur de sites en question, il m’a filé la notification de la SACEM. En fait l’URL qui pointait vers le soi-disant contenu problématique, ce n’était pas le bon. Donc on a des grands spécialistes à la SACEM aussi ; il ne faut pas oublier que l’argent de la répartition sert également à financer ces grands spécialistes de l’Internet.

Marc : En tout cas à une période antérieure, toutes ces copies illicites qui circulaient sur les réseaux et qui étaient copiées par les internautes, c’est en tout cas ce qu’ils n’arrêtaient pas de jacqueter lors des débats HADOPI et DADVSI, eh bien ça permettait de maximiser les études d’usage en commission copie privée et donc de faire réclamer des barèmes plus élevés. Tu voulais dire quelque chose ?

Public : Oui. C'était juste une question sur un détail que tu as soulevé. Tu as dit que des gens venaient, pouvaient interroger des personnes pour faire des statistiques sur les copies privées qu’elles avaient chez eux en fouillant leur disque dur. Est-ce qu’elles peuvent refuser parce que je trouve que c’est assez inquisitoire comme approche ? Est-ce qu’elles risquaient quelque chose si elles refusaient ?

Marc : Non non, parce que ce sont des enquêtes privées. Ce sont les grandes sociétés habituelles, telle la Sofres, ce genre de choses, on peut refuser. On est dans une démocratie encore assez libre, donc on peut refuser cette inquisition.

Public : Inaudible.

Marc : Je ne sais pas. En tout cas, je n’ai jamais connu de personne interrogée là-dessus, donc je ne sais pas comment ils les choisissent exactement, mais j’imagine très sérieusement ! Voilà. Je pense qu’on va laisser la parole à Jérémie. Rien à dire ! En plus il n’a rien à dire donc vous allez vous régaler. Voilà. En tout cas je voulais vous remercier.

[Applaudissements]

15 May 2018

Thierry ARNULF

Failles de sécurité dans le programme de chiffrement PGP

Le 15 May 2018 à 20:28:52

Plusieurs failles de sécurité dans le programme de chiffrement (01) PGP (02) ont été découvertes par des chercheurs et des experts (dont Sebastian Schinzel (03)), puis annoncée par l’EFF (04). Cette information a été relayée par plusieurs médias : ZD-NET … Lire la suite

april.png Nouvelles April

Numérique et attention - François Pellegrini

Le 15 May 2018 à 10:47:23


François Pellegrini

Titre : Numérique et attention
Intervenant : François Pellegrini - Lama Puntso
Lieu : Université d'automne de Dhagpo de Bordeaux
Date : novembre 2017
Durée : 27 min 14
Visualiser la conférence
Licence de la transcription : Verbatim
Illustration : copie d'écran de la vidéo
NB : transcription réalisée par nos soins. Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas forcément celles de l'April.

Transcription

Lama Puntso : Je remercie François Pellegrini dont l’intervention l’année passée nous avait marqués, à la fois inquiétante et sécurisante. Professeur des universités, vice-président en charge du numérique à l’université de Bordeaux, chercheur au LaBRI, laboratoire bordelais de recherche en informatique, et à l’Inria, l’Institut national de recherche en informatique et en automatique, membre de la Commission nationale de l’informatique et des libertés, j’en perds mon souffle, la CNIL.

On sait votre capacité à nous étonner, je parle de l’étonnement et de la surprise puisque ça a été un des thèmes de ce matin. Alors que le numérique est perçu comme voleur d’attention, chronophage et dispersant, vous nous ouvrez des fenêtres sur des solutions qui élèvent notre niveau d’attention, avec à la clef une question : quelle peut-être la place de l’individu au sein de l’environnement numérique ? Je vous laisse la parole.

François Pellegrini : Merci beaucoup. En tout cas merci beaucoup de l’invitation. Je suis profondément désolé de ne pas avoir assisté aux interventions de ce matin puisque, effectivement, à entendre ce qui en est dit, je me dis que peut-être je vais repasser sur des chemins qui auront déjà été labourés par d’autres. Mais écoutez voilà ! On va faire un petit tour d’horizon.

« Attention » est dans le titre, finalement j’ai décidé de le mettre dès le début. De quoi je veux vous parler aujourd’hui ?

Révolution numérique

D’abord poser le contexte, je fais ça un peu à chaque fois, désolé pour ceux qui m’ont déjà entendu. On parle de la révolution numérique, la révolution numérique qui, parce que c’est une révolution, on le verra, transforme profondément la société et spécialement les modes d’interaction entre les personnes. C’était déjà le cas de la révolution de l’écriture, c’était déjà le cas de la révolution de l’imprimerie. Avec la révolution numérique, on va voir que, effectivement, la transformation des modes d’interrelation des personnes est profonde.

Qu’est-ce qu’on entend par révolution numérique ? On entend l’action de numériser. Numériser c’est transformer en nombre. Ça veut dire qu’effectivement on a de l’information qui est enracinée dans le monde physique — les vibrations de l’air que je provoque, la lumière qui circule dans cette pièce — et, grâce à des dispositifs de captation, ceux qui sont en face de moi par exemple, on va effectivement échantillonner, transformer ces informations du monde physique en informations abstraites, en « 0 » et en « 1 », comme on le fait couramment en informatique. Et à partir de là, dès le moment où on aura ces tas de « 0 » et ces tas de « 1 », eh bien on va pouvoir les manipuler d’une façon que ne permet pas, j’allais dire, leur enracinement dans un support physique : bouger un livre c’est très compliqué, c’est ce que j’appelle la tyrannie de la matière, alors que dès le moment où on abstrait l’information contenue dans le livre du support physique, on va pouvoir la transporter, la copier, la dupliquer, de façon extrêmement rapide.

À partir de là, l’information développe entièrement ses ailes de ce qu’on appelle un bien non rival. Un bien rival, c’est un bien pour lequel on est en rivalité pour l’acquérir : un sandwich, un crayon, un vêtement ; si je vous donne mon sandwich vous pouvez le manger, je ne peux plus le manger, alors que quand j’essaie de vous donner une idée, en fait je ne vous donne pas une idée, je vous copie une idée. C’est-à-dire qu’on peut donner sans s’appauvrir et effectivement, partant de là, on rentre dans des modèles économiques qui sont radicalement différents, d’autant que cette copie, grâce à l’Internet, va se faire à coût marginal nul. C’est-à-dire qu’entretenir Internet ça coûte cher, il faut des ordinateurs, il faut de l’électricité, tout ça ce sont des biens rivaux ; mais dès le moment où vous avez un ordinateur et de l’électricité, où il est connecté à cette infrastructure, alors vous pouvez choisir ou non de copier de l’information, de la diffuser, ce qui fait que l’acte de copie en lui-même, une fois que vous avez payé ce coût d’entretien, devient un acte qui peut s’effectuer à coût nul. Et à partir de là, on rentre dans une économie de l’abondance et l’Internet permet aussi la quasi-immédiateté de la transmission. Donc on se retrouve dans un univers informationnel d’une richesse extrême, parce que l’ensemble de l’information publiquement accessible peut-être accessible à tous quasiment immédiatement.

Donc effectivement, quand on considère l’apport des réseaux numériques aux activités humaines, clairement on s’aperçoit qu’ils augmentent globalement la quantité brute d’informations à laquelle nous sommes soumis. Clairement, ça a pu être évoqué peut-être également à travers la question de la souffrance au travail, on a une multiplication des destinataires des courriels : puisque ça ne coûte rien de l’envoyer à d’autres personnes, on se dit « au cas où, aller hop ! J’en rajoute trois ou quatre dans le courriel, aller pan ! J’envoie. » De toutes façons un problème transféré est un problème résolu !

[Rires]

À partir de là, d’ailleurs, j’attire votre attention sur le terme « charge mentale ». C’est assez récent qu’il apparaisse dans le débat public et effectivement, maintenant tout le monde parle de charge mentale parce que, finalement, on a mis un mot sur le concept qui était un peu latent mais qui devient, sans doute, une pression plus actuelle et plus forte à mesure que l’encerclement des personnes par les outils numériques s’accélère.

Et puis, au-delà du nombre, c’est un phénomène induit : plus il y en a, plus la probabilité que vous en receviez dans une même période de temps est importante. Donc il y a un accroissement de la fréquence à laquelle notre attention est sollicitée. Vous allez avoir des notifications permanentes. Pim ! Vous avez un nouveau courriel ! Poum, oh un message Facebook ! Pim, oh un tweet ! Donc à partir de là, en réaction aussi, on voit se construire un droit à la déconnexion dans le milieu du travail et on peut également pouvoir l’invoquer dans la sphère privée.

Face à, effectivement, ce déferlement informationnel, certains peuvent dire que l’humain devient le goulot d’étranglement de la circulation de l’information. Du temps où Voltaire et Rousseau s’envoyaient des noms d’oiseaux à la plume d’oie ça prenait un certain nombre de semaines entre chaque échange de missive, ce qui laissait le temps à Voltaire de bien préparer son fiel et à Rousseau de bien pleurer, mais, en tout état de cause, effectivement il y avait le temps de la respiration, le temps de la réflexion. Alors que dans le cadre actuel, on se dit que finalement c’est peut-être la vitesse de « traitement » de l’humain qui pose problème — et j’ai mis des guillemets à traitement parce qu’on mettra en perspective ces concepts — qui est donc maintenant supposée inférieure à celle de la machine et pose question. On reçoit des courriels et on n’arrive pas à les traiter et puis ils s’empilent, ils s’empilent, ils s’empilent !

Donc effectivement certains d’entre vous, peut-être ce matin — je regarderai avec plaisir la vidéo sur les aspects neurologiques —, certains commencent à étudier la possible modification profonde de nos processus mentaux, dans lesquels une information très abondante et somme toute peu structurée, conduit à offrir plutôt une vision du monde qui soit réticulaire, qui soit en réseau, qui soit très horizontale, plutôt que la vision hiérarchique et causale que pouvaient avoir les générations précédentes dans un monde très structuré, surtout s’il y a un dieu au-dessus !

Donc effectivement aussi, une question de stimulation permanente des personnes, ce qui peut s’apparenter au niveau de notre construction biologique à un état de stress. Notre corps a été créé pour pouvoir réagir à des situations exceptionnelles de stress en produisant de l’adrénaline de façon à s’échapper s’il y a un tigre à dents de sabre ou d’autres trucs déplaisants. Finalement, est-ce qu’on ne risque pas de solliciter ce mécanisme d’une façon trop fréquente et où ça ne deviendrait plus un mécanisme d’aide à la survie mais un mécanisme qui pourrait nous mettre en danger ?

Économie de l’attention

De fait, quand on considère la transformation de l’univers numérique, on voit apparaître un terme, là aussi peut-être a-t-il été traité de matin me semble-t-il par Michel Aguilar, sur l’économie de l’attention. Donc effectivement, l’abondance de l’information modifie profondément les chaînes de production et de consommation des biens informationnels. Avant, un livre ça coûtait cher, c’était un bien rival, donc il fallait le transporter, le produire ; alors que maintenant, effectivement, tout ce qui est diffusé en ligne peut être consommé à coût marginal nul. C’est-à-dire que la production est à coût marginal nul, mais la consommation aussi puisque le réseau de distribution, l’Internet, le permet. Donc on est dans une économie de l’abondance où, effectivement, on peut à la fois écouter des chants du 13e siècle et le dernier tube à la mode ; en deux clics on a au bout des doigts l’ensemble de la pensée humaine. Mais effectivement, pour les industriels, une partie des industriels, puisque finalement on va rentrer dans un modèle d’abondance, qu’est-ce qui devient rare, qu’est-ce qui devient monétisable ? Eh bien ça va devenir le temps de cerveau disponible qui est un bien rival. Il n’y a que 24 heures dans une journée, à partir de là les gens ne peuvent pas tout visionner en même temps, ne peuvent pas tout écouter en même temps, et donc c’est ce bien rival pour lequel les acteurs commerciaux rentrent en compétition. D’où la définition de ce terme d’économie de l’attention, c’est-à-dire capter l’attention du consommateur pour effectivement, à la fin, vendre des trucs.

Et donc on se retrouve avec des modèles économiques qui sont centrés sur la connaissance la plus fine possible des individus pour mieux les servir. C’est l’argument toujours qui est invoqué. Donc en particulier par de la publicité ciblée puisque les grands acteurs vivent — même les petits — du fait qu’à un moment donné on va cliquer sur un bandeau publicitaire ; si vous proposez à quelqu’un des sujets qui ne l’intéressent pas il ne cliquera jamais et le publicitaire ne gagnera pas d’argent. Donc l’intérêt c’est de bien mieux cibler les gens pour qu’ils cliquent plus et que la régie publicitaire gagne plus d’argent.

À partir de là, comment est-ce qu’on connaît les gens ? Il n’y a rien de mieux que d’utiliser les données qu’ils fournissent gracieusement et donc on va avoir un certain nombre de produits d’appel gratuits : on vous offre une messagerie gratuite, c’est cool, mais rien n’est gratuit à part l’air qu’on respire, et encore ; ça c’est le premier principe d’économie. Donc si on vous fournit quelque chose de gratuit c’est qu’il doit y avoir de la monétisation derrière et c’est, en fait, la valorisation de vos données personnelles. Le deuxième principe d’économie étant si le service est gratuit c’est que c’est vous la marchandise.

[Rires]

Donc effectivement, vous n’êtes pas l’utilisateur d’un service de messagerie gratuite, vous êtes l’utilisé de ce service de messagerie, qui va monétiser vos données vis-à-vis de réels clients qui sont les publicitaires qui veulent que la publicité soit consultée.

À partir de là, vous allez avoir un modèle dans lequel on va solliciter de façon répétée les personnes à rester sur ces plateformes : « Bonjour ça fait trois jours qu’on ne vous a pas vu. Venez, on a des super histoires à raconter. Machin a posté une vidéo de chatons absolument hilarante. "Reviendez" chez nous. » Et effectivement on va re-solliciter votre attention de cette manière-là ; pas d’une façon, j’allais dire, pas nécessairement dans votre intérêt. On est maintenant face à une sur-sollicitation, en particulier avec les fenêtres de publicité qui peuvent apparaître, déborder de l’écran et ruisseler par terre, et donc clairement, à un moment donné, trop de pub tue la pub et finalement, induit une baisse globale de l’attention et ce n’est pas ça que le publicitaire souhaite.

À partir de là on est dans une période de régulation qui est caractérisée par la mise en œuvre de dispositifs de filtrage soit par les personnes elles-mêmes avec les fameux adblockers, les greffons qui, dans votre navigateur, vont bloquer les fenêtres de publicité, où les gens vont dire : « Ah, ah ! J’ai vu que vous utilisez un bloqueur de publicité alors je ne vais pas vous montrer mon contenu censément gratuit qui en fait… » Donc on est dans une guerre des publicitaires contre le public qui, finalement, implique les éditeurs de contenus qui se retrouvent à ne pas montrer leurs contenus à leur public. Donc effectivement, il y un peu une prise en otage des éditeurs dans cette guerre publicitaire et il y a des vraies questions qui se posent sur la refondation du modèle publicitaire, j’y viendrai, ou, en tout cas, du modèle de financement de l’accès à la connaissance.

Et puis aussi, ça c’est plus rigolo, par les responsables de traitement eux-mêmes. C’est-à-dire que les responsables de traitement disent OK, on ne va pas vous sursaturer, donc on va filtrer ce que vous allez voir. Et en particulier sur un grand réseau social, quand vous avez beaucoup d’amis, en fait il y a des gens qui vous disent : « Ah tiens, j’ai posté ça, tu l’as vu ? – Ah ben non je ne l’ai pas vu ; sur mon fil ça n’y est pas ! » Donc l’éditeur de plateforme a décidé de filtrer ce qui a été posté par les gens dont vous êtes censé être les amis et pourquoi ? De quelle façon ils vont le filtrer ? Pas dans votre intérêt, mais plutôt pour essayer de vous cibler mieux. C’est-à-dire qu’ils vont passer les contenus sur lesquels, par leur méthode de ciblage, ils ont vu que vous étiez déjà d’accord, ou pas tout à fait d’accord, et ils vont plutôt laisser les contenus pour lesquels on ne connaît pas encore votre opinion, pour voir si vous allez dire : « J’aime, je n’aime pas, je ne suis pas content, etc. », pour vous cibler un petit peu mieux.

C’est-à-dire qu’on se trouve face à un filtrage de l’information mise à la disposition des personnes par ces plateformes qui n’est pas nécessairement dans leur intérêt parce que, finalement, il y a des messages de vos meilleurs amis qui ne passeront pas, parce qu’on considère que commercialement ils ne disent rien sur vous et qu’on va chercher plutôt à vous passer d’autres messages.

Donc clairement, là aussi, le contrôle des personnes sur l’information qui va leur arriver et la compréhension globale du fonctionnement des plateformes est un vrai enjeu.

Le numérique au service de l’attention

Après avoir parlé de l’économie de l’attention, je vais parler maintenant du numérique au service de l’attention.

Clairement, les technologies numériques sont extrêmement versatiles et elles peuvent également servir à assister l’humain dans des tâches qui requièrent son attention. Et à partir de là, on est dans un processus d’augmentation de ses capacités dans le domaine intellectuel, mais tout comme le boulier le permettait déjà ou un certain nombre d’objets qui visaient à permettre un meilleur travail de l’esprit humain.

En gros, on va trouver deux grandes catégories d’usages : le contrôle de l’attention de la personne et l’assistance à l’attention de la personne.

Le contrôle de l’attention c’est, par exemple, ces systèmes anti-endormissement. On va regarder si la personne est bien vigile dans sa voiture ou dans le train, de façon à ce quelle n’aille pas faire un bisou à un platane.

L’assistance à l’attention va justement essayer d’aider les personnes qui ont pour charge d’être attentives dans leurs tâches, par exemple en détectant des motifs anormaux qui pourront ensuite nécessiter le traitement humain subséquent.

Dans ce cadre-là, les logiciels de contrôle de l’attention, enfin les systèmes, je ne veux pas en parler vous comprenez bien l’idée. Dans ce qui est de l’assistance numérique à l’attention, il y a une très grande variété de ces dispositifs, parce que les activités humaines sont diverses, ça va être tous les voyants, les clignotants, les alertes, les rappels et, comme j’allais dire, ça participe aussi aux petites attentions : oups, aujourd’hui c’est l’anniversaire de tata Ursule. C’est ballot d’oublier ; c’est sympa finalement que la machine vous l’ait rappelé. Et si vous y aviez pensé vous l’auriez souhaité, donc vous rappeler l’anniversaire de quelqu’un que vous ne connaissez pas, c’est plutôt, voilà ! Mais tata Ursule, quand même, ça vaut le coup, effectivement, de ne pas la vexer parce qu’elle nous a fait sauter sur ses genoux quand on était gamin.

Donc tous ces traitements vont participer à la diminution de la charge mentale et à l’automatisation des processus cognitifs. Ça peut aider ! Moi je suis toujours émerveillé de comment le cerveau humain fonctionne. Si vous vous rappelez de votre première leçon de conduite automobile et de comment vous conduisez maintenant : la façon dont on a automatisé un certain nombre de tâches, le passage du levier, paf, paf, débrayage, machin. Le cerveau c’est magnifique et il y a des choses qui, au départ, requéraient une attention permanente qui deviennent des automatismes parce qu’on a digéré les processus et tout ce qui permet d’aider, peut-être la boîte automatique par rapport à la boîte manuelle et ainsi de suite, ou le « faites attention, il y a un cycliste dans l’angle mort » ; des tas de choses qui vont nous permettre, effectivement, d’être moins stressé et de pouvoir, finalement, ne pas être en surcharge cognitive quand on va être dans une tâche qui requiert notre attention.

Analyse des comportements

Effectivement, la puissance des technologies numériques permet la prise en charge par la machine de tâches de détection de plus en plus fines et, j’allais dire, en amont des conséquences. Bien sûr, on peut détecter quand sur un quai de gare quelqu’un appuie sur un bouton pour dire alerte, un pickpocket m’a pris mon sac. Mais ce qu’on cherchera à faire c’est de détecter sur le quai, par des caméras, le mouvement des personnes pour se dire « tiens, cette personne-là n’a pas le comportement standard d’un voyageur ; que fait cette personne sur le quai exactement ? » et les agents de sécurité vont pouvoir se concentrer sur le comportement de la personne en question.

Donc il y a deux façons de voir les choses.

Il y a une façon un peu statistique et puis la déviance par rapport aux statistiques. Ça, c’est effectivement ce que j’évoquais sur les trajectoires des personnes et se dire « tiens, mais qu’est-ce qui se passe », donc devenir vigilant, devenir attentif d’une façon assez, j’allais dire, rustique.

Et puis il y a, effectivement, ce qui est permis par la collecte massive de données, qui est permise par le numérique, qui va permettre d’étudier sans savoir exactement ce qu’on cherche. C’est-à-dire essayer de détecter des corrélations dans des masses de données pour identifier des ensembles de comportements. Ça, c’est tout le travail de ce qu’on appelle les méga-données, big data en anglais, c’est-à-dire la fouille de données pour essayer de déduire et d’exhiber des comportements particuliers qu’on pourra, par exemple, ensuite utiliser de façon commerciale en disant « tiens, la personne a commandé tel objet ; on peut peut-être lui proposer tel autre parce que plein d’autres gens ont fait pareil. »

Simplement, la mise en garde que je fais par rapport à ça, c’est que tout traitement automatisé est intrinsèquement conservateur et ne peut s’adapter à des situations exceptionnelles. Tout traitement, même si on vous rebat les oreilles avec la magnifique intelligence artificielle qui a battu quelqu’un au jeu de go, c’est vrai que c’est super, mais c’est quand même sur une surface plate de quelques dizaines de cases par quelques dizaines de cases, avec juste des pions blancs et noirs. Ça ne veut pas dire que cette machine super sera capable de traverser la route sans se faire écraser par le premier camion qui passe. On est face à des traitements qui sont spécialisés et qui sont très efficaces : il y a des machines à trier les pommes et qui trient les pommes plus vite qu’un humain. Ouais ! Mais, d’un autre côté, je ne me réduis pas à un trieur de pommes. Donc effectivement, la notion d’intelligence artificielle est relativement surfaite ; on parle même, d’ailleurs, d’intelligence artificielle faible, autrement dit il n’y a pas d’intelligence artificielle ! Ce sont juste des traitements automatisés qui essayent de reproduire un comportement auquel ils ont été entraînés.

Donc toute procédure — bien sûr c’est dans le cadre numérique qu’on le voit bien mais pas seulement — toute procédure code de la norme sociale. Quand dans un formulaire il y a marqué monsieur-madame, avec deux cases à cocher ou alors sur une boîte de choix c’est ou l’un ou l’autre, c’est très réducteur. On code dans la norme sociale que vous ne pouvez être que monsieur ou madame et pas monsieur toute la semaine sauf le samedi soir où vous décidez d’être madame.

Donc effectivement, il faut prendre en compte que ces traitements-là aussi, ayant été réalisés par des personnes dans un certain point de l’espace et du temps, avec une certaine culture, en utilisant des outils avec des jeux de données particuliers, sont pétris de biais et il faut pouvoir savoir s’en dégager, ce dont la machine n’est absolument pas capable.

Donc aussi, voir qu’il y a une dualité ; l’outil, bien sûr, a une influence sociale, mais peut être utilisé pour plusieurs finalités. On voit en particulier beaucoup d’utilisations des méga-données dans un but de contrôle des personnes, que ce soit un contrôle d’achat ou même à but répressif. Par exemple là, en ce moment, les services des impôts travaillent sur la détection de fraude fiscale ou aussi, pour les services sociaux, la détection de fraude sociale par, justement, corrélation de données pour voir des comportements de demandes de droits qui sortiraient de l’ordinaire. Alors qu’on pourrait très bien paramétrer ces systèmes pour, finalement, chercher les personnes qui ne bénéficient pas des droits dont elles devraient bénéficier. Et effectivement, il y a une utilisation qui pourrait être faite de ces systèmes qui serait bénéfique. Ça pose une question parce qu’en général les systèmes de droits sociaux sont créés avec comme budget l’idée qu’il y a des gens qui ne vont pas les demander. Parce que demander des allocs ça fait pauvre, il y en a certains qui vont explicitement refuser les droits qu’ils peuvent avoir. Si tout le monde avait les droits ou s’ils étaient accordés de façon semi-automatique en fonction de ça, eh bien les régimes seraient encore plus en déficit parce que, finalement, on avait déjà taillé sur un système avec un budget particulier.

Et puis là aussi, les chercheurs le font déjà, il y a plein de choses très passionnantes là-dessus. Le suivi à domicile des personnes dépendantes : la personne qui ouvre dix fois sa porte de placard, on se dit « tiens, là il y a un problème, elle est en désorientation, on va peut-être envoyer quelqu’un pour voir si la personne n’a pas un épisode Alzheimer » et, dans ce cas-là, on va l’accompagner, la rassurer, l’aider. Là aussi ce sont des mécanismes qui peuvent aider à faire attention à l’autre.

Bien sûr, les outils numériques ne constituent qu’un outil, pas une finalité, et l’encadrement des finalités, lui, est dévolu au législateur. La loi n’a rien à voir avec la morale, mais déjà, ça peut aider quand même. Je rappelle, parce que ça me fait très plaisir d’être soumis aux dispositions d’une telle loi, l’article premier de la loi informatique et libertés, 1978 quand même, ça montre le côté visionnaire de ses rédacteurs : « L’informatique doit être au service de chaque citoyen. Son développement doit s’opérer dans le cadre de la coopération internationale. Elle ne doit porter atteinte ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques… » Ça envoie du steak !

Plus opératoire, pour montrer que le législateur avait quand même déjà aussi débroussaillé le terrain des usages, un petit coup de projecteur sur l’article 10 de cette même loi informatique et libertés dans lequel, effectivement, on voit que le fait que des personnes qui puissent être sujettes à des décisions automatisées est quelque chose qui ne doit pas être autorisé et doit être fortement encadré. On peut, en particulier, penser aux péripéties sur le logiciel APB [Admission Post-Bac] qui, effectivement, pose cette question de l’affectation automatique des gens selon des conditions qu’ils ne maîtrisent pas nécessairement. Et on a vu qu’avec ce logiciel, il y a eu des expérimentations scientifiques, selon la façon dont les gens placent leurs vœux ils auront ou n’auront pas ce qu’ils souhaitent. Donc connaître le fonctionnement du dispositif est un avantage tactique pour les personnes qui en sont les usagers.

Numérique et éthique

J’en terminerai sur, finalement, l’éthique, toujours. Quand on parle d’attention — là je vous ai parlé parfois d’attention au sens biologique du terme —, on peut remonter bien sûr parce qu’en filigrane se trouve l’attention de personne à personne, et donc l’attention portée à l’autre s’exprime dans la façon dont on le considère. Et la médiation induite par le numérique peut conduire effectivement, si c’est mal fait, à une déshumanisation des personnes, à cette fragmentation de l’identité en un ensemble de données qui sont par nature réductrices – pensez au monsieur-madame, pensez à toutes les données qu’on vous demande ; parfois le cadre est extrêmement réducteur et, bien évidemment, très loin de la réalité de la richesse des personnes.

Et ensuite, la question de la sujétion à des traitements automatisés : est-ce que c’est ma plateforme de réseau social qui doit choisir ce qui est filtré ou qui n’est pas filtré ? Est-ce que je ne peux pas prioriser les messages que je veux toujours voir d’autres que je n’ai pas envie de voir ? Donc effectivement, ce côté-là on peut considérer qu’il y a une certaine déloyauté des responsables de traitement. Alors ils vous diront : « Non, non, pas du tout ! C’est dans nos conditions générales d’utilisation à la 22ème page en tout petit au fond. » Qui a déjà lu les conditions générales d’utilisation d’un service numérique avant de cliquer sur « j’accepte » ?

[Rires]

Je dis ça, je ne dis rien ! Donc effectivement, l’objectif c’est que pour équilibrer la place des personnes dans la société numérique, il faut clairement que les individus comprennent la nature des traitements qui les concernent. Là aussi, la législation évolue dans le bon sens, en particulier, la loi République numérique de 2016 pose comme principe que pour les traitements issus de la puissance publique les personnes soient informées du principe des traitements et de comment ça fonctionne dans un langage qu’elles peuvent comprendre, qui leur soit accessible. Moi je ne vois pas de raisons, personnellement, pour que ces obligations ne soient pas étendues au secteur privé. Savoir quels sont les tiers économiques d’un acteur qui me fournit un service. On me fournit un service d’itinéraire, est-ce que c’est l’itinéraire le plus court ou est-ce que ce n’est pas l’itinéraire qui va passer devant le plus de panneaux publicitaires de la régie machin qui contracte avec mon opérateur ? J’aimerais bien le savoir. Et donc, sans trahir le secret industriel, savoir quels sont les acteurs qui rentrent dans la chaîne de valeur du fournisseur de services, je pense que c’est important pour les personnes.

Également aussi, préserver ses capacités d’écoute et d’attention et, à partir de là, choisir des services dont le modèle économique n’est pas fondé sur l’économie de l’attention, puisqu’on cherchera à vous gaver le plus possible ; clairement, liberté et gratuité ce n’est pas la même chose. En anglais c’est couillon, free ça veut dire libre et gratuit qui sont deux concepts radicalement différents. Je ne sache pas, par exemple, qu’un dealer vous propose gratos vos deux premières doses de crack pour vous rendre libre, et pourtant c’est gratuit.

[Rires]

Donc parfois il faut savoir payer pour des services. Il faut savoir accepter de prendre une messagerie qui va vous coûter quelques euros par an, mais qui, au moins, garantira qu’elle ne lit pas vos données et, de fait, ne cherchera pas à vous proposer des contenus publicitaires au détriment de votre liberté de choix, d’écriture, d’inspiration.

Donc voilà l’homo numericus, clairement, ça va être un citoyen qui doit être informé. Il y a un encadrement législatif et c’est toujours important de peser sur le législateur, j’allais dire, dans l’objectif du respect des personnes. Mais on doit également tous, collectivement, s’entraider et comprendre des règles d’hygiène numérique qui doivent effectivement nous permettre de naviguer en autonomie dans le monde numérique, en faisant attention à ce qui nous importe vraiment. Merci.

[Applaudissements]

14 May 2018

april.png Nouvelles April

Décryptualité du 14 mai 2018 - Easter Eggs

Le 14 May 2018 à 22:54:12

Écouter ou télécharger le décryptualité du 714 mai 2018 (15 minutes)

    La revue de presse de la semaine passée mentionne les enjeux autour du maintient d'une blague laissée par RMS dans la documentation de GCC. L'occasion de parler des easters eggs.
    Générique – La prose du pépère – Les Barons Freaks – Licence Art Libre (LAL)

Syndiquer le contenu Syndiquer le contenu grâce à votre agrégateur de flux RSS

Revue de presse de l'April pour la semaine 19 de l'année 2018

Le 14 May 2018 à 08:23:40

La revue de presse de l'April est régulièrement éditée par les membres de l'association. Elle couvre l'actualité de la presse en ligne, liée au logiciel libre. Il s'agit donc d'une sélection d'articles de presse et non de prises de position de l'association de promotion et de défense du logiciel libre.

En podcast.

Sommaire de la revue de presse de l'April pour la semaine 19

[Developpez.com] Trolldi: une blague de Richard Stallman sur l'avortement crée la polémique

Par Michael Guilloux, le vendredi 11 mai 2018. Extrait:
> Le saviez-vous? Richard Matthew Stallman (RMS), s'il est souvent qualifié d'extrémiste avec sa position et ses déclarations radicales à l'égard de tout ce qu'il considère comme privateur, a aussi un sens de l'humour. Et il le cultive depuis des décennies. Mais ici en 2018, certains contributeurs du projet GNU ne semblent pas bien accueillir le sens de l'humour dont fait preuve l'initiateur du mouvement du logiciel libre et chef suprême du projet.
Lien vers l'article original: https://www.developpez.com/actu/203261/Trolldi-une-blague-de-Richard-Stallman-sur-l-avortement-cree-la-polemique-26-ans-apres-avoir-ete-ecrite-dans-la-documentation-du-projet-glibc

[Le Monde.fr] De l’utopie au désenchantement, les vingt-cinq ans contrariés du Web

Par William Audureau, le mercredi 9 mai 2018. Extrait:
> A l’occasion de la Web Conf, les pionniers de la Toile sont revenus avec émotion sur la genèse et l’essor d’Internet, cette révolution qui a fini par leur échapper.
Lien vers l'article original: http://www.lemonde.fr/pixels/article/2018/05/09/de-l-utopie-au-desenchantement-les-vingt-cinq-ans-contraries-du-web_5296713_4408996.html

[Developpez.com] L'IoT est un danger pour la vie privée, une technologie à risque accordant peu de place aux logiciels libres

Par Christian Olivier, le lundi 7 mai 2018. Extrait:
> Le citoyen américain Richard Matthew Stallman, président de la Free Software Foundation (FSF) et pionnier du GNU, est un fervent partisan du logiciel libre et des valeurs qui s’y rattachent. C’est aussi un critique acerbe, à la limite extrémiste, de l’industrie technologique profitant de chaque occasion qui lui est offerte pour donner son point de vue sur les nouveautés, les tendances et les autres faits marquants qui s’y rapportent.
Lien vers l'article original: https://www.developpez.com/actu/201842/L-IoT-est-un-danger-pour-la-vie-privee-une-technologie-a-risque-accordant-peu-de-place-aux-logiciels-libres-d-apres-Richard-Stallman

[01net.] PeerTube veut devenir l'alternative française et décentralisée à YouTube

Par Camille Suard, le lundi 7 mai 2018. Extrait:
> Le YouTube français et décentralisé propulsé par Framasoft entend s'attaquer au géant Google. PeerTube est un logiciel libre actuellement disponible en version bêta ouverte au public.
Lien vers l'article original: http://www.01net.com/actualites/peertube-veut-devenir-l-alternative-francaise-et-decentralisee-a-youtube-1439372.html

[Nouvelle République] Des pistes autour des logiciels libres

Par la rédaction, le lundi 7 mai 2018. Extrait:
> Le centre multimédia de Saint-Paterne-Racan était en effervescence lors de la foire du 1er mai
Lien vers l'article original: https://www.lanouvellerepublique.fr/indre-et-loire/commune/saint-paterne-racan/des-pistes-autour-des-logiciels-libres

Note

Les articles de presse utilisent souvent le terme « Open Source » au lieu de Logiciel Libre. Le terme Logiciel Libre étant plus précis et renforçant l'importance des libertés, il est utilisé par l'April dans sa communication et ses actions. Cependant, dans la revue de presse nous avons choisi de ne pas modifier les termes employés par l'auteur de l'article original. Même chose concernant l'emploi du terme « Linux » qui est généralement utilisé dans les articles pour parler du système d'exploitation libre GNU/Linux.


Powered by Planet!
Mise à jour: Le 24 May 2018 à 02:04:25