"Seulement 0,2 % de l'ensemble des extraits audios" analysés : Google s'explique à son tour sur la collecte vocale de son assistant !

Après Amazon, c'est sans réelle surprise que l'assistant vocal de Google est, à son tour, montré du doigt ; pour les mêmes raisons : la collecte de données vocales à l'insu de l'utilisateur ou, du moins, sans son accord préalable explicite.

 

 

C'est le média Belge VRT News qui déterre le sujet alors qu'il venait à peine d'être débattue en place publique il y a quelques jours, via une lettre d'Amazon du 28 Juin dernier, rendue publique et qui faisait suite à une requête initiée au 23 Mai 2019 par le sénateur Américain démocrate Christopher A. Coons. Sans détour, Amazon avouait que, oui, les enregistrements était collectés et stockées sauf si l'utilisateur, spontanément (aucune information claire et explicite sauf une légère FAQ avec quelques paragraphes dans la section dédiée du Web-marchand à l'égard d'Alexa), décidait de régulièrement nettoyer les enregistrements existants en les supprimant.

Si, en Avril, on savait indéniablement que Google Home pratiquait ce type de collecte (tout comme les assistants concurrents qui se base sur ce type de "deep learning") avec une légende urbaine (non confirmée) qui voulait que le son soit cependant déformé pour éviter que n'importe qui puisse écouter ledit enregistrement, la réalité est tout autre : en effet, VRT News relate qu'il a réussit à avoir accès à "plus de 1 000 enregistrements" voire même rendre visite à certaines personnes du fait du nombre d'informations contenu dans ces pistes audios (adresse, nom...), afin de connaître le (res)sentiment des interessé(e)s.

Toujours selon les dires du média Belge, peu de temps après, une personne de Google Pays-Bas a autorisé miraculeusement l'accès à ces enregistrements. On y apprend, alors, qu'une équipe restreinte (une douzaine) étudie ces pistes audios et toujours dans le même but (qu'Amazon, par exemple) : améliorer le fameux algorithme de l'intelligence artificielle, quitte, au lieu d'embaucher officiellement des personnes conscientes de cette collecte, d'utiliser gracieusement des personnes en guise de cobayes. Le but est, comme tout projet, d'avoir un panel le plus large possible (encore une fois, en général, on recrute légalement des personnes) avec, donc, les intonations et expressions vocales les plus variées possibles.

 

(Source : @iletaitunepub)

 

Côté anonymisation, il serait affirmé que le profil-utilisateur est volontairement dissocié de chaque enregistrement vocal (un simple numéro représentant ce dernier). Néanmoins, sur l'échantillon (1 000) consulté, il y aurait eu 153 collectes vocales enregistrées par erreur (sans activation via le "OK Google")... Outre ces enregistrements consultés et stockés sur les serveurs de la firme Californienne par erreur, il s'avère que beaucoup de requêtes relèvent du domaine intime voire très intime et toucherait beaucoup plus les hommes que les femmes, pour ces requêtes vocales un peu spéciales. Home est, également, sollicité pour les demandes (recherches) relatives à la santé ou au domaine médical ; Bref, de quoi facilement recueillir bon nombre d'informations en toute légalité (pour le moment : Google Home est commercialisé partout dans le monde) et quelque soit le lieu (privé ou public, comme un cabinet d'avocat, un psychologue...).

Peu de temps après, Google avait préparé un billet explicatif qui s'épanchait, cependant, brièvement sur la situation en expédiant l'affaire via, notamment, ces quelques lignes : "Nous avons récemment appris que l'un de ces experts linguistiques pouvait avoir violé notre politique de sécurité des données en divulguant des données audios Néerlandaises confidentielles [...] Nous procédons actuellement à un examen complet de nos garanties dans cet espace afin d'empêcher qu'une telle inconduite ne se reproduise [...] Les experts en langue examinent seulement environ 0,2% de tous les extraits audio. Les extraits sonores ne sont pas associés aux comptes d'utilisateur dans le cadre du processus de révision. Les réviseurs ne doivent pas transcrire les conversations en arrière-plan ni d'autres bruits, mais uniquement les extraits qui sont dirigés vers Google"... A suivre !

 

Source : VRT.be - 10 Juillet 2019 - Google Home : collecte de données vocales à l'insu de l'utilisateur.