Différences entre versions de « Big Data »
Ligne 128 : | Ligne 128 : | ||
<!-- Compléter les pointillés et Supprimer les lignes non utilisées --> | <!-- Compléter les pointillés et Supprimer les lignes non utilisées --> | ||
<!-- ****************** Commercez les modifications *********************** --> | <!-- ****************** Commercez les modifications *********************** --> | ||
− | + | {{@}} '''Exemples d'avantages du Big Data''' | |
* '''Généralité sur l'exploitation du [[Big Data]]''' permet aussi bien d’identifier les causes endogènes et exogènes des maladies (en particulier du cancer) que de fluidifier le trafic routier, de préciser le ciblage publicitaire, de réduire la consommation énergétique. La disponibilité de ces données est facilitée par l’évolution des techniques de transport et de stockage (cloud, fibre, etc.), qui facilitent la croissance exponentielle de la rétention de « toutes » les données. | * '''Généralité sur l'exploitation du [[Big Data]]''' permet aussi bien d’identifier les causes endogènes et exogènes des maladies (en particulier du cancer) que de fluidifier le trafic routier, de préciser le ciblage publicitaire, de réduire la consommation énergétique. La disponibilité de ces données est facilitée par l’évolution des techniques de transport et de stockage (cloud, fibre, etc.), qui facilitent la croissance exponentielle de la rétention de « toutes » les données. | ||
* '''Exemples pratique d'utilisation en Big Data''' | * '''Exemples pratique d'utilisation en Big Data''' | ||
− | Les avantages de l’exploitation | + | Les avantages de l’exploitation du big data sont importants: |
− | du big data sont importants | + | :* '''Exemple des transports'''. En 2012, une équipe de chercheurs de la société IBM a exploité une base de données mise à disposition par l’opérateur Orange. La société a recueilli et sauvegardé les données téléphoniques correspondant à cinq cent mille appels et SMS envoyés durant cinq mois, dans la ville d’Abidjan. Ces enregistrements, comprenant un identifiant anonymisé, l’heure de l’appel ou de l’envoi du message ainsi que l’identifiant de l’antenne-relais du début de connexion ont permis aux chercheurs d’établir la carte des déplacements et de formuler des recommandations pour optimiser la carte des transports en commun. |
− | + | L’objectif: diminuer le temps de trajet quotidien de millions de personnes. Une étude similaire, utilisant les données anonymisées des cartes de transport, a été réalisée sur les trajets quotidiens à Londres. Elle permet d’anticiper la congestion des bus et des métros et d’informer les usagers par le biais de comptes Twitter ; bientôt des informations en temps réel pourront être fournies pour leur permettre d’adapter leurs trajets. S’il s’agit dans les deux cas de données anonymisées, celles-ci sont utilisées à une autre fin que celle initialement prévue… Mais le plus préoccupant concerne le respect de la confidentialité des données personnelles. | |
− | transports. | + | :* '''Exemple Netflix''' : En 2006, le site « Netflix », dans le cadre d’un concours pour améliorer son système de recommandation, a publié les choix en ligne d’un demi-million d’utilisateurs identifiés par un simple numéro. Deux chercheurs ont pu ré-identifier plusieurs clients par simple recoupement avec les données publiées sur un autre site d’avis en ligne, « lMDb » (« Internet Movies Data base »), qui, lui, n’était pas anonyme ; et même, dans certains cas, déterminer leurs opinions politiques et leurs orientations sexuelles. |
− | En 2012, une équipe de chercheurs de la société IBM a | + | :* '''Exemple Amazon''' : Grâce au big data, en utilisant notamment les données personnelles de ses clients, Amazon a mis au point un outil lui permettant de leur adresser des marchandises avant même qu’ils ne les aient commandées, ce qui suppose un profilage extraordinairement intrusif de leur intimité. |
− | exploité une base de données | + | :* '''Exemple tarification dynamique''' : De nouvelles pratiques de vente émergent, telles que la « tarification dynamique » (« dynamic pricing »), pratiquée par des compagnies aériennes, qui peuvent augmenter leurs tarifs en fonction de l’analyse du comportement du client, de son besoin plus ou moins urgent et des prix de la concurrence. |
− | mise à disposition par l’opérateur Orange. La société a recueilli | ||
− | et sauvegardé les données téléphoniques correspondant à cinq | ||
− | cent mille appels et SMS envoyés | ||
− | durant cinq mois, dans la ville | ||
− | d’Abidjan. Ces enregistrements, | ||
− | comprenant un identifiant anonymisé | ||
− | de l’envoi du message ainsi que | ||
− | l’identifiant de l’antenne-relais du | ||
− | début de connexion ont permis | ||
− | aux chercheurs d’établir la carte | ||
− | des déplacements et de formuler | ||
− | des recommandations pour optimiser la carte des transports en | ||
− | commun. L’objectif: diminuer le | ||
− | temps de trajet quotidien de millions de personnes. | ||
− | Une étude similaire, utilisant les | ||
− | données anonymisées des cartes | ||
− | de transport, a été réalisée sur les | ||
− | trajets quotidiens à Londres. Elle | ||
− | permet d’anticiper la congestion | ||
− | des bus et des métros et d’informer les usagers par le biais de | ||
− | comptes Twitter ; bientôt des | ||
− | informations en temps réel pourront être fournies pour leur permettre d’adapter leurs trajets. | ||
− | S’il s’agit dans les deux cas de | ||
− | données anonymisées, celles-ci | ||
− | sont utilisées à une autre fin que | ||
− | celle initialement prévue… Mais | ||
− | le plus préoccupant concerne le | ||
− | respect de la confidentialité des | ||
− | données personnelles. En 2006, | ||
− | le site « Netflix », dans le cadre | ||
− | d’un concours pour améliorer | ||
− | son système de recommandation, a publié les choix en ligne | ||
− | d’un demi-million d’utilisateurs | ||
− | identifiés par un simple numéro. | ||
− | Deux chercheurs ont pu ré-identifier plusieurs clients par simple | ||
− | recoupement avec les données | ||
− | publiées sur un autre site d’avis | ||
− | en ligne, « lMDb » (« Internet | ||
− | Movies Data base »), qui, lui, | ||
− | n’était pas anonyme ; et même, | ||
− | dans certains cas, déterminer | ||
− | leurs opinions politiques et leurs | ||
− | orientations sexuelles. | ||
− | |||
− | utilisant notamment les données personnelles de ses clients, | ||
− | |||
− | outil lui permettant de leur | ||
− | adresser des marchandises avant | ||
− | même qu’ils ne les aient commandées, ce qui suppose un profilage extraordinairement intrusif | ||
− | de leur intimité. De nouvelles pratiques de vente émergent, telles | ||
− | que la « tarification dynamique » | ||
− | (« dynamic pricing »), pratiquée | ||
− | par des compagnies aériennes, | ||
− | qui peuvent augmenter leurs | ||
− | tarifs en fonction de l’analyse du | ||
− | comportement du client, de son | ||
− | besoin plus ou moins urgent et | ||
− | des prix de la concurrence | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
+ | {{@}} '''Exemples d’inconvenants du Big Data - Vie privée''' | ||
+ | * Au-delà des risques de profilage et d’atteinte à la vie privée, le big data, en anticipant sur les décisions des individus et en les « aidant » à consommer, à améliorer ou surveiller leur santé… est bien plus qu’un outil, il interfère sur leur libre arbitre et leur autodétermination. De plus les algorithmes, qui sont conçus par des individus, peuvent comporter des failles dues à leurs jugements de valeur. Il est donc nécessaire d’être prudent avec les résultats, qui pourraient en être biaisés. Pour les défenseurs des droits de l’Homme attachés à la vie privée, le big data constitue un changement de paradigme car les différents principes de la protection des données personnelles ne sont plus respectés. Le droit à la protection des données personnelles est garanti par différents textes : en France, la loi Informatique et Libertés ; au niveau européen, principalement la directive 95/46/CE ainsi que la Convention 108. Objectif : établir un équilibre entre l’individu et la personne physique ou morale, l’autorité publique ou autre qui collecte et traite ses données. | ||
− | Les normes de protection | + | * '''Les normes de protection remises en question''' |
− | remises en question | + | : La norme de la protection des données implique le respect de plusieurs principes qui sont mis à mal par le big data. Ces principes édictent que le recueil des données doit correspondre à une finalité déterminée dès la collecte, et que la personne concernée doit avoir donné son consentement « spécifique, libre, explicite et éclairé ». Les données doivent être minimisées, adéquates, pertinentes et non excessives par rapport aux finalités pour lesquelles elles sont collectées et pour les éventuels traitements ultérieurs. Elles ne sont conservées que pour une durée n’excédant pas celle nécessaire aux finalités pour lesquelles elles sont enregistrées. Le big data implique a contrario que toutes les données possibles soient recueillies, conservées et réutilisées pour d’autres finalités, jamais effacées ou presque, sans que l’on ait demandé à la personne concernée son consentement pour cette nouvelle utilisation. Si les textes prévoient la réutilisation, c’est uniquement à des fins statistiques ou de recherche scientifique, ce qui implique qu’elles soient anonymisées et que cette réutilisation ne serve pas à prendre des décisions à l’égard des personnes. Or de nombreux exemples montrent que des données anonymisées peuvent donner lieu à une réidentification, que le big data peut servir à rejeter des candidats à l’embauche «grâce» à une analyse de leur vie numérique, à adapter des tarifs d’assurance au niveau de risque de certains assurés, patients... |
− | La norme de la protection des | ||
− | données implique le respect de | ||
− | plusieurs principes qui sont mis | ||
− | à mal par le big data. Ces principes édictent que le recueil | ||
− | des données doit correspondre | ||
− | à une finalité déterminée dès | ||
− | la collecte, et que la personne | ||
− | concernée doit avoir donné son | ||
− | consentement « spécifique, libre, | ||
− | explicite et éclairé ». Les données | ||
− | doivent être minimisées, adéquates, pertinentes et non excessives par rapport aux finalités | ||
− | pour lesquelles elles sont collectées et pour les éventuels traitements ultérieurs | ||
− | conservées que pour une durée | ||
− | n’excédant pas celle nécessaire | ||
− | aux finalités pour lesquelles elles | ||
− | sont enregistrées. | ||
− | Le big data implique a contrario | ||
− | que toutes les données possibles | ||
− | soient recueillies, conservées et | ||
− | réutilisées pour d’autres finalités, | ||
− | jamais effacées ou presque, sans | ||
− | que l’on ait demandé à la personne concernée son consentement pour cette nouvelle utilisation. Si les textes prévoient la | ||
− | réutilisation, c’est uniquement | ||
− | à des fins statistiques ou de | ||
− | recherche scientifique, ce qui implique qu’elles soient anonymisées et que cette réutilisation | ||
− | ne serve pas à prendre des décisions à l’égard des personnes. Or | ||
− | de nombreux exemples montrent | ||
− | que des données anonymisées | ||
− | peuvent donner lieu à une réidentification, que le big data | ||
− | peut servir à rejeter des candidats à l’embauche «grâce» à une | ||
− | analyse de leur vie numérique, à | ||
− | adapter des tarifs d’assurance au | ||
− | niveau de risque de certains assurés, patients... | ||
− | L’urgence de sensibiliser | + | * '''Sensibilisation et urgences''' |
− | et d’informer | + | : L’urgence de sensibiliser et d’informer Il est indéniable que le big data peut contribuer à de nombreux progrès, notamment par l’utilisation de données publiques. Les perspectives sont immenses et les pouvoirs publics y voient des possibilités d’économies ; les entreprises, des profits potentiels. Néanmoins, il est inacceptable que le citoyen ne soit plus en mesure de faire valoir son droit à la protection. Lorsqu’il accepte que ses données soient collectées pour une finalité, il doit avoir la garantie qu’elles ne seront pas cédées ou vendues à une entreprise ou une autorité qui en fera un tout autre usage. C’est la base de la confiance, dont on nous redit qu’elle est le moteur de l’économie numérique (les données en étant le carburant…). Or, à l’heure actuelle, ce citoyen peut rester dans l’ignorance de la cession pour d’autres usages de ses données collectées. Il risque ainsi d’être, un jour, victime d’une ré-identification, d’une discrimination liée au profil qui aura été établi grâce au big data. Il est évident que tout nouveau traitement effectué à partir de données collectées pour une finalité explicite ne devrait être possible que sur la base du consentement de la personne concernée ou de la garantie que ses données anonymisées le resteront. Dans ce domaine, des progrès importants sont nécessaires. Il est du devoir de l’Etat d’encourager les recherches sur l’anonymisation irréversible et, lorsque celle-ci s’avère impossible, les données concernées (notamment en matière de santé) devraient être exclues du big data(6). Parallèlement, il convient de lancer très rapidement une grande campagne de sensibilisation des citoyens aux enjeux de la constitution de ces réserves de mégadonnées et des utilisations qu’elles permettent. Il est par ailleurs nécessaire d’encourager les citoyens, par tous les moyens, à se protéger, par des formations dès l’école et par des informations facilement accessibles. En effet, lorsque le consentement de l’utilisateur est lié à l’utilisation de ses données comme condition d’accès à une application ou un service, il est généralement conditionné par le confort du service immédiat. L’utilisateur ne fera pas la démarche de refuser l’enregistrement de ses données. Il ne fera pas plus l’effort d’effacer leurs traces, parce qu’il considère que cette activité n’est pas très importante («acheter un billet de train n’a rien de secret! Et puis, je n’ai rien à cacher! »). Il ne voit pas à quoi ses données, prises séparément, pourraient servir. Il a tendance à faire confiance à l’expert, qui a créé la règle par défaut, a priori pour son bien… Par ailleurs, la plupart des utilisateurs pensent qu’ils perdront des « avantages », s’ils ne consentent pas à délivrer leurs données. Beaucoup sont conscients des risques, mais ils se sont résignés à perdre le contrôle sur leurs données. Il est donc urgent de renverser cette tendance. |
− | Il est indéniable que le big data | ||
− | peut contribuer à de nombreux | ||
− | progrès, notamment par l’utilisation de données publiques. Les | ||
− | perspectives sont immenses et les | ||
− | pouvoirs publics y voient des possibilités d’économies ; les entreprises, des profits potentiels. | ||
− | Néanmoins, il est inacceptable | ||
− | que le citoyen ne soit plus en | ||
− | mesure de faire valoir son droit | ||
− | à la protection. Lorsqu’il accepte | ||
− | que ses données soient collectées | ||
− | pour une finalité, il doit avoir la | ||
− | garantie qu’elles ne seront pas | ||
− | cédées ou vendues à une entreprise ou une autorité qui en fera | ||
− | un tout autre usage. C’est la base | ||
− | de la confiance, dont on nous | ||
− | redit qu’elle est le moteur de | ||
− | l’économie numérique (les données en étant le carburant…). | ||
− | Or, à l’heure actuelle, ce citoyen | ||
− | peut rester dans l’ignorance de la | ||
− | cession pour d’autres usages de | ||
− | ses données collectées. Il risque | ||
− | ainsi d’être, un jour, victime d’une | ||
− | ré-identification, d’une discrimination liée au profil qui aura | ||
− | été établi grâce au big data. Il est | ||
− | évident que tout nouveau traitement effectué à partir de données | ||
− | collectées pour une finalité explicite ne devrait être possible que | ||
− | sur la base du consentement de | ||
− | la personne concernée ou de la | ||
− | garantie que ses données anonymisées le resteront. | ||
− | Dans ce domaine, des progrès | ||
− | importants sont nécessaires. Il est | ||
− | du devoir de l’Etat d’encourager | ||
− | les recherches sur l’anonymisation irréversible et, lorsque celle-ci s’avère impossible, les données concernées (notamment en | ||
− | matière de santé) devraient être | ||
− | exclues du big data(6). | ||
− | Parallèlement, il convient de lancer très rapidement une grande | ||
− | campagne de sensibilisation | ||
− | des citoyens aux enjeux de la | ||
− | constitution de ces réserves de | ||
− | mégadonnées et des utilisations | ||
− | qu’elles permettent. Il est par ailleurs nécessaire d’encourager les | ||
− | citoyens, par tous les moyens, à se | ||
− | protéger, par des formations dès | ||
− | l’école et par des informations | ||
− | facilement accessibles. | ||
− | En effet, lorsque le consentement de l’utilisateur est lié à l’utilisation de ses données comme | ||
− | condition d’accès à une application ou un service, il est généralement conditionné par le confort | ||
− | du service immédiat. L’utilisateur | ||
− | ne fera pas la démarche de refuser l’enregistrement de ses données. Il ne fera pas plus l’effort | ||
− | d’effacer leurs traces, parce qu’il | ||
− | considère que cette activité n’est | ||
− | pas très importante («acheter un | ||
− | billet de train n’a rien de secret! Et | ||
− | puis, je n’ai rien à cacher! »). Il ne | ||
− | voit pas à quoi ses données, prises | ||
− | séparément, pourraient servir. | ||
− | Il a tendance à faire confiance | ||
− | à l’expert, qui a créé la règle par | ||
− | défaut, a priori pour son bien… | ||
− | Par ailleurs, la plupart des utilisateurs pensent qu’ils perdront des | ||
− | « avantages », s’ils ne consentent | ||
− | pas à délivrer leurs données. | ||
− | Beaucoup sont conscients des | ||
− | risques, mais ils se sont résignés | ||
− | à perdre le contrôle sur leurs données. Il est donc urgent de renverser cette tendance. | ||
}}<!--************** Fin Fiche Didactique Explicitations ******************* --> | }}<!--************** Fin Fiche Didactique Explicitations ******************* --> | ||
− | |||
= {{Widget:Erreurs-confusions-Fiche}} = | = {{Widget:Erreurs-confusions-Fiche}} = |
Version du 7 avril 2020 à 12:36
Votre Publicité sur le Réseau |
Traduction
Traductions
Définition
Domaine, Discipline, Thématique
Justification
Définition écrite
- Le Big Data désigne des volumes importants de données très diverses (structurées ou non), traitées et analysées pour extraire des informations qui seront utilisées dans de nombreux domaines. Ces « mégadonnées » (ou encore «données massives ») sont qualifiées de « carburant » ou d’« or noir » car leur valeur alimente l’économie numérique. Certaines dérives font que la technologie du Big Data est notamment très utilisée dans le traitement de données personnelles.
|
Big Data - Historique (+)
Définition graphique
Concepts ou notions associés
Big Data - Glossaire / (+)
Exemples, applications, utilisations
Les avantages de l’exploitation du big data sont importants:
L’objectif: diminuer le temps de trajet quotidien de millions de personnes. Une étude similaire, utilisant les données anonymisées des cartes de transport, a été réalisée sur les trajets quotidiens à Londres. Elle permet d’anticiper la congestion des bus et des métros et d’informer les usagers par le biais de comptes Twitter ; bientôt des informations en temps réel pourront être fournies pour leur permettre d’adapter leurs trajets. S’il s’agit dans les deux cas de données anonymisées, celles-ci sont utilisées à une autre fin que celle initialement prévue… Mais le plus préoccupant concerne le respect de la confidentialité des données personnelles.
|
Erreurs ou confusions éventuelles
- Confusion entre ....... et ........
- Confusion entre ....... et ........
- Erreur fréquente: ....................
Questions possibles
Liaisons enseignements et programmes
Idées ou Réflexions liées à son enseignement
Aides et astuces
Education: Autres liens, sites ou portails
Bibliographie
Pour citer cette page: (Data)
ABROUGUI, M & al, 2020. Big Data. In Didaquest [en ligne]. <http:www.didaquest.org/wiki/Big_Data>, consulté le 21, novembre, 2024
- ..................
- ..................
- ..................
- ..................