Big Data

De Didaquest
Aller à la navigationAller à la recherche
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.


Autres Fiches Conceptuelles
Posez une Question


(+)

Target Icon.pngVotre Publicité sur le Réseau Target Icon.png

Puce-didaquest.png Traduction


More-didaquest.png Traductions


Puce-didaquest.png Définition

Domaine, Discipline, Thématique


More-didaquest.png Justification


Définition écrite



Blue-circle-target.png Le Big Data a été initialement caractérisé par les « 3 V» de Volume, Variété, Vélocité.

  • Le « Volume » du Big Data, soit la quantité de données à disposition, est colossale. Elle se composerait de plus de mille deux cent milliards de milliards d’octets, dont 90 % ont été produits dans les deux dernières années, et ce chiffre devrait doubler tous les deux ans. Le volume joue un rôle capital, en effet la justesse des informations dégagées dépend de la quantité de données traitées. On ne cherche plus à travailler sur un échantillon mais sur tous les cas réels d’un phénomène donné. On comprend alors le puissant mouvement de recueil des données, qui s’accommode mal de la nécessité d’attendre des consentements individuels.
  • La «Variété» du Big Data caractérise les formats hétérogènes des données provenant de sources très diverses : téléphones mobiles, téléviseurs connectés, tablettes, PC fixes, PC portables, et, de plus en plus, objets connectés. Elles sont délivrées en toute légalité par les utilisateurs de services, conservées éventuellement au-delà de la finalité fixée, « récupérées » grâce aux traces de navigation sur le Net, aux GPS, réseaux sociaux, objets connectés, aux métadonnées (1) mais aussi aux «traceurs» que sont les cartes bancaires, cartes de fidélité, cartes d’accès aux transports… Les données publiques peuvent être des données administratives comme des registres de naissance, des listes électorales mais aussi des données scientifiques. Les données privées sont recueillies sous les formats textes, images, sons, traces de navigation sur Internet.
  • La « Vélocité » du Big Data caractérise à la fois la rapidité de production et de traitement des mégadonnées. C’est le « data mining », qui permet de traiter rapidement les masses de données grâce aux algorithmes. Ces outils d’analyse, de plus en plus puissants, sont capables de s’autocorriger (« machine learning »), gèrent des informations qui n’ont plus besoin d’être structurées dans des bases de données, et permettent de détecter des relations entre des données hétérogènes provenant de différents contextes. Les algorithmes permettent d’extraire des informations, de définir des profils types, non seulement de repérer des comportements suspects mais aussi de les prédire, tout comme sont anticipés des événements ou des tendances : vendre des produits avant de les fabriquer, connaître à quel moment l’internaute sera prêt à passer à l’acte d’achat… Mais ils permettent aussi d’accélérer le séquençage du génome humain ou d’établir une cartographie des différentes formes de maladies dégénératives du cerveau.


Blue-circle-target.png Le big data, c’est 3V + 1U : Volume, Variété, Vitesse et en plus : un usage non destructif de la donnée. Avec ce quatrième critère le Big Data permet de traiter des données pas obligatoirement structurée et ne nécessite pas obligatoirement de les convertir à des formats précis. Ainsi, contrairement au process ETL : “extract, transform and load” la donnée initiale n'étant pas forcément détruite dans le process. L’approche n'est donc plus limitée à des analyses spécifiques pour des données spécifiques. Elle peut puiser dedans et hors des données existaient dans un système de transaction restreint et utiliser des données qui existent çà et là dans l'univers du monde hyper-connecté, produisant tous ces quintillions de données. Ainsi, le Big Data, en plus d'une simple analyse de données: – regarde et exploitent les données disponibles (structurée ou non) en dehors du système initial de votre organisation (souvent structuré); – regarder et exploitent notamment les données accessibles à tous, les fameuses open-data; – Connecte, croise, les données de façon multidimensionnelle et avec celles dont on dispose déjà.


More-didaquest.png Big Data - Historique (+)


Définition graphique




Puce-didaquest.png Concepts ou notions associés


More-didaquest.png Big Data - Glossaire / (+)



Puce-didaquest.png Exemples, applications, utilisations


Blue-circle-target.png Exemples d'avantages du Big Data

  • Généralité sur l'exploitation du Big Data permet aussi bien d’identifier les causes endogènes et exogènes des maladies (en particulier du cancer) que de fluidifier le trafic routier, de préciser le ciblage publicitaire, de réduire la consommation énergétique. La disponibilité de ces données est facilitée par l’évolution des techniques de transport et de stockage (cloud, fibre, etc.), qui facilitent la croissance exponentielle de la rétention de « toutes » les données.
  • Exemples pratique d'utilisation en Big Data

Les avantages de l’exploitation du big data sont importants:

  • Exemple des transports. En 2012, une équipe de chercheurs de la société IBM a exploité une base de données mise à disposition par l’opérateur Orange. La société a recueilli et sauvegardé les données téléphoniques correspondant à cinq cent mille appels et SMS envoyés durant cinq mois, dans la ville d’Abidjan. Ces enregistrements, comprenant un identifiant anonymisé, l’heure de l’appel ou de l’envoi du message ainsi que l’identifiant de l’antenne-relais du début de connexion ont permis aux chercheurs d’établir la carte des déplacements et de formuler des recommandations pour optimiser la carte des transports en commun.

L’objectif: diminuer le temps de trajet quotidien de millions de personnes. Une étude similaire, utilisant les données anonymisées des cartes de transport, a été réalisée sur les trajets quotidiens à Londres. Elle permet d’anticiper la congestion des bus et des métros et d’informer les usagers par le biais de comptes Twitter ; bientôt des informations en temps réel pourront être fournies pour leur permettre d’adapter leurs trajets. S’il s’agit dans les deux cas de données anonymisées, celles-ci sont utilisées à une autre fin que celle initialement prévue… Mais le plus préoccupant concerne le respect de la confidentialité des données personnelles.

  • Exemple Netflix : En 2006, le site « Netflix », dans le cadre d’un concours pour améliorer son système de recommandation, a publié les choix en ligne d’un demi-million d’utilisateurs identifiés par un simple numéro. Deux chercheurs ont pu ré-identifier plusieurs clients par simple recoupement avec les données publiées sur un autre site d’avis en ligne, « lMDb » (« Internet Movies Data base »), qui, lui, n’était pas anonyme ; et même, dans certains cas, déterminer leurs opinions politiques et leurs orientations sexuelles.
  • Exemple Amazon : Grâce au big data, en utilisant notamment les données personnelles de ses clients, Amazon a mis au point un outil lui permettant de leur adresser des marchandises avant même qu’ils ne les aient commandées, ce qui suppose un profilage extraordinairement intrusif de leur intimité.
  • Exemple tarification dynamique : De nouvelles pratiques de vente émergent, telles que la « tarification dynamique » (« dynamic pricing »), pratiquée par des compagnies aériennes, qui peuvent augmenter leurs tarifs en fonction de l’analyse du comportement du client, de son besoin plus ou moins urgent et des prix de la concurrence.


Blue-circle-target.png Exemples d’inconvenants du Big Data - Vie privée

  • Au-delà des risques de profilage et d’atteinte à la vie privée, le big data, en anticipant sur les décisions des individus et en les « aidant » à consommer, à améliorer ou surveiller leur santé… est bien plus qu’un outil, il interfère sur leur libre arbitre et leur autodétermination. De plus les algorithmes, qui sont conçus par des individus, peuvent comporter des failles dues à leurs jugements de valeur. Il est donc nécessaire d’être prudent avec les résultats, qui pourraient en être biaisés. Pour les défenseurs des droits de l’Homme attachés à la vie privée, le big data constitue un changement de paradigme car les différents principes de la protection des données personnelles ne sont plus respectés. Le droit à la protection des données personnelles est garanti par différents textes : en France, la loi Informatique et Libertés ; au niveau européen, principalement la directive 95/46/CE ainsi que la Convention 108. Objectif : établir un équilibre entre l’individu et la personne physique ou morale, l’autorité publique ou autre qui collecte et traite ses données.
  • Les normes de protection remises en question
La norme de la protection des données implique le respect de plusieurs principes qui sont mis à mal par le big data. Ces principes édictent que le recueil des données doit correspondre à une finalité déterminée dès la collecte, et que la personne concernée doit avoir donné son consentement « spécifique, libre, explicite et éclairé ». Les données doivent être minimisées, adéquates, pertinentes et non excessives par rapport aux finalités pour lesquelles elles sont collectées et pour les éventuels traitements ultérieurs. Elles ne sont conservées que pour une durée n’excédant pas celle nécessaire aux finalités pour lesquelles elles sont enregistrées. Le big data implique a contrario que toutes les données possibles soient recueillies, conservées et réutilisées pour d’autres finalités, jamais effacées ou presque, sans que l’on ait demandé à la personne concernée son consentement pour cette nouvelle utilisation. Si les textes prévoient la réutilisation, c’est uniquement à des fins statistiques ou de recherche scientifique, ce qui implique qu’elles soient anonymisées et que cette réutilisation ne serve pas à prendre des décisions à l’égard des personnes. Or de nombreux exemples montrent que des données anonymisées peuvent donner lieu à une réidentification, que le big data peut servir à rejeter des candidats à l’embauche «grâce» à une analyse de leur vie numérique, à adapter des tarifs d’assurance au niveau de risque de certains assurés, patients...


  • Sensibilisation et urgences
L’urgence de sensibiliser et d’informer Il est indéniable que le big data peut contribuer à de nombreux progrès, notamment par l’utilisation de données publiques. Les perspectives sont immenses et les pouvoirs publics y voient des possibilités d’économies ; les entreprises, des profits potentiels. Néanmoins, il est inacceptable que le citoyen ne soit plus en mesure de faire valoir son droit à la protection. Lorsqu’il accepte que ses données soient collectées pour une finalité, il doit avoir la garantie qu’elles ne seront pas cédées ou vendues à une entreprise ou une autorité qui en fera un tout autre usage. C’est la base de la confiance, dont on nous redit qu’elle est le moteur de l’économie numérique (les données en étant le carburant…). Or, à l’heure actuelle, ce citoyen peut rester dans l’ignorance de la cession pour d’autres usages de ses données collectées. Il risque ainsi d’être, un jour, victime d’une ré-identification, d’une discrimination liée au profil qui aura été établi grâce au big data. Il est évident que tout nouveau traitement effectué à partir de données collectées pour une finalité explicite ne devrait être possible que sur la base du consentement de la personne concernée ou de la garantie que ses données anonymisées le resteront. Dans ce domaine, des progrès importants sont nécessaires. Il est du devoir de l’Etat d’encourager les recherches sur l’anonymisation irréversible et, lorsque celle-ci s’avère impossible, les données concernées (notamment en matière de santé) devraient être exclues du big data(6). Parallèlement, il convient de lancer très rapidement une grande campagne de sensibilisation des citoyens aux enjeux de la constitution de ces réserves de mégadonnées et des utilisations qu’elles permettent. Il est par ailleurs nécessaire d’encourager les citoyens, par tous les moyens, à se protéger, par des formations dès l’école et par des informations facilement accessibles. En effet, lorsque le consentement de l’utilisateur est lié à l’utilisation de ses données comme condition d’accès à une application ou un service, il est généralement conditionné par le confort du service immédiat. L’utilisateur ne fera pas la démarche de refuser l’enregistrement de ses données. Il ne fera pas plus l’effort d’effacer leurs traces, parce qu’il considère que cette activité n’est pas très importante («acheter un billet de train n’a rien de secret! Et puis, je n’ai rien à cacher! »). Il ne voit pas à quoi ses données, prises séparément, pourraient servir. Il a tendance à faire confiance à l’expert, qui a créé la règle par défaut, a priori pour son bien… Par ailleurs, la plupart des utilisateurs pensent qu’ils perdront des « avantages », s’ils ne consentent pas à délivrer leurs données. Beaucoup sont conscients des risques, mais ils se sont résignés à perdre le contrôle sur leurs données. Il est donc urgent de renverser cette tendance.

(+)


Puce-didaquest.png Erreurs ou confusions éventuelles



Puce-didaquest.png Questions possibles



Puce-didaquest.png Liaisons enseignements et programmes

Idées ou Réflexions liées à son enseignement



Aides et astuces



Education: Autres liens, sites ou portails




Puce-didaquest.png Bibliographie