« Big Data » : un Janus du 21ème siècle ?

6 Février 2018
Dossier

Page 4 sur 10: Un corolaire indispensable : l’analyse

Page 4 sur 10

Un corolaire indispensable : l’analyse

Toutes ces données en elles-mêmes ne seraient rien si elles ne devaient (et pouvaient) être analysées. Au-delà de la quantité impressionnante de ces données brutes, la révolution apportée par les « Big data » a très probablement porté plus encore sur les méthodes de leur analyse. En effet, nous sommes passés d’un système dans lequel les données étaient peu nombreuses mais très stéréotypées (nécessitant donc des méthodes d’analyse et de traitement simples) à un système dans lequel la nature même des données est mal maîtrisée. A titre d’exemple, antérieurement, le fichier client d’un commerçant générait des données « simples » en termes de nombre d’articles, de prix de ces articles, de date d’achat de l’article, etc… Les logiciels généraient alors des analyses avec des calculs « simples » de moyennes, de fréquence d’achat, de durée de vie d’un produit en rayon, etc… A l’ère des « Big Data », les données que le commerçant peut enregistrer concernent aussi la typologie du client, son trajet à l’intérieur du magasin, voire même le temps qu’il fait dehors ou la musique qui est diffusée dans les rayons (c’est ce qu’on appelle le « profilage »). Les logiciels peuvent analyser (et en temps réel) l’ensemble de ces informations et adapter l’environnement commercial (la musique, le nombre d’hôtesses de caisse, etc…). Ils peuvent prédire finement le succès commercial des différents articles en fonction de nombreux paramètres (météo, jour de la semaine, actualité…) et les anticiper ; ce qui permet une meilleure gestion des stocks et des commandes. Pour arriver à ces résultats, il a fallu donc changer de paradigme en termes d’analyses et inventer de nouveaux modes d’analyse : ce sont les « Big Analytics » (ou « broyage de données » ou « analyses complexes »). Ces analyses complexes répondent à la « règle des 3 V » : elles traitent d’un très grand nombre de données (un grand volume) qui sont très variées (une grande variété), à une très grande vitesse (tant pour la génération des données que pour leur transfert et leur analyse). Certains ajoutent 2 V puisque ces analyses permettent aussi une plus grande valeur ajoutée, en assurant une plus grande véracité de l’information traitée.

Au-delà des concepts « marketing » que ces définitions révèlent, elles soulèvent surtout une réalité : l’ère du « Big Data » est celle d’une volonté d’avoir toujours plus (de données, de vitesse, de valeur…). Ces données étaient déjà quasiment innombrables, avec leur analyse, de nouvelles données sont encore générées : on approche alors de l’explosion entropique au cours de laquelle tellement de nouvelles informations sont créées qu’on atteint la saturation du système (certains parlent alors d’« infobésité »). Pour prévenir cette situation, les logiciels d’analyse de données doivent aller plus loin et eux-mêmes évoluer avec les résultats qu’ils génèrent et analysent : on parle alors de « machine learning » (ou apprentissage automatique au cours duquel la machine apprend elle-même au fur et à mesure) ou d’« intelligence artificielle » : dites « IA » pour être dans le coup. Lorsqu’elle est capable d’apprendre à des niveaux extrêmement complexes, on parle alors de « deep learning » : cependant, la nuance à partir de quand on est dans le « deep learning » du « machine learning » versus le « shallow learning » du « machine learning » n’est pas toujours très claire…

Le lieu de l’analyse est aussi important : tout peut être centralisé (sur un seul serveur) ou décentralisé (sur le lieu de génération de l’information). En clair, soit vous stockez toutes les données sur un serveur à distance sans les trier initialement lorsqu’elles sont générées (vous le ferez ensuite au moment de l’analyse quand vous le déciderez), puis vous les analysez (ou pas…) ; soit vous choisissez que l’analyse (avec le tri des données) soit faite en amont, quasiment sur le lieu de la génération des données. La deuxième solution correspond aux « smart data » (les données dites intelligentes) : elles ont l’avantage de ne pas stocker d’informations « inutiles », uniquement celles qui sont nécessaires à l’analyse, mais elles nécessitent cependant de savoir quelle est la question posée initialement et à laquelle doivent répondre les analyses, ce qui est quand même rarement le cas dans le monde du « Big Data ».

N°52