Getting started with Big Data and Advanced Analytics

Se lancer dans le Big Data et l’analyse avancée

Auteur : Ralf HUSTADT

24/02/2018

Cloud

Qu’est-ce qui explique tout ce battage ?

Tout d’abord, le Big Data n’est pas vraiment nouveau. Les grandes entreprises analysent leurs données depuis des siècles. Les gouvernements le font depuis des millénaires. Ce qui a changé, ce sont les outils disponibles et leur coût. Avec les technologies actuelles, il n’est plus nécessaire de disposer d’un mainframe pour le calcul ou d’un stockage spécialisé pour conserver les données. Tout peut fonctionner sur du matériel standard, dit “commodity hardware”, qui est dans de nombreux cas non seulement supérieur aux systèmes existants, mais aussi beaucoup moins cher.

Il en va de même pour l’analytique. Les mécanismes statistiques sous-jacents ne sont pas nouveaux. Les méthodes de Monte Carlo par chaînes de Markov existaient déjà dans les années 1940. Mais utiliser un logiciel open source de machine learning pour apprendre à un ordinateur à reconnaître l’âge d’une personne à partir d’une image est nouveau et nécessite une puissance de calcul bon marché, devenue disponible seulement au cours de la dernière décennie.

Quelle est la différence entre “Big Data” et “Advanced Analytics” ?

Le “Big Data” et l’“Advanced Analytics” ne sont pas la même chose. Ils ne sont ni synonymes, ni toujours liés, même s’ils apparaissent souvent dans le même contexte.

Le Big Data apparaît traditionnellement lorsque vos données dépassent les limites de vos systèmes en termes de volume, vitesse ou variété (les 3V).

Volume

Le volume est le facteur le plus important. Par exemple, vous disposez des logs ou des données de transactions de la semaine dernière, mais les données plus anciennes ne sont conservées que sous forme de moyennes journalières ou hebdomadaires. Des données agrégées conduisent à des analyses appauvries. Si vous voulez savoir comment a évolué le profil de votre trajet aux heures de pointe sur 5 ans, il ne sert à rien d’avoir seulement des moyennes quotidiennes ou hebdomadaires.

Vitesse (Velocity)

La vitesse devient critique lorsque vous avez besoin d’informations en temps réel, mais que vos systèmes traditionnels ne sont pas assez puissants pour les fournir instantanément. Un agent de centre d’appels a besoin des informations client pendant l’appel, pas une demi-heure plus tard. C’est aussi le cas des recommandations en ligne sur des sites comme Amazon.

Variété

La variété correspond aux données disponibles mais non exploitables ensemble, car les systèmes ne sont pas connectés ou ne partagent pas de dénominateur commun. Il est utile d’avoir un CRM et des logs web, mais il est encore mieux de pouvoir les combiner.

Il existe d’autres notions comme les “dark data” (données existantes mais inutilisables), la véracité (une seule version de la vérité), etc. Mais pour simplifier, restons sur les 3V.

Et l’Advanced Analytics ?

L’Advanced Analytics exploite la puissance de calcul actuelle. Un ordinateur n’a pas d’intelligence en soi, mais il est extrêmement performant pour effectuer des calculs, et l’analytique avancée s’appuie sur cela.

Cela s’applique par exemple au clustering (regrouper des données similaires sans qu’elles soient identiques). Par exemple, organiser des photos par visages sans noms, comme dans iPhoto, où l’utilisateur doit ensuite nommer les groupes. À l’inverse, l’extraction de règles consiste à partir de données déjà classées et à identifier les caractéristiques communes de chaque catégorie.

Comment mener un projet Big Data / Analytics ?

Même si tout cela est compris, la mise en œuvre est une autre histoire.

Se lancer correctement dans le Big Data et l’Analytics n’est pas facile, et les entreprises rencontrent souvent plusieurs défis :

Sujet flou et mal défini → manque de compréhension
Manque de compétences techniques et de ressources IT → délais longs
Complexité des outils → manque de visibilité
Absence de cas d’usage clair et de ROI → difficulté à obtenir un budget
Big Data vu comme un simple élément de la transformation digitale → manque de vision

Par où commencer ?

Il n’est pas nécessaire d’attendre une feuille de route complète de transformation digitale. Elle sera probablement obsolète avant même d’être terminée.

La règle générale est :
“Voir grand, commencer petit, échouer vite, scaler rapidement, avancer vite, casser des choses.”

Même le plus long voyage commence par un premier pas — mais vous arriverez plus vite si vous commencez dès maintenant dans la bonne direction.

Le projet doit être porté par le métier et non par l’IT, car il s’agit de résoudre des problèmes, pas de choisir une technologie.

Donc, au lieu de choisir une technologie ou de construire une plateforme, commencez par un cas d’usage.

Quels sont les critères d’un bon cas d’usage ?

Un bon cas d’usage part d’un problème réel, avec un impact financier mesurable rapidement et un potentiel d’évolution.

Exemple : General Electric a identifié 7 milliards de dollars de coûts de maintenance sur ses turbines et fixé un objectif d’économies de 1 %, soit 70 millions de dollars. Ils ont donc construit un data lake pour la maintenance prédictive.

C’est bien plus efficace que de simplement “chercher quelque chose d’intéressant dans les données machines”.

Il faut aussi vérifier :

la portée (scope)
la faisabilité
la disponibilité et la qualité des données

Souvent, les projets échouent parce que la préparation des données est trop complexe ou mal comprise. Une bonne approche consiste à commencer par explorer visuellement les données.

Quelles compétences sont nécessaires ?

Cela dépend du projet :

Data scientist : pour les analyses complexes
Architecte système : pour les systèmes de grande taille
Experts métier : indispensables dans tous les cas

Les équipes les plus performantes combinent expertise technique, statistique et métier.

Quels sont les composants technologiques nécessaires ?

Quatre piliers principaux :

Ingestion des données (ETL) : extraction, transformation, chargement
Plateforme de stockage et calcul : le moteur (type Hadoop ou autre)
Couche d’analytique : outils d’analyse avancée
Visualisation : tableaux de bord et exploration des données

Comment piloter le projet ?

L’agilité est essentielle.

commencer par un proof of concept
choisir un cas simple et pertinent
accepter que l’apprentissage fasse évoluer le projet
résoudre les problèmes progressivement
laisser les utilisateurs expérimenter

Après un POC réussi, il est possible de reconstruire proprement en production avec l’IT.

Existe-t-il une méthodologie ?

Oui : CRISP-DM (Cross-Industry Standard Process for Data Mining), un modèle standard en data mining, largement utilisé dans l’industrie.

Comment aligner un projet avec la stratégie globale ?

Il faut partager les apprentissages entre départements et éviter les silos.

Une bonne pratique consiste à créer un environnement collaboratif (type “data kitchen”), où chaque équipe apporte ses données et ses cas d’usage. Cela permet de construire un data lake maîtrisé, plutôt qu’un “data swamp” incontrôlé.

En résumé

Commencez maintenant, partez du métier, choisissez un cas d’usage simple mais utile.
Personne n’a appris à faire du vélo en lisant un livre.

Contactez-nous