Heigh-oh, Heigh-oh, Gérôme rentre du boulot. Profession mineur … de données. Chaque jour, il explore les bases de données d’entreprises clientes afin d’extraire de la connaissance. Des outils statistiques, couplés à la vitesse de l’informatique, permettent de rapprocher des faits entre eux. On parle de data mining.
La recherche de connaissance est une activité naturelle chez l’homme. Tous les jours, Gérôme prend le train et très souvent ce dernier est en retard. Au lieu d’attendre 10 minutes au froid avec les autres voyageurs sur le quai, notre informaticien préfère rester dans sa voiture et observer la barrière située 200 mètres avant de la gare.
L’événement observé est l’arrivée du train. Ce dernier a en moyenne 5 minutes de retard. Par contre, une lumière rouge s’allume au niveau de la barrière 1 minute avant l’arrêt du train devant le quai. Donc autant attendre patiemment dans sa voiture. L’arrivée du train est la cause de la lumière rouge.
On parle de causalité. La connaissance que Gérôme a obtenue de l’observation de ces deux événements lui apporte un certain confort.
Gérôme prend le train à cette gare depuis des années. Il a donc observé des événements qui lui permettent de prévoir le retard du train :
- En automne, le temps est plus humide. Le train roule plus lentement sur certaines portions avant la gare. Le train a donc plus de retard.
- Le vendredi, le train a en moyenne 2 minutes de retard en plus.
Les événements météorologiques peuvent entraîner des retards. Pour autant, malgré des facteurs défavorables, les trains peuvent arriver à l’heure. Le conducteur anticipe les difficultés et roule plus vite sur d’autres portions plus sûres. Ces événements variables influencent l’arrivée du train sans être la cause du retard.
On parle de corrélation. La météo ou le jour de la semaine ne sont pas les causes des retards même si un lien semble exister.
Gérôme peut-il prédire l’heure exacte d’arrivée du train à partir d’éléments externes accessibles ? Pour le temps, il suffit de regarder le bulletin météo la veille. Pour le jour de la semaine, la cause est en réalité le planning des conducteurs de la ligne. Mais il existe peut être d’autres événements observables qui peuvent affiner le modèle.
Par un heureux hasard, le prochain client de Gérôme est le gestionnaire des transports en commun de la région. Il aura alors accès à de nombreuses bases de données : planning des conducteurs, caractéristiques et état d’entretien des trains, informations sur les voies ferrées, …
Le client a d’autres objectifs. Par rapport à sa clientèle (B2C), il veut améliorer ses offres et diminuer la fraude sur ses lignes. Ce sont donc d’autres bases de production sur lesquelles Gérôme va appliquer ses modèles statistiques : liste des clients et de leurs achats, rapports de contrôleurs, planning des trains, météo, événements festifs, …
Notre consultant va donc extraire les profils (sexe, âge, lieu de résidence, …) et habitudes des clients (gare de départ, d’arrivée, fréquence, …), comme ceux des fraudeurs. Libre à son employeur de prendre les mesures pour faciliter la vie des premiers et gêner celle des seconds.
Gérôme synthétise des millions d’enregistrements collectés au fil du temps. Il en extrait des connaissances, des règles. Rien d’arbitraire. Il s’agit ici de mathématiques appliquées. Et cela correspond souvent au retour du personnel sur le terrain. Mais basées sur l’ensemble des données de l’entreprise, cela donne plus de crédibilité aux connaissances.
Certains journalistes mettent en cause le data mining. Les données recueillies peuvent présenter des biais. Les connaissances sont alors erronées. Et les décisions prises sont injustes. Avant de sortir un article, il faut aussi enquêter sur les objectifs de l’entreprise et sur les gains apportés par les connaissances acquises grâce au data mining.