Big Data : par où commencer ?

Share on LinkedIn51Tweet about this on TwitterShare on Facebook0Email this to someone

Texte de Romain Thomas, Conseiller principal, Analytique des données chez Larochelle Groupe Conseil.

Quand l’éléphant dépasse la souris… cette série de trois articles explique les origines et les raisons des méga données.
 

Tout est une question de taille, de volume et de dimensions. Ce sont les faits : les données numériques ont bouleversé notre quotidien. Au lieu de les regarder s’amasser comme un tas de neige en hiver, on se demande: que faire de toute cette information ?

C’est comme s’arrêter sur le seuil de la porte de la chambre d’un enfant de sept ans : après un court moment de panique devant le désordre apparent, une question nous vient en tête: par où commencer ?

 

Mont Everest d’information

Ce mont Everest d’information est appelé « Big Data » du côté anglophone et en français, on parle de « méga données » ou « données massives ». Mais, comment faire pour y mettre de l’ordre ? Heureusement, il y a quelques années, les géants de la Silicon Valley avaient déjà anticipé cette gestion des données. Ils ont créé une bestiole pour faire le travail : Hadoop.

 

Hadoop, c’est ce célèbre petit éléphant capable d’ingérer de manière intelligente de grandes quantités de données. Pour le dresser à se mettre debout, ils ont également inventé le fameux « m-r », version longue : « map-reduce ». C’est ce paradigme qui, justement, permet de mettre de l’ordre dans ce bazar gigantesque.

 

Un peu d’histoire : la chronologie

 

Au départ, il y a Google. Nul besoin de beaucoup réfléchir pour deviner que ce monstre, qui s’amuse à référencer tout le web, commençait à ne plus s’y retrouver dans ses affaires.

Google invente alors en 2004, le GoogleFS, et son algorithme permettant d’exploiter ses données, le « map-reduce ». Juste après, Doug Cutting, qui trouve le concept intéressant, décide de le reprendre sous son aile et baptiser le projet Hadoop. Notre chance est qu’il travaille alors chez Apache et que, grâce à cela, notre Big Data est devenu et resté open source !

 

Mais le Big Data, ça ressemble à quoi ?

 

Ma propre définition est la suivante : il s’agit d’un ensemble de logiciels, opérant grâce à une infrastructure physique ad hoc, qui a la capacité de traiter et transformer des données hétérogènes en petits et grands volumes.

 

Plus concrètement, au quotidien, le Big Data se traduit par un ensemble de serveurs, taillé en fonction des calculs et du volume à traiter (les clusters). À cela s’ajoute un ensemble de programmes effectuant les opérations sur les données, optimisés pour s’exécuter dans des temps définis par les contraintes d’affaires. Enfin, le Big Data est en termes de développement un choix de techniques adaptées aux équipes d’une organisation.

En gros : des machines, des logiciels et des humains.

 

A suivre texte 2: Pourquoi du Big Data? Aperçu:

« Le Big Data permet dans ses premières utilisations d’analyser des informations, sans échantillonnage ou approximation et de produire des résultats qu’il n’est pas possible d’obtenir par des outils BI traditionnels ou dans des mesures de temps et d’argent rentables. »