Pourquoi du Big Data ?

Share on LinkedIn12Tweet about this on TwitterShare on Facebook0Email this to someone

Texte de Romain Thomas, Conseiller principal, Analytique des données chez Larochelle Groupe Conseil.

Quand l’éléphant dépasse la souris… cette série de 3 courts articles explique les origines et les raisons des mégas données.

 

La théorie

 

Le Big Data n’est pas qu’une question de volume. Le Big Data est généralement caractérisé par ses trois V :

 

  • Volume : de toute évidence…

 

  • Vélocité (vitesse) : traiter ce volume pour arriver à un résultat en quasi-temps réel.

 

  • Variété : c’est la spécificité du Big Data face au BI traditionnel. Alors que notre modèle classique de RDBMS demande des données structurées, le Big Data travaille avec des données structurées, semi-structurées et non structurées.

 

Le Big Data permet, dans ses premières utilisations, d’analyser des informations, sans échantillonnage ou approximation, et de produire des résultats qu’il n’est pas possible d’obtenir par des outils BI traditionnels ou dans des mesures de temps et d’argent rentables.

 

La réalité

 

Il y a quelques années, les entreprises qui en avaient les moyens démarraient une initiative Big Data parce que la concurrence l’expérimentait. Mais cette expérience était basée sur des technologies peu matures, un Hadoop hésitant et des compétences rares sur le marché. Considérant toutes ces circonstances additionnées à l’appréhension liée à chaque changement majeur TI, le Hadoop d’entreprise a été abordé avec pragmatisme par le monde des affaires.

 

Plus récemment, l’accélération du développement des techniques, la professionnalisation des outils par la multiplication des distributions et du support compétent (Cloudera, Hortonworks), la baisse des coûts du matériel, l’explosion des données notamment par l’invasion de l’IoT (Internet of Things) ou objets connectés, l’extension systématique de l’humain par son téléphone intelligent, etc. Bref, tous ces évènements ont mené à l’acceptation de la notion Big Data en entreprise comme un futur incontournable et ainsi, fléchir son taux de pénétration en tant qu’outil d’analyse et de prise de décision.

 

La communauté Apache

 

Apache recense au moins 37 projets autour du Hadoop ou plus précisément de HDFS (le système de fichier distribué) : Pig, Sqoop, Flume, Hive, Oozie, Kafka en sont quelques exemples. Chaque projet répond à un besoin particulier, mais pour le même but : ingérer la donnée dans HDFS et la transformer, visualiser et industrialiser les processus.

Pig et Hive comptent parmi les plus populaires aujourd’hui comme outils d’introduction au Big Data. Spark est en nette progression. Cassandra et HBase figurent parmi les plus populaires chez les géants comme Facebook, Apple, Yahoo. Globalement, ces outils permettent de gérer les données de façon similaire à une base de données traditionnelle.

 

Sqoop permet d’importer ou d’exporter des données d‘un RDBMS tandis qu’Oozie permet d’orchestrer toutes ces opérations puis à Ambari de monitorer votre cluster.

 

Comme nous le verrons dans un prochain article, c’est d’abord le besoin d’affaires qui définit l’architecture de l’infrastructure Big Data.

Le Big Data demain

 

Hadoop en est à sa version 2.0 qui apporte déjà un niveau de fonctionnalités intéressant. Yarn, Tez et Spark sont des nouvelles technologies qui apportent des alternatives et améliorations à map-reduce. L’avenir des outils Big Data semble s’enligner vers encore plus de vélocité et une exploitation des données à la volée, non persistante : le streaming. Plus en aval, les outils d’intelligence artificielle et d’apprentissage automatique (Machine Learning) semblent également profiter des avantages de la méga donnée.

 

Il convient de garder à l’esprit que l’aventure a débuté au XXIe siècle et que les technologies sont encore très nouvelles. Ainsi une prise de recul, une bonne analyse de la valeur d’affaires attendue en corrélation avec une bonne estimation des risques et des moyens nécessaires à mettre en œuvre constituent les premières étapes vers la réussite d’un projet Big Data.

 

A suivre texte 3: La base du Big Data : Hadoop (HDFS) et MapReduce

Aperçu:

« Hadoop est sans doute le terme technique le plus courant que vous rencontrerez dans votre exploration du Big Data, comme s’ils étaient synonymes. Pourtant le Big Data ne se limite pas à cette technologie, mais elle est la plus répandue. Intéressons-nous aux entrailles de cet animal : au-delà du petit éléphant jaune, sur quoi repose Hadoop ? »

Texte précédent: Big Data : par où commencer ?