WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Big data (rapport de stage)

( Télécharger le fichier original )
par Angeline KONE
INSA Lyon - Mastère spécialisé SI 2013
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

VI. Solution mise en place

VI.1 Choix de la solution et tests techniques réalisés

La distribution Cloudera a été utilisée pour plusieurs raisons. Tout d'abord le fait que Cloudera propose une version open source qui utilise les principaux composants de Hadoop. Ensuite, la distribution de Cloudera est la plus mature sur le marché avec déjà la quatrième version nommée CDH4. Mais surtout, la distribution de Cloudera est la plus utilisée en entreprise. En effet, selon le livre blanc « Où en est l'adoption du Big Data ? » publié par Talend en 2013, 12% des personnes ont répondues qu'elles considéraient pour l'avenir ou utilisaient déjà la distribution de Cloudera contre 4% pour la distribution de MapR et 3% pour la distribution d'Hortonworks. Le reste des réponses concernant d'autres solutions. (Talend, 2013)

Cloudera existe en trois versions : Free Edition, Standard et Enterprise. J'ai décidé d'utiliser la version Enterprise (car elle était gratuite pour une période de 60 jours et passait en version Standard si l'on arrivait au terme de la période d'essai sans s'être procuré d'une licence) afin d'explorer les fonctionnalités qu'elle offre vu que celles-ci sont adaptées pour un contexte d'entreprise. Cloudera propose un outil pour superviser et automatiser le déploiement des clusters Hadoop nommé Cloudera Manager. C'est ce composant que j'ai utilisé pour installer le cluster Hadoop.

Les fonctionnalités clés de Cloudera sont les suivantes :

§ Gestion du cluster : elle permet de déployer, configurer et exploiter facilement des clusters de façon centralisée, avec une administration intuitive pour tous les services, les hôtes et les workflows.

§ Monitoring du cluster : elle permet de maintenir une vue centralisée de toutes les activités de la grappe (noeuds du cluster), ses contrôles proactifs et des alertes.

§ Diagnostique du cluster : cette fonctionnalité permet de diagnostiquer et résoudre facilement les problèmes avec l'aide des rapports opérationnels et des tableaux de bord, des événements, de l'affichage des journaux, des pistes d'audit.

§ Intégration : cette fonctionnalité permet d'intégrer les outils de surveillance existants (SNMP, SMTP) avec Cloudera Manager.

Cloudera Manager permet de choisir entre la version 1.0 et 2.0 du framework Hadoop. J'ai opté pour la version 1.0 puisque la version 2.0 était en version alpha et n'était pas encore tout à fait stable.

VI.1.1 Architecture du cluster mise en place

Le schéma ci-dessous présente l'architecture du cluster hadoop que j'ai mis en place dans le cadre de ce mon travail.

Figure 8 : Architecture du cluster Hadoop mis en place

Ce cluster est constitué de postes standards équipés de système d'exploitation Ubuntu (version 10.04). Cette architecture est hébergée dans un environnement virtuel, ce qui nous a permis de tester la virtualisation d'un cluster Hadoop, solution incontournable pour faire du Big Data sur le cloud. Ce schéma présente les différentes machines (maître et esclave) du cluster et les rôles qui leurs sont associés dans le cadre d'une architecture Hadoop.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Les esprits médiocres condamnent d'ordinaire tout ce qui passe leur portée"   François de la Rochefoucauld