Stratégies d'optimisation de requêtes SQL dans un écosystème Hadoop

( Télécharger le fichier original )
par Sébastien Frackowiak
Université de Technologie de COmpiègne - Master 2 2017

8.3 Optimisation du SQL sur Hadoop

Voici le lien vers le code source d'un exemple « WordCount » pour Tez :

Voici une illustration d'une table contenant beaucoup de petits fichiers.

hdfsdfs -ls /apps/hive/warehouse/z_database1.db/table1 | grep wc -l13102

L'usage de Tez, permettra de constituer un ensemble de splits pointant chacun vers un ensemble de bloc.

Dans cet exemple, deux containers ont pu être créés au lieu des 13102.

--------------------------------------------------------------------------------

VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED

--------------------------------------------------------------------------------

Map 1 RUNNING 2 0 2 0 0 0

Reducer 2 INITED 1 0 0 1 0 0

Reducer 3 INITED 1 0 0 1 0 0

--------------------------------------------------------------------------------

VERTICES: 00/03 [>>--------------------------] 0% ELAPSED TIME: xx.xx s

--------------------------------------------------------------------------------

"Nous voulons explorer la bonté contrée énorme où tout se tait" Appolinaire