[CLI Wiki] page changée : filtre:hadooppig

1 Jul 2010


      Une page dans votre Wiki a été ajoutée ou modifiée. Voici les 
détails :

Date              : 2010/07/01 10:00
Navigateur        : Mozilla/5.0 (X11; U; Linux i686; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.55 Safari/533.4
Adresse IP        : 82.224.249.154
Nom d'hôte        : toulouse.jfg-networks.net
Ancienne révision : http://cli.asyd.net/home/filtre/hadooppig?rev=1277970633
Nouvelle révision : http://cli.asyd.net/home/filtre/hadooppig
Résumé            : 
Utilisateur       : ker2x

@@ -1,11 +1,19 @@
  ====== Tutorial Hadoop Pig ====== 
  
  Le awk taille adulte.
  
- ===== A quoi ca sert =====
+ ===== Pourquoi ? Et à  quoi ca sert =====
  
- ** A venir **
+ === Pourquoi Hadoop Pig sur ce wiki ===
+ 
+ Parce qu'il y a une page sur awk, et que Hadoop Pig fonctionne sur le même principe et le même type de fichier que awk. Sauf qu'il est faut pour des très gros volumes de données. Des lignes (records), des données tabulées (csv, etc). La syntaxe est très differente, mais sysadmin-friendly.
+ 
+ Il peut etre utilisé de la même manière que awk, en ligne de commande. Par ex : pix -x local toto.pig
+ 
+ Il peut être utilisé en local (-x local) , en utilisant le FS local (ce qu'on fera dans cette doc) ou en utilisant un cluster hadoop (-x mapreduce), avec un filesystem distribué (ce qu'on ne fera pas ici).
+ 
+ Simple d'utilisation, simple à installer, moins gourmand que awk dès qu'on traite des gros volumes (on peut traiter des To de data avec peu de Ram). 
  
  ===== Installation pas à pas =====
  
    * Pour la démo, je prend un mCloud chez OVH, une debian 5.0 64bits avec 256Mo de ram (mais si, ca suffit), a 0.01€/h



-- 
Ce message a été généré par DokuWiki
http://cli.asyd.net/home/

    

noreply＠asyd.net

tags

participants (1)