Soirée du jeudi 13 décembre - Big Data et data mining

Après l’institutionnelle introduction incluant la vie du JUG, les news et le Quiz, Nicolas Lalevée et François Royer nous parleront jeudi 13 décembre 2012 de la technologie NoSQL Hadoop.

Pour les inscriptions, c’est par là :-).

Big Data et data mining – tour au zoo d’Hadoop.

Hadoop est devenu un socle incontournable pour la fouille de données: ETL, distribution de tâches, collecte et aggrégation, on peut tout faire avec, ou presque.

Nous commencerons par présenter la technologie: l’algorithme MapReduce, son architecture, son déploiement, son utilisation via un eco-système de projets fourmillant autour.

Puis nous entrerons dans un exemple concret d’utilisation : le calcul de statistiques web ala google analytics dans Scoop.it avec Hive. Nous verrons le cas d’utilisation, l’implémentation, l’utilisation, les problématiques de déploiement, de performance.

Puis nous élargirons avec le data mining. Nous passerons en revue les différents algorithmes “MapReduce-able” et verrons pourquoi implémenter soi-même un join sous Hadoop n’est pas une très bonne idée. Des exemples en traitement du langage avec Python et Cascalog seront donnés.

Pensez à vous inscrire sur le site de JugEvents (c’est gratuit).