Project Description

Corsi on site / Data & Analytics

Corso Hadoop developer

Il corso illustra le tecniche di development per Hadoop. Il percorso, pensato per un massimo di 8 partecipanti e rivolto esclusivamente a personale interno, si svolge presso la sede dell’azienda cliente.
  • 4 giornate da 8 ore ciascuna
  • Max partecipanti: 8
Hadoop
Data Science
Advanced analytics
Il corso illustra le tecniche di development per Hadoop. Il percorso, pensato per un massimo di 8 partecipanti e rivolto esclusivamente a personale interno, si svolge presso la sede dell’azienda cliente.
  • 4 giornate da 8 ore ciascuna
  • Max partecipanti: 8

Temi affrontati

  • Prima giornata

    Materiali corso e installazione strumenti

    1. Hadoop Ecosystem (Hadoop, HDFS, YARN)
    2. Using HDFS
    3. Cos’è MapReduce
    4. Running a MapReduce Job
    5. Writing a MapReduce Program in Python
  • Seconda giornata

    Writing a MapReduce Streaming Program in Python

    1. Importing Data With Sqoop
    2. Manipulating Data With Hive
    3. Running an Oozie Workflow
    4. Creating an Inverted Index – Solr
    5. Hue Dashboard on Index
  • Terza giornata

    Spark

    1. Introduzione
    2. Shell: pyspark & scala shell
    3. Storage interface
    4. Spark SQL
    5. Spark on Yarn cluster
    6. RDD: theory and hands on
    7. RDD: key – value
    8. RDD: key – value
    9. Spark Streaming
  • Terza giornata

    DataFrames and Apache Spark SQL

    1. Integrating Apache Flume and Apache Kafka
    2. Capturing Data with Apache Flume
    3. Message Processing with Apache Kafka
    4. Calculating Word Co-Occurence

Requisiti

Per poter seguire le lezioni i partecipanti dovranno avere a disposizione 4 nodi (virtuali o su cloud – consigliato AWS) e un account GitHub, oltre ad essere già in possesso di una formazione base su Hadoop.