Blog

  • +
    Miriade annuncia una partnership strategica con Denodo per espandere e supportare la data virtualization in Italia
  • +
    L’importanza di ottimizzare i database
  • +
    Webinar | Accelerare la migrazione al cloud e la modernizzazione dell’architettura con la virtualizzazione dei dati | Giovedì 2 luglio ore 10.00
  • +
    Business agility: il cambiamento come costante
  • +
    Google Colab: il tool gratuito di Google a servizio dei data scientist
  • +
    Webinar | Domina il cambiamento con AWS: Agile on cloud | Giovedì 25 giugno ore 10.00
  • +
    Atlassian: la suite preferita dai team felici (tutti quanti)
  • +
    Rating della legalità: il punteggio di Miriade
  • +
    Webinar: Domina il cambiamento con KNIME | giovedì 11 giugno
  • +
    QuiPass: la web app salta coda che gestisce gli ingressi
  • +
    Lavoro da remoto: lo stato dell’arte
  • +
    Le analitiche avanzate per ripartire con slancio

Corso Hadoop Developer

Obiettivi del corso

Il corso illustra le tecniche di development per Hadoop. Per poter seguire le lezioni i partecipanti dovranno avere a disposizione 4 nodi (virtuali o su cloud – consigliato AWS), oltre ad essere già in possesso di una formazione base su Hadoop.

Il percorso, pensato per un massimo di 8 partecipanti e rivolto esclusivamente a personale interno, si svolge presso la sede dell’azienda cliente.

Durata

4 giornate da 8 ore ciascuna

Temi affrontati

Prima giornata

Materiali corso e installazione strumenti

  • Hadoop Ecosystem (Hadoop, HDFS, YARN)
  • Using HDFS
  • Cos’è MapReduce
  • Running a MapReduce Job
  • Writing a MapReduce Program in Python
Seconda giornata

Writing a MapReduce Streaming Program in Python

  • Importing Data With Sqoop
  • Manipulating Data With Hive
  • Running an Oozie Workflow
  • Creating an Inverted Index – Solr
  • Hue Dashboard on Index
Terza giornata

Spark

  • Introduzione
  • Shell: pyspark & scala shell
  • Storage interface
  • Spark SQL
  • Spark on Yarn cluster
  • RDD: theory and hands on
  • RDD: key – value
  • RDD: key – value
  • Spark Streaming
Quarta giornata

DataFrames and Apache Spark SQL

  • Integrating Apache Flume and Apache Kafka
  • Capturing Data with Apache Flume
  • Message Processing with Apache Kafka
  • Calculating Word Co-Occurence
Categories:
  Advanced Analytics, All
this post was shared 0 times
 000