Con grande soddisfazione annuncio l’uscita del mio nuovo libro, nel quale parlo di Big Data e di Predicitve Analytics.
Il testo è rivolto agli studenti di discipline informatiche legate all’analisi e all’elaborazione dei dati, agli IT manager e soprattutto agli aspiranti data scientist Il libro è un valido supporto per comprensione delle tematiche relative all’analisi dei dati (big data o dati tradizionali) anche da parte del management aziendale, che, dall’analisi avanzata, può ottenere vantaggi competitivi rilevanti.
Ecco la presentazione ufficale.
Agli albori della “data driven economy”, i dati generati da macchine e social rappresentano il petrolio del XXI° secolo. Ma solo la capacità di elaborare e interpretare tali dati consentirà un loro corretto sfruttamento e sarà la chiave per aumentare produttività e attivare nuove strategie di crescita.
Big Data analytics. Il manuale del data scientist si propone come una guida all’analisi dei Big Data e all’utilizzo di strumenti e tecniche innovative, applicabili a qualunque settore economico e problematica predittiva ( eg. churn analysis, campaign targeting, IOT e predictive maintenance, fraud detection).
Il libro è un’esplorazione dei dati aziendali, delle loro architetture e degli stumenti di analisi , orientata ad accompagnare le scelte del data scientist e, soprattutto, ad aiutarlo nell’individuare regole capaci di spiegare fenomeni e generare decisioni vantaggiose.
Di seguito riporto l’indice dei paragrafi.
INDICE
Parte I – Creare valore dai dati tradizionali e dai big data
Capitolo 1 Dati: un patrimonio importante
Introduzione
1.2 I dati aziendali
1.2.1 Le fonti
1.2.2 Tipi di supporto
1.2.3 I tipi di struttura
1.2.4 La provenienza
1.3 Attori aziendali e dati
1.3.1 I manager
1.3.2 Il personale esecutivo
1.3.3 I data scientist
Capitolo 2 Big data
2.1 Introduzione
2.2 Definizione di big data
2.3 Tipologie di big data
2.4 Tecnologie big data in breve
2.4.1 Acquisizione
2.4.2 Immagazzinamento e organizzazione
2.4.3 Trasformazione e analisi
2.4.4 Non solo Hadoop!
2.4.5 Servizi Cloud
2.5 Casi interessanti
2.5.1 Il settore banking
2.5.2 Industry 4.0
2.5.3 IOT – Internet of Things
2.5.4 Le smart city
2.6 L’architettura “data lake”
Capitolo 3 Le tecniche di analisi: come estrarre valore dai dati
3.1 L’analisi dei dati e la data monetization
3.2 Analisi descrittiva (o descriptive analytics)
3.3 Analisi predittiva (predictive analytics)
3.4 Analisi prescrittiva (o prescriptive analytics)
3.5 Applicazioni della predictive (e prescriptive) analytics
3.5.1 CRM
3.5.2 Ricerca di anomalie
3.5.3 Marketing
3.5.4 Altri utilizzi
Parte II – Hadoop
Capitolo 4 Hadoop: piattaforma e motori di calcolo
4.1 Introduzione
4.2 Hadoop
4.3 L’ecosistema Hadoop
4.4 HDFS
4.5 MapReduce
4.6 YARN
4.7 Altre componenti
4.8 Hadoop 3.x
Capitolo 5 Hadoop: basi di dati
5.1 Introduzione
5.2 Hive
5.3 HCatalog
5.4 Apache Accumulo
5.5 HBase
5.6 Apache Phoenix
5.7 Apache Kylin: OLAP su hadoop
Capitolo 6 Gli strumenti per la “data ingestion”
6.1 La data ingestion
6.2 Strumenti ETL tradizionali e funzionalità per i big data
6.3 Sqoop
6.4 Flume
6.5 Storm
6.6 Kafka
6.7 Oozie
6.8 Nifi
Parte III – Tecnologie per l’analisi dei dati
Capitolo 7 Elaborazione e analisi dei dati con Pig
7.1 Introduzione
7.2 Le caratteristiche principali di Pig
7.3 Introduzione al linguaggio Pig Latin
7.4 Funzioni di caricamento e salvataggio
7.5 Comandi e funzioni per l’elaborazione dei dati
7.6 User Defined Functions
7.7 Ottimizzazioni
7.8 Conclusioni
Capitolo 8 SQL per l’analisi dei dati strutturati
8.1 Introduzione
8.2 SQL per la preparazione e l’analisi dei dataset
8.3 Hive
8.4 IMPALA
8.5 U-SQL
8.6 Apache Drill
Capitolo 9 Spark
9.1 Introduzione a Spark
9.2 Spark Unified Stack: le componenti integrate di Spark
9.3 Architettura
9.4 Scrivere ed eseguire codice Spark
9.5 Breve introduzione al linguaggio Scala
9.6 RDD: Resilient Distributed Dataset
9.7 Operazioni comuni sugli RDD
9.8 Spark SQL, Dataframe e Dataset
9.9 Operazioni comuni su Dataset e DataFrame
9.10 Monitoring
9.11 Spark machine learning (MLib e ML)
9.12 Streaming
9.13 GraphX
Capitolo 10 R e l’analisi dei dati
10.1 Introduzione a R
10.2 Strumenti di sviluppo e help on-line
10.3 I package
10.4 Strutture dati di base
10.5 I dataframe
10.6 Funzioni built-in
10.7 Funzioni custom
10.8 Espressioni condizionali e cicli
10.9 Le funzioni apply
10.10 Grafici
10.11 Creazione di script
10.12 R e i grandi dataset
10.13 Conclusioni
Parte IV – La Predictive Analytics
Capitolo 11 Metodologia per la predictive e prescriptive analytics
11.1 Introduzione
11.2 CRISP-DM e una proposta metodologica
11.3 Le fasi della metodologia
11.4 Conclusioni
Capitolo 12 Preparazione dei dati
12.1 Introduzione
12.2 Le variabili
12.3 Esplorazione dei dati
12.4 Operazioni sulle variabili
12.5 Creazione di variabili
12.6 Trasformazioni dei valori
12.7 Codifica di variabili categoriche
12.8 Selezione delle variabili
12.9 Trattamento dei valori mancanti
12.10 Gli outliers
12.11 Classi sbilanciate
12.12 Campionamento
12.13 Errori comuni nella preparazione dei dati
Capitolo 13 Gli algoritmi
13.1 Introduzione
13.2 Problematiche comuni
13.3 Algoritmi di classificazione
13.4 Algoritmi di regressione
13.5 Algoritmi semi supervisionati
13.6 Algoritmi di associazione (cenni)
13.7 Algoritmi di clustering
13.8 Reti neurali
13.9 Deep learning
13.10 Model ensembles
Capitolo 14 La valutazione dei modelli
14.1 Il test e la valutazione dei modelli
14.2 Valutazione dei modelli di classificazione
14.3 Valutazione dei modelli di regressione
14.4 Valutazione dei modelli di clustering
14.5 Conclusioni
Bibliografia
Leave A Comment