28 maggio, giovedì - pomeriggio

  • Cod. ws.108
  • 28/05/2015
  • 14:00 - 15:30
  • Padiglione 40A
  • Stand ISTAT

Big Data

La sessione prevede un intervento generale, sullo stato attuale e sulle prospettive di utilizzo dei Big Data in Istat, e due interventi specifici relativi a due tipologie di fonti Big, Internet as a Data Source e Social media.
Il primo intervento descrive la roadmap per l’utlizzo dei Big Data in Istat, con le azioni che l’Istat intraprenderà sul breve (dicembre 2016) e medio termine (dicembre 2020).
Il secondo intervento si focalizza sulle sfide metodologiche e tecnologiche relative all’uso di Internet as a Data Source. In particolare: uso di Web scrapers per l’accesso ai dati Web, memorizzazione e accesso a dati poco strutturati, tecniche di text processing e tecniche di classificazione supervisionata.
Infine, il terzo intervento illustra come le tradizionali statistiche mensili sul clima di fiducia dei consumatori, che datano dal 1985, potrebbero nei prossimi anni giovarsi delle tecniche di sentiment analysis applicate ai social media. Dall’Accademia dove sono nate, queste tecniche potrebbero presto entrare nella produzione corrente della Statistica ufficiale con il duplice fine di rendere più tempestivi gli indicatori prodotti e di raggiungere fasce di opinione pubblica sempre meno raggiungibili con le tradizionali tecniche d’indagine.

Programma

  • L'utilizzo dei Big Data in Istat: stato attuale e prospettive

    L’intervento mira ad illustrare le attività attualmente portate avanti all’interno dell’Istat, riguardanti:
    o la prosecuzione di sperimentazioni dell’uso di fonti di Big Data a fini statistici in fase avanzata: on-line search data, Internet data e mobile phone data, per una messa in produzione nei prossimi 12-18 mesi, relativamente a domini statistici quali (i) l’indagine sulle Forze Lavoro (on-line search data), (ii) l’indagine sull’uso dell’ICT da parte di imprese ed istituzioni (Internet data), (iii) l’indagine sui  Prezzi al consumo (Internet data e scanner data), (iv) Statistiche sulla mobilità e turismo (mobile phone data);
    o l’avvio di sperimentazioni con altre fonti Big Data, in particolare Social Network, Immagini (sia da sensori come le webcam che satellitari). I domini potenziali di produzione sono: statistiche sociali (ad esempio indice di fiducia dei consumatori - per i dati da Social Network) e statistiche sul traffico e sull’agricoltura (per le Immagini);
    o La predisposizione di un Laboratorio Informatico interno, per “tuning” e analisi di applicazioni, e, in aggiunta, l’avvio di test di utilizzo di data center esterni all’Istat per elaborazioni su scala molto ampia;
    o l’investimento in formazione su nuovi skill (riconducibili al filone della data science), sia mediante formazione interna sia mediante collaborazioni accademiche;
    o la gestione delle problematiche connesse al trattamento ed alla privacy dei dati di fonte Big, mediante accordi specifici con il Garante per la Privacy;
    o la gestione di accordi con Provider di dati Big per la fornitura secondo modelli di business da definire.

  • Internet as a Data Source: scenari di uso di dati raccolti da internet per la produzione statistica

    Tra le varie sorgenti di Big data, la fonte Internet è sicuramente tra le più accessibili e promettenti. In particolare, Internet As a Data source (IaD) sta sempre più emergendo come un paradigma che consente di complementare e/o sostituire le fonti tradizionali della Statistica Ufficiale, quali indagini e fonti amministrative.
    In questo seminario, illustreremo alcuni esempi di possibili utilizzi di IaD a supporto della Statistica Ufficiale.
    Inoltre, forniremo una panoramica delle sfide tecnologiche e metodologiche derivanti dall’utilizzo di tale fonte.
    Come running example, illustreremo un progetto sperimentale condotto sotto la supervisione della Commissione Istat su Big Data, relativo all’uso di IaD nell’ambito dell’ ”Indagine sull’uso dell’ICT da parte delle Imprese”. In particolare, descriveremo:
    • Sfide nell’utilizzo di Web scrapers per l’accesso ai dati Web.
    • Problematiche di memorizzazione e accesso a dati poco strutturati.
    • Tecniche di text processing.
    • Tecniche di classificazione supervisionata.

  • Uso dei social media per lo studio del sentiment nella statistica ufficiale

    Attraverso adeguate metodologie di analisi testuale, Internet e i Social media permettono di cogliere in tempo reale e in modo non sollecitato quello che gli utenti pensano su un certo fenomeno o argomento. Lo studio dell’intensità (positiva/negativa) del sentiment espresso nei Social media permette di avere risultati relativi a sotto popolazioni molto vaste e di creare indicatori quasi continui del sentiment del paese. Dall’Accademia dove sono nati, questi studi potrebbero presto entrare nella produzione corrente della Statistica ufficiale con il duplice fine di rendere più tempestivi gli indicatori prodotti e di raggiungere fasce di opinione pubblica sempre meno raggiungibili con le tradizionali tecniche d’indagine.
    Proprio le tradizionali statistiche mensili sul clima di fiducia dei consumatori, che datano dal 1985, potrebbero nei prossimi anni giovarsi del contributo informativo delle opinioni espresse dagli internauti Nel caso della fiducia una fruttuosa sperimentazione dell’uso dei big data è stata realizzata da Statistics Netherlands e dall’ONS britannico raccogliendo dati per tre anni e mezzo hanno mostrato che i trend nella fiducia dei consumatori catturata dai Social media presentano un alto livello di correlazione con quelli del tradizionale indicatore mensile di fiducia.

  • Dibattito