BigQuery: cos'è, come funziona e a cosa serve la piattaforma di Google - Borsa&Finanza
Cerca
Close this search box.

BigQuery: cos’è, come funziona e a cosa serve la piattaforma di Google

Un utente al lavoro su Google Analytics

L’intelligenza artificiale messa al servizio delle grandi aziende che hanno la necessità di analizzare miliardi di dati: pensando a questo bisogno Google ha lanciato BigQuery, la piattaforma di big data analytics basata su cloud. Questo strumento innovativo è nato proprio per far acquisire, elaborare ed esaminare i dati in modo completo e accurato: una strategia che al giorno d’oggi può fare davvero la differenza per ottimizzare le performance, coinvolgere i clienti e compiere scelte decisive nei processi decisionali.

 

BigQuery: cos’è e a cosa serve il servizio di Google

Presentato nella sua prima versione nell’ormai lontano 2010 e aggiornato di continuo grazie ai progressi nel campo dell’IA, BigQuery è il data warehouse su cloud di Google che consente l’analisi scalabile su una mole di dati. Il platform as a service (PaaS) gestisce tutti i dati su un’interfaccia unica, semplificando e velocizzando ogni fase del lavoro dall’inserimento all’esportazione fino all’analisi. La piattaforma estrae i dati non elaborati degli eventi dalle proprietà Analytics 4 e su questi esegue query ad alte prestazioni simili a SQL.

La sandbox di BigQuery permette di utilizzare la piattaforma gratuitamente: quando si supera il limite giornaliero di un milione di eventi, scatta l’addebito. Secondo una ricerca di Enterprise Strategy Group, nell’arco di tre anni BigQuery fa risparmiare fino al 27% nel costo totale di proprietà rispetto a data warehouse simili. I dati possono essere esportati in un’unità di archiviazione esterna; al tempo stesso BigQuery consente di importare dati esterni per combinarli con quelli di Analytics. I dati esportati rimangono di proprietà dell’utente, ma una volta fatto il passaggio da Analytics a BigQuery non è possibile effettuare nuovamente l’export. L’esportazione completa avviene una volta al giorno.

Ma sul piano pratico, a cose serve BigQuery? Lavorando su larga scala, il PaaS processa enormi quantità di dati complessi in modo semplice e veloce, aiutando l’utente sotto molti aspetti: nella misurazione avanzata, nella massimizzazione della produttività, nella semplificazione del lavoro per sviluppatori, analisti e data scientist. La piattaforma indaga tutti i dati di Analytics, li incrocia con altri dati di marketing e ottiene approfondimenti per individuare le aree rilevanti e migliorabili dell’azienda. Con BigQuery si ottengono analisi predittive utili per generare previsioni della domanda e individuare tempestivamente trend e modelli, opportunità e segmenti di pubblico.

 

Come funziona BigQuery di Google

La piattaforma messa a punto dagli specialisti di Google è strutturata in tabelle (standard, cloni, snapshot e viste materializzate), righe e colonne. L’archiviazione, separata dal calcolo, è ottimizzata per l’esecuzione di query analitiche. Quando si esegue una query, il motore distribuisce il lavoro in parallelo tra più unità che analizzano le tabelle pertinenti, elaborano la risposta e raccolgono i risultati. Il caricamento dei dati tabella avviene in batch, in streaming (con flussi di dati più piccoli) e con i dati generati.

Oltre al linguaggio SQL, BigQuery analizza i dati utilizzando l’analisi geospaziale, il machine learning (BigQuery ML) e la business intelligence (BigQuery BI Engine). Quando si lancia una query, BigQuery genera una struttura ad albero di esecuzione che suddivide la query in più fasi. Le fasi comunicano tra loro utilizzando un livello di shuffling veloce e distribuito per far circolare rapidamente i dati nei nodi worker. Dopo aver generato un piano operativo di query, la piattaforma indirizza e monitora l’avanzamento del lavoro, scrive i risultati in un’archiviazione permanente e li restituisce all’utente. Più query possono essere eseguite in parallelo: raramente è necessario metterle in coda.

Una volta completata la query, la visualizzazione è disponibile sul cloud. Il piano include dettagli sulle fasi e sui passaggi di query. L’analisi si completa con l’integrazione in BigQuery di vari strumenti come Looker (il software di business intelligence per esplorare, condividere e visualizzare i dati), Looker Studio (la piattaforma che trasforma i dati in dashboard e report informativi) e fogli di lavoro di Google Sheets archiviati su Drive. Le attività di amministrazione sono centralizzate e la sicurezza è garantita dal sistema IAM, Identity and Access Management.

BigQuery offre diverse interfacce che è possibile utilizzare per le attività di amministrazione: gli strumenti sono numerosi e variabili a seconda delle specifiche esigenze. Per gestire le risorse dell’organizzazione si può ricorrere a cartelle, progetti, set di dati e tabelle, ai quali aggiungere etichette con un determinato valore. Ogni risorsa ha metadati per permettere il recupero facile e immediato.

Le attività di importazione, esecuzione di query ed esportazione di dati sono eseguite da un job, ovvero un’azione che BigQuery esegue per conto dell’utente al fine di caricare, eseguire query, esportare o copiare dati. Il job viene attivato usando la console Google Cloud, lo strumento a riga di comando bq, un’istruzione SQL o una chiamata API. Le unità di calcolo per l’esecuzione delle query, invece, si chiamano slot e servono a stimare la quota necessaria (e quindi il prezzo finale) per eseguire ogni query.

 

Quanto costa BigQuery

Essendo una piattaforma di analisi dei dati serverless, BigQuery ha un livello di utilizzo gratuito per gli utenti di Google Analytics 4, mentre il livello avanzato ha prezzi che variano in base alle capacità e alla durata dell’impegno. Il costo è determinato da due componenti: il costo del computing (l’elaborazione delle query: SQL, funzioni definite dall’utente, script e istruzioni DML e DDL) e i prezzi dell’archiviazione dei dati cariati in BigQuery. Tra le altre operazioni addebitate ci sono l’utilizzo di Omni, ML, BI Engine e le letture e le scritture di flussi.

I modelli di determinazione dei prezzi per l’esecuzione delle query sono due: on demand (per TiB: a seconda del numero di byte elaborati da ogni query, con il primo mese gratuito) e sulla capacità, con addebito della capacità di calcolo utilizzata per slot (CPU virtuali) ogni ora per un determinato periodo di tempo da uno a tre anni. In Italia il costo on demand è di 7.81 dollari per TiB; il costo sulla capacità è di 0.052 dollari per slot/ora nella versione standard, con aumenti progressivi nelle versioni Enterprise e Enterprise Plus.

Quanto all’archiviazione dei dati caricati in BigQuery, i costi sono di archiviazione attiva (per qualsiasi tabella o porzione di tabella modificata negli ultimi 90 giorni) e di archiviazione a lungo termine, con i primi 10 GiB di spazio gratuiti ogni mese. Si va da 0.022 a 0.02 dollari per GiB al mese, in base al piano scelto. I prezzi di archiviazione si basano sulla quantità di dati archiviati nelle tabelle e sono ripartiti in proporzione per MB al secondo.

AUTORE

Picture of Alessandro Zoppo

Alessandro Zoppo

Ascolta musica e guarda cinema da quando aveva 6 anni. Orgogliosamente sannita ma romano d'adozione, Alessandro scrive per siti web e riviste occupandosi di cultura, economia, finanza, politica e sport. Impegnato anche in festival e rassegne di cinema, Alessandro è tra gli autori di Borsa&Finanza da aprile 2022 dove si occupa prevalentemente di temi legati alla finanza personale, al Fintech e alla tecnologia.

ARTICOLI CORRELATI

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *