Oracle MySQL mette il Machine Learning nel motore del database, con HeatWave ML

Oracle ha annunciato che Oracle MySQL HeatWave è da oggi l’unico servizio di database cloud MySQL che supporta il machine learning all’interno del database, in aggiunta all’elaborazione delle transazioni e alle funzioni analitiche precedentemente disponibili.

MySQL HeatWave ML automatizza completamente il ciclo di vita dell’apprendimento automatico e memorizza tutti i modelli addestrati all’interno del database MySQL, eliminando la necessità di spostare i dati o il modello in uno strumento o in un servizio ad hoc. L’eliminazione di ETL riduce la complessità delle applicazioni, diminuisce i costi e migliora la sicurezza dei dati e del modello. HeatWave ML è incluso nel servizio cloud database MySQL HeatWave, in tutte le 37 region Oracle Cloud Infrastructure (OCI).

Fino ad oggi, aggiungere funzionalità di machine learning alle applicazioni MySQL era estremamente complicato e dispendioso in termini di tempo.

In primo luogo, era necessario estrarre i dati dal database per poi passarli in un altro sistema in cui creare e distribuire modelli di apprendimento automatico.  Questo approccio crea numerosi silos di dati che ostacolano l’applicazione dell’apprendimento automatico ai dati e crea latenza, dovuta alla necessità di spostare i dati.  Inoltre, agire in questo modo porta a diffondere i dati al di fuori del database, rendendoli più vulnerabili alle minacce alla sicurezza, e rende più complesso per gli sviluppatori programmare in più ambienti.

In secondo luogo, i servizi esistenti richiedono che gli sviluppatori abbiano le competenze necessarie per guidare il processo  di addestramento del modello di machine learning; se non le hanno,  il modello resta non ottimizzato, il che riduce l’accuratezza delle previsioni. Infine, la maggior parte delle soluzioni per l’apprendimento automatico esistenti non include funzionalità che offrano spiegazioni sul motivo per cui un modello fornisce una previsione specifica.

MySQL HeatWave ML risolve questi problemi integrando in modo nativo le funzionalità di apprendimento automatico all’interno del database MySQL, eliminando la necessità di ETL dei dati in un altro servizio. HeatWave ML automatizza completamente il processo di addestramento e crea un modello con l’algoritmo migliore, le funzioni ottimali e gli iperparametri ottimali per un determinato set di dati e un’attività specifica. Tutti i modelli generati da HeatWave ML possono fornire spiegazioni sul modello e sulle previsioni.

Nessun altro fornitore di database in cloud fornisce tali funzionalità di machine learning avanzate direttamente all’interno del servizio di database. I benchmark sull’apprendimento automatico pubblicati da Oracle sono eseguiti su una vasta gamma di set di dati di classificazione e regressione dell’apprendimento automatico disponibili al pubblico come Numerai, Namao e Bank Marketing, tra gli altri.


In media, nel cluster più piccolo, HeatWave ML addestra i modelli di machine learning 25 volte più velocemente all’un per cento del costo di Redshift ML. Inoltre, il vantaggio in termini di prestazioni, rispetto a Redshift ML, aumenta quando l’addestramento viene eseguito su un cluster HeatWave di dimensioni maggiori. L’addestramento è un processo dispendioso in termini di tempo: poiché può essere eseguito in modo molto efficiente e rapido con MySQL HeatWave, i clienti ora possono riaddestrare i propri modelli più spesso e tenere il passo con le modifiche ai dati. Ciò consente di mantenere aggiornati i modelli e di migliorare la precisione delle previsioni.

Come abbiamo integrato funzioni analitiche ed elaborazione transazionale all’interno di un singolo database, ora abbiamo introdotto l’apprendimento automatico all’interno di MySQL HeatWave“, ha dichiarato Edward Screven, Chief Corporate Architect di Oracle. “MySQL HeatWave è uno dei servizi cloud in più rapida crescita di Oracle. Un numero crescente di clienti ha eseguito la migrazione da Amazon e da altri servizi di database cloud verso MySQL HeatWave, ottenendo notevoli vantaggi in termini di prestazioni e riduzione dei costi. Oggi stiamo inoltre annunciando una serie di ulteriori innovazioni che arricchiscono le capacità di HeatWave, migliorano la disponibilità e riducono i costi. I nostri risultati di benchmark, nuovi e completamente trasparenti, dimostrano ancora una volta che Snowflake, AWS, Microsoft e Google sono di gran lunga più lenti e costosi di MSQL HeatWave

HeatWave ML, rispetto ad altri servizi di database cloud, offre le funzionalità riportate di seguito.

·       Addestramento completamente automatizzato sui modelli: tutte le diverse fasi della creazione di un modello con HeatWave ML sono completamente automatizzate e non richiedono alcun intervento da parte degli sviluppatori. Ne risulta un modello ottimizzato e più accurato, che non richiede alcuna attività manuale e il cui processo di addestramento viene sempre completato. Altri servizi di database cloud come Amazon Redshift offrono l’integrazione con funzionalità di machine learning in servizi esterni, che richiedono molti input manuali da parte degli sviluppatori durante il processo di addestramento per l’apprendimento automatico.

·       Spiegazioni su modelli e interferenze: la spiegazione del modello consente agli sviluppatori di comprendere il comportamento di un modello. Ad esempio, se una banca nega un prestito a un cliente, la banca deve essere in grado di determinare quali parametri del modello sono stati presi in considerazione o se il modello contiene distorsioni. Esistono una serie di tecniche utili per rispondere alla domanda sul perché un modello di apprendimento automatico ha fatto una previsione specifica, e poter dare spiegazioni sulle previsioni sta diventando sempre più importante per le aziende. HeatWave ML integra sia la spiegazione del modello che le spiegazioni di previsione come parte del processo di addestramento del modello. Di conseguenza, tutti i modelli creati da HeatWave ML possono offrire spiegazioni del modello e delle inferenze senza che occorrano dati sull’addestramento al momento della spiegazione dell’inferenza. Oracle ha perfezionato le tecniche di spiegazione esistenti per migliorare le prestazioni, l’interpretabilità e la qualità. Altri servizi di database in cloud non offrono una spiegazione così dettagliata per tutti i propri modelli di apprendimento automatico.

·       Ottimizzazione degli iperparametri dei modelli: HeatWave ML implementa un nuovo algoritmo di riduzione basato sulla ricerca per l’ottimizzazione degli iperparametri. Ciò consente l’esecuzione parallela della ricerca con parametri ipertestuali senza compromettere l’accuratezza del modello. L’ottimizzazione degli iperparametri è la fase di addestramento del modello di machine learning più dispendiosa in termini di tempo. Questa funzionalità unica fornisce a HeatWave ML un vantaggio significativo sulle prestazioni rispetto ad altri servizi cloud per la creazione di modelli di apprendimento automatico.

·       Selezione dell’algoritmo: HeatWave ML utilizza i modelli proxy, che sono modelli semplici che mostrano le proprietà di un modello completo, per determinare l’algoritmo di machine learning migliore per l’addestramento. Sfruttando un semplice modello proxy, la selezione degli algoritmi viene effettuata in modo molto efficiente senza perdita di accuratezza. Nessun altro servizio di database per la creazione di modelli di apprendimento automatico dispone di questa funzionalità di modellazione proxy.

·       Campionatura intelligente dei dati: durante l’addestramento del modello, HeatWave ML campiona una piccola percentuale di dati per migliorare le prestazioni. Questa campionatura viene eseguita in modo tale che tutti i datapoint rappresentativi vengano acquisiti nel set di dati di esempio. Altri servizi cloud per creare modelli di apprendimento automatico richiedono un approccio meno efficiente, ossia la campionatura casuale dei dati, che prevede la campionatura di una piccola percentuale di dati senza tenere conto delle loro caratteristiche di distribuzione.

·       Selezione delle funzioni: la selezione delle funzioni consente di determinare gli attributi dei dati di addestramento che influenzano il funzionamento del modello di apprendimento automatico durante l’esecuzione delle previsioni. Le tecniche disponibili in HeatWave ML per la selezione delle funzioni sono state addestrate su un ampio numero di set di dati relativi a più domini e applicazioni. Dalle statistiche e meta informazioni raccolte, HeatWave ML è in grado di identificare in modo efficiente le funzioni pertinenti in un nuovo set di dati. 

Oltre alle funzionalità di machine learning, Oracle ha lanciato altre innovazioni nel servizio MySQL HeatWave.

L’elasticità in tempo reale consente ai clienti di eseguire l’upsize e il downsize del cluster HeatWave su qualsiasi numero di nodi, senza tempi di inattività o di sola lettura e senza la necessità di ribilanciare manualmente il cluster. È inclusa anche la compressione dei dati, checonsente ai clienti di elaborare il doppio di dati per nodo e ridurre i costi di quasi il 50%, pur mantenendo lo stesso rapporto tra prezzo e prestazioni. Infine, una nuova funzionalità – “pausa e ripresa”, consente ai clienti di sospendere HeatWave per risparmiare sui costi. Alla ripresa, i dati e le statistiche necessarie per MySQL Autopilot vengono ricaricati automaticamente in HeatWave.

Oracle ha lanciato MySQL HeatWave con Autopilot lo scorso agosto, introducendo probabilmente la più grande innovazione nei database cloud open source degli ultimi 20 anni”, ha dichiarato Carl Olofson, Research Vice President e Data Management Software di IDC. “Ora Oracle con MySQL HeatWave ML è andata oltre l’intento originale di unificare OLTP e OLAP in HeatWave. Oracle sta portando tutta l’elaborazione e i modelli dell’apprendimento automatico all’interno del database, in modo che i clienti non solo evitino di gestire i database dell’apprendimento automatico separatamente dal database principale, ma eliminino anche le difficoltà legate a ETL, guadagnando in velocità, precisione e convenienza“.