Tutte le ultime dal mondo dell'AI

Negli ultimi mesi nel mondo dell'AI non ha visto grandi sconvolgimenti ma tante piccole novità che messe insieme danno un' aumento qualitativo non da poco.

ago 03, 2024

Negli ultimi mesi o settimane vi siete persi qualcosa? Pronti per un aggiornamento? Partiamo!

GPT-4o e GPT-4o mini: L'AI è sempre più Multimodale ed economica

GPT-4o mini: advancing cost-efficient intelligence | OpenAI

OpenAI aveva lanciato in primavera GPT-4o, una versione evoluta di GPT-4. La novità più intrigante era la sua capacità multimodale: può analizzare testo, audio, video e immagini simultaneamente. E la ciliegina sulla torta? L'accesso gratuito alle funzioni che erano prima a pagamento.

Il 19 luglio, OpenAI ha lanciato GPT-4o mini, un modello di intelligenza artificiale che promette di essere una vera rivoluzione. Non solo è più piccolo e capace, ma anche molto più economico, una manna per gli sviluppatori.

Intelligenza Superiore a Prezzo Ridotto

GPT-4o mini è significativamente più intelligente di GPT-3.5 Turbo, con un punteggio dell'82% su MMLU rispetto al 70%. Ma la vera forza di questo modello sta nel costo: è più economico del 60%. Il prezzo? Solo 15 centesimi per 1 milione di token di input e 60 centesimi per 1 milione di token di output. In pratica, stiamo parlando di circa 2.500 pagine di un libro standard, a un prezzo incredibilmente conveniente.

Non è stato fornito nessun testo alternativo per questa immagine

Una Mossa Strategica

Secondo OpenAI, GPT-4o mini amplierà notevolmente la gamma di applicazioni realizzate con l'intelligenza artificiale, rendendola molto più accessibile. Questo potrebbe essere un segnale che Sam Altman sta sentendo la pressione dei sistemi open source, come LLama di Meta, che sono sicuri, meno performanti ma più controllati. Offrire modelli di AI a basso costo è un modo per stimolare l'innovazione e la creatività.

Funzionalità e Disponibilità

Al momento del lancio, GPT-4o mini supporta testo e visione nell'API. Guardando al futuro, si prevede che avrà un supporto multimodale completo, includendo input e output di testo, immagini, video e audio. Ora è disponibile come modello di testo e visione nell'API Assistants, nell'API Completamenti chat e nell'API Batch. OpenAI ha in programma di ottimizzare ulteriormente GPT-4o mini nei prossimi giorni.

Accesso per Tutti

Gli utenti di ChatGPT nelle versioni Free, Plus e Team possono già accedere a GPT-4o mini, sostituendo GPT-3.5 Turbo. Per gli utenti Enterprise, l'accesso sarà disponibile dalla prossima settimana.

Insomma, OpenAI continua a spingere i confini dell'innovazione, rendendo l'intelligenza artificiale più accessibile e potente per tutti. Buon divertimento con GPT-4o mini!

La Rivoluzione Video di Runway, Luma Labs e Move AI

Nel campo dei modelli generativi video in attesa di testare Sora di Open AI, Runway e Luma Labs continuano a fare passi da gigante. Il modello di Runway Gen-3 ha migliorato drasticamente la qualità dei video generati, avvicinandosi a standard quasi cinematografici. La Dream Machine di Luma Labs non è da meno, anzi consigliatissima se volete dare vita ad immagini generate magari con Midjourney.

MoveAI fa qualcosa di ancora più incredibile crea CGI in tempo reale con un solo telefono.

Si spalancano nuove frontiere per l'industria dell'intrattenimento e non solo.

Claude 3.5 Sonnet: Il Nuovo Contendente

Anthropic, la startup di San Francisco che punta a raggiungere un fatturato di oltre 850 milioni di dollari nel 2024, ha alzato il tiro con la nuova release 3.5 di Sonnet. Questo nuovo modello linguistico di grandi dimensioni (LLM) promette di superare i risultati ottenuti da modelli concorrenti, e persino quelli del suo modello di punta, Claude 3 Opus.

Claude 3.5 Sonnet: Prestazioni da Record

Nei test interni, Claude 3.5 Sonnet ha superato GPT-4o, Gemini 1.5 Pro e Llama 3 400B di Meta in sette benchmark su nove e in quattro benchmark visivi su cinque. Questo mostra miglioramenti significativi nella scrittura e traduzione del codice, gestione di flussi di lavoro complessi, interpretazione di diagrammi e grafici, e trascrizione del testo dalle immagini. Claude 3.5 si distingue anche per la sua capacità di cogliere sfumature, umorismo e istruzioni complesse, offrendo contenuti di alta qualità con un tono "naturale e relazionabile".

E non è finita qui oltre a produrre contenuti testuali Sonnet promette meraviglie anche nella generazione software:

Midjourney 6.1: Sempre più realistico

La nuova versione di Midjourney, la 6.1, porta con sé una serie di miglioramenti che faranno felici tutti gli appassionati di generazione di immagini. Primo fra tutti, i nuovi upscaler 2x, che non solo migliorano la qualità delle immagini ma lo fanno con una velocità sorprendente, circa il 25% più rapida rispetto a prima.

Midjourney 6.1 è un vero salto di qualità: le immagini generate sono ancora più coerenti e ricche di dettagli. L’azienda ha lavorato sodo per migliorare la precisione del testo all’interno delle immagini, un aspetto che molti utenti troveranno particolarmente utile. Inoltre, c'è una nuova opzione di qualità che permette di aggiungere più texture alle immagini, sebbene richieda un 25% di tempo in più e comporti una leggera riduzione della coerenza complessiva.

E non finisce qui! L'azienda ha già annunciato che la versione 6.2 di Midjourney dovrebbe essere rilasciata il prossimo mese, con ulteriori miglioramenti basati sui feedback degli utenti della versione 6.1. Insomma, stanno ascoltando e agendo di conseguenza. Per chi vuole saperne di più, tutte le informazioni dettagliate su Midjourney 6.1 sono disponibili qui.

Med-Gemini e le Nuove Frontiere dell'AI Medica

Google DeepMind ha introdotto Med-Gemini, un modello progettato specificamente per applicazioni mediche. Questo sviluppo rappresenta un passo importante verso l'implementazione di AI avanzate in settori critici come la sanità, dove precisione e affidabilità sono essenziali, tuttavia non mancano con le opportunità i rischi.

Qui un bell’articolo di Agenda Digitale su cosa promette Med-Gemini

Llama 3 ed il Meta AI Studio

What Is Meta's Llama 3.1 405B? How It Works, Use Cases & More

Llama 3.1, lanciato da Meta, è un modello linguistico open source con 405 miliardi di parametri, addestrato con oltre 16.000 GPU H100 di Nvidia. È in grado di generare testo, tradurre in otto lingue (incluso l'italiano), scrivere codice, risolvere problemi matematici e comprendere informazioni generali. Disponibile in tre versioni (405B, 70B e 8B), Llama 3.1 è stato presentato con una lettera di Mark Zuckerberg sul blog ufficiale di Meta.

Addestramento e Utilizzo

Llama 3.1 è stato addestrato su oltre 15 trilioni di token, utilizzando un'ottimizzazione avanzata su oltre 16.000 GPU H100. Il modello è gratuito fino a quando l'utilizzo non supera i 700 milioni di utenti attivi mensili. È disponibile pubblicamente per ricercatori e sviluppatori in tutto il mondo per costruire applicazioni AI, ma anche come motore di Meta AI, l'assistente integrato nelle app di Meta.

Limitazioni Geografiche

Attualmente, Meta AI e Llama 3.1 sono disponibili solo negli Stati Uniti e non saranno accessibili in Italia e nell'Unione Europea, nonostante il supporto per la lingua italiana. Zuckerberg ha dimostrato in diretta su Instagram la creazione di immagini a partire da descrizioni di testo, mostrando una delle potenzialità del modello. Llama 3.1 è destinato a essere integrato in Facebook, Instagram, WhatsApp, e nei visori Quest e Meta Ray-Ban, ma solo per il mercato statunitense.

Avatar Virtuali su Instagram

AI Studio, così Zuckerberg vuole farci creare una replica di noi stessi su Instagram

Grazie al nuovissimo Llama 3.1, Meta rivoluziona Instagram permettendo agli utenti di creare avatar virtuali personalizzati, per ora solo negli Stati Uniti.

AI Studio: La Visione di Zuckerberg per Instagram

Con AI Studio, Meta introduce avatar digitali capaci di rispondere ai DM e ai commenti nelle Storie. Disponibile per gli account Business negli USA, questa funzione si espanderà presto globalmente.

Personalizzazione Totale

Gli utenti possono creare il proprio avatar visitando ai.meta.com/ai-studio/ o selezionando "AI chats". Ogni aspetto, dal nome alla personalità, può essere personalizzato. Tuttavia, è vietato rappresentare persone reali, personaggi storici o qualsiasi cosa che inciti all'odio o sia illegale.

Meta continua a spingere i confini dell'innovazione con Llama 3.1 e AI Studio, portando nuovi modi di esprimersi e interagire nel mondo digitale. Preparatevi a vedere tanti nuovi avatar sui vostri feed!

Cosa aspettarci nei prossimi mesi

Il 2024 si prospetta come un anno di consolidamento e innovazione per l'AI. Oltre alla crescita delle capacità multimodali, vedremo un aumento della regolamentazione e una maggiore attenzione alla compliance, soprattutto con iniziative come l'EU AI Act e le audizioni del Senato USA. Questo contesto regolamentare potrebbe rimodellare il panorama dell'AI, spingendo verso un utilizzo più responsabile e trasparente della tecnologia.

Inoltre, la carenza di GPU e i costi del cloud stanno spingendo le aziende a sviluppare modelli più piccoli e efficienti. Tecniche come la quantizzazione e l'adattamento a basso rango stanno diventando fondamentali per ottimizzare le prestazioni senza compromettere l'accessibilità.

Tool AI da provare

Dalle varie piattaforme di scoperta di nuovi strumenti AI, ecco alcuni tool che hanno attirato la mia attenzione questa settimana, il primo in particolar modo:

Altre Notizie da non perdere

Prompt da provare

Un prompt perfetto per le Olimpiadi

[gender/sport/description], dynamic action painting, with [color1 and color2 tones], energetic brushwork, movement showing speed, lines showing motion, blur, a full body shot, an intense facial expression, a blurred background with splashes, high contrast lighting, an energy-filled illustration, graphic design elements

Bellissimo prompt di Pierrick Chevallier

AI Meme

Non si è perso tempo ad ironizzare sulle condizioni della Senna durante queste Olimpiadi, l’AI è venuta in aiuto.

Alla prossima, e ricordate: restate curiosi e innovativi!

Al prossimo numero, nel frattempo scopri cosa puoi fare:

Ci sentiamo presto la newsletter ha cadenza settimanale, nel frattempo puoi:

🌐 Entrare in Beyond: il gruppo Telegram dedicato alla Digital Innovation
📲 Iscriverti al mio canale Telegram dove condivido articoli, link e tool utili
🤝Aggiungermi su Linkedin se non siamo in contatto
📁 Scaricare i miei kit da Gumroad
📞 Fissare una call online per una consulenza
📰 Dare una letta al mio blog
📑 Leggere i miei articoli in inglese su Medium
📌 Scoprire tutti i miei altri link