Llama 4

L'open-weight di Meta con architettura a esperti (MoE)

Cos'è

La famiglia open-weight di Meta, la prima a usare l'architettura Mixture-of-Experts (MoE) ed è l'ecosistema open più diffuso al mondo. Llama 4 Scout ha la finestra di contesto più ampia tra gli open (fino a 10M token); Llama 4 Maverick batte i modelli flagship precedenti su coding, ragionamento e immagini. Lo scarichi e lo fai girare in locale senza inviare dati a nessuno, oppure su Groq/Together.ai per inferenza cloud ultra-veloce.

Come si usa, passo per passo

1
Per usarlo localmente installa Ollama da ollama.com (Windows, Mac, Linux).
2
Da terminale esegui: ollama run llama4 — al primo avvio scarica il modello, poi parli con lui offline.
3
I modelli MoE grandi vogliono un PC potente (GPU con molta VRAM); su macchine normali usa le varianti più piccole.
4
Per inferenza cloud velocissima senza hardware, crea un account su Groq (groq.com) o Together.ai e usa la loro API.
5
Collega Llama a strumenti come Aider o LangChain puntando all'endpoint locale di Ollama.

💡Consigli pratici

→In locale i tuoi dati non escono mai dal PC: perfetto per documenti riservati.
→Scout regge contesti enormi (fino a 10M token): ideale per analizzare interi archivi.
→Groq è impressionante per la velocità: risposte quasi istantanee.

💰Prezzo

Il modello è gratuito (pesi aperti). In locale costo zero; su Groq/Together paghi solo l'inferenza cloud.

Vai a Llama 4

Il sito ufficiale si apre in una nuova scheda.