Llama 4
L'open-weight di Meta con architettura a esperti (MoE)
Cos'è
La famiglia open-weight di Meta, la prima a usare l'architettura Mixture-of-Experts (MoE) ed è l'ecosistema open più diffuso al mondo. Llama 4 Scout ha la finestra di contesto più ampia tra gli open (fino a 10M token); Llama 4 Maverick batte i modelli flagship precedenti su coding, ragionamento e immagini. Lo scarichi e lo fai girare in locale senza inviare dati a nessuno, oppure su Groq/Together.ai per inferenza cloud ultra-veloce.
Come si usa, passo per passo
- 1
Per usarlo localmente installa Ollama da ollama.com (Windows, Mac, Linux).
- 2
Da terminale esegui: ollama run llama4 — al primo avvio scarica il modello, poi parli con lui offline.
- 3
I modelli MoE grandi vogliono un PC potente (GPU con molta VRAM); su macchine normali usa le varianti più piccole.
- 4
Per inferenza cloud velocissima senza hardware, crea un account su Groq (groq.com) o Together.ai e usa la loro API.
- 5
Collega Llama a strumenti come Aider o LangChain puntando all'endpoint locale di Ollama.
💡Consigli pratici
- →In locale i tuoi dati non escono mai dal PC: perfetto per documenti riservati.
- →Scout regge contesti enormi (fino a 10M token): ideale per analizzare interi archivi.
- →Groq è impressionante per la velocità: risposte quasi istantanee.
💰Prezzo
Il modello è gratuito (pesi aperti). In locale costo zero; su Groq/Together paghi solo l'inferenza cloud.
Il sito ufficiale si apre in una nuova scheda.