Pochi giorni fa annunciavo l'avvento di DeepSeek il nuovo LLM made in China Open Source che nella giornata di ieri ha provocato un vero e proprio disastro in borsa per i concorrenti americani.
Ora DeepSeek annuncia il lancio di Janus Pro 7B, un modello che non solo comprende i contenuti delle immagini, ma è anche in grado di generarle.
Janus Pro 7B è un modello AI multimodale, cioè che non si limita solo all'elaborazione di testo o immagini, ma fa entrambe le cose.
Questo modello non solo interpreta le immagini, ma può anche generarne di nuove da una descrizione testuale. Ad esempio, potresti scrivere "un gatto in skateboard al tramonto" (molto meglio se lo scrivi in inglese) e te lo disegnerà. Per ora con una risoluzione di 384×384 pixel, qualcosa di più limitato se lo confrontiamo con strumenti come Midjourney o DALL-E , che puntano più in alto in termini di qualità visiva.
Fino ad ora, i modelli multimodali dovevano essere suddivisi tra comprendere e generare, sacrificando l’efficienza lungo il percorso. Janus Pro ha risolto questo dilemma con quella che chiamano architettura “dual-track”. Fondamentalmente separano i processi di comprensione e creazione delle immagini in modo che non interferiscano tra loro, ma mantengano un unico sistema che organizza tutto: un trasformatore unificato.
Janus Pro 7B è open source, il che significa che chiunque può utilizzarlo, modificarlo e adattarlo alle proprie esigenze. La sua licenza MIT è una delle più permissive, ma attenzione: ha anche una licenza specifica DeepSeek che impone alcune restrizioni etiche, come vietarne l'uso militare o per la creazione di disinformazione.
Se stai cercando immagini ad altissima risoluzione o una grafica strepitosa per i giochi, questo non è il modello che fa per te. Ma se apprezzi la velocità e la versatilità in un piccolo pacchetto, Janus Pro è un'opzione molto interessante.
Per ora potete utilizzare questo modello all'interno di Hugging Face. Nella parte superiore trovate il modello per richiedere informazioni da immagini caricate, sotto il generatore di immagini.
Nell'esempio sopra ho inserito questo prompt: "8K quality photo style a scientific laboratory with the city of Paris in the background"