Kosmos-2 potrebbe essere rivoluzionario per Embodiment AI.
- Una nuova ricerca finanziata da Microsoft approfondisce la fisicità dell'IA.
- Il modello linguistico, Kosmos-2, è stato addestrato a percepire concetti spaziali.
- Inoltre viene fornito con la propria conoscenza dello spazio.
Microsoft ha stanziato molto budget per finanziare la ricerca sull'IA ultimamente. Orca 13B è open source al pubblico dopo che un team di ricercatori riunito e finanziato da Microsoft lo ha costruito.
LongMem è la speranza di Microsoft per una lunghezza illimitata del contesto nei modelli di intelligenza artificiale. Ed è anche un prodotto della ricerca finanziata dal colosso tecnologico di Redmond.
Phi-1, un nuovo modello linguistico per la codifica, è in grado di apprendere e sviluppare la conoscenza da solo. Microsoft ha finanziato la ricerca per questo.
E sembra che Embodiment AI sia la prossima ricerca nello sviluppo dell'IA. Ma Microsoft potrebbe avere la risposta con un'altra ricerca sull'intelligenza artificiale. Questa volta si tratta
Cosmo-2, un nuovo modello di intelligenza artificiale che getta le basi per Embodiment AI.Kosmos-2 di Microsoft è il prototipo di Embodiment AI
Forse questa è la prima volta che senti parlare di Embodiment AI. Ebbene, il nome è di per sé piuttosto suggestivo. Quindi cos'è l'Incarnazione AI, potresti chiedere?
Incarnazione AI è un campo dell'intelligenza artificiale che si concentra sullo sviluppo di agenti intelligenti che hanno un corpo fisico e possono interagire con il mondo in modo significativo.
Il concetto si basa sull'idea che il corpo fisico svolge un ruolo significativo nel modo in cui un agente apprende e prende decisioni.
In altre parole, se l'IA avesse un corpo e si muovesse, allora potrebbe imparare da questo e rispondere e formare risposte, oltre che interagire di conseguenza. E se pensi che entriamo nel territorio della fantascienza, mantieni la posizione. L'intelligenza artificiale doveva sempre diventare fisica.
Secondo la ricerca, Kosmos-2 è un modello linguistico che consente nuove capacità di percepire descrizioni di oggetti (ad esempio, riquadri di delimitazione) e di radicare il testo nel mondo visivo. I ricercatori hanno rappresentato le espressioni di riferimento come collegamenti in Markdown, ovvero "estensione di testo", in cui le descrizioni degli oggetti sono sequenze di token di posizione.
Insieme ai corpora multimodali, hanno costruito dati su larga scala di coppie immagine-testo (chiamate GrIT) per addestrare il modello. Oltre a integrare le funzionalità esistenti dei MLLM in Kosmos-2, il modello integra anche la capacità di messa a terra nelle applicazioni.
Ciò significa che il linguaggio ha compiuto passi avanti nella percezione dello spazio e nella creazione di una propria percezione, azione e modellazione del mondo. I ricercatori pensano in questo modo che Kosmos-2 sia la base per un'intelligenza artificiale fisica. Puoi leggere la ricerca Qui.
Cosa ne pensi di Microsoft Kosmos 2? Sarebbe bello se l'IA avesse una forma fisica o no? Fateci sapere nella sezione commenti qui sotto.