Az InstructDiffusion képes megérteni a szemantikai jelentéseket, és ezeket felhasználja a képek szerkesztéséhez.
- Az InstructDiffusion egy olyan mesterséges intelligencia, amely képes múltbeli utasítások felhasználásával a szemantikai jelentések megértésére.
- A modell lenyűgöző általánosítási képességekre is képes.
- Amint megismeri a vizuális jelet, a modell nagymértékben kibővíti azt, hogy még tovább képezze magát.
A Microsoft legújabb AI modellje, Utasítsa a diffúziót, radikálisan átalakítja a képeidet, vagy bármilyen feltölthető képet, az utasításaid szerint. A Microsoft Research Asia által kifejlesztett modell egy olyan interfész, amely egyesíti a mesterséges intelligenciát és az emberi utasításokat különféle vizuális feladatok létrehozásához és végrehajtásához.
Más szóval, kiválaszt egy képet, amelyet szerkeszteni, módosítani vagy átalakítani szeretne, és az InstructDiffusion számítógépes látásmódot hoz létre, hogy a bemeneti adatok alapján módosítsa a képet.
A Microsoft kiadta a papír a modellhez néhány nappal ezelőtt, és az InstructDiffusion már rendelkezik a
demó játszótér, ahol magad is kipróbálhatod a modellt.Az IntructDiffusion legfontosabb újítása, hogy a modellnek nincs szüksége a kép előzetes ismeretére, hanem diffúziós folyamatot használ a pixelek manipulálására. A modell számos hasznos funkcióra képes, mint például a szegmentálás, a kulcspontok felismerése és a visszaállítás. Gyakorlatilag az InstructDiffusion az Ön utasításait fogja használni a kép megváltoztatásához.
Az egyik példában a Microsoft Research Asia el tudta távolítani a vízjelet egy fényképről, egyszerűen utasította a modellt erre.
A Microsoft InstructDiffusion képes megkülönböztetni az utasítások mögött rejlő jelentést
InstructDiffusion, mint sok más Microsoft AI modellek, innovatív magatartásra képes, ha feladatmegoldásról van szó. A Microsoft Research Asia azt állítja, hogy az InstructDiffusion megértési és generatív feladatokat valósít meg.
A modell megértő feladatokat, például szegmentálást és kulcspont-észleléseket használ a szerkeszteni kívánt terület és képpontok megtalálásához.
Például a modell szegmentálást használ a következő utasítások területének sikeres megtalálásához: fesd pirosra a kép jobb oldalán lévő férfit. A kulcspontok észleléséhez egy utasítás a következő lenne: használjon sárgát a kép bal szélén lévő férfi térdének körülzárásához.
A generatív feladatok szerkesztési és helyreállítási feladatokból tevődnek össze. Nem csak az InstructDiffusion fogja szerkeszteni a képet, hanem a modell új elemeket is generál a képhez az Ön utasításai alapján.
A Microsoft InstructDiffusion legígéretesebb tulajdonsága, hogy képes sikeresen általánosítani az összes kapott utasítást, hogy összefüggő és mély megértést alakítson ki a mögöttük rejlő jelentésről. Más szóval, a modell emlékezni fog az Ön által adott utasításokra, és sikeresen felhasználja őket arra, hogy továbbképezze magát.
De a modell azt is megtanulja megkülönböztetni az utasítások mögött rejlő jelentéseket, hogy láthatatlan feladatokat oldjon meg, és új módszereket találjon ki az elemek generálására. Ez a szemantikai jelentések megértésének képessége az InstructDifussiont egy lépéssel előrébb helyezi, mint a többi hasonló modell: felülmúlja azokat.
Azonban az InstructDiffusion is egy lépéssel tovább megy hogy elérje az AGI-t: Azáltal, hogy mélyen megérti az összes utasítás mögött rejlő szemantikai jelentést, és képes sikeresen általánosítani a számítógépes elképzeléseket, a modell nagymértékben előmozdítja az AI fejlesztését.
A Microsoft Research Asia lehetővé teszi, hogy kipróbálja a demó játszótér, de azt is megteheti használja a kódját hogy saját AI-modellt képezzen ki.
Mi a véleményetek erről a modellről? Kipróbálod?