Microsoft kommer säkert att förfina tekniken är det dags att göra den mer mänsklig.
Microsoft tillkännagav lanseringen av Azure text-till-tal-avatar vid den Microsoft Ignite konferens som äger rum i Seattle från 14 till 17 november 2023. Azure-avataren är nu i offentlig förhandsvisning, och Azure-användare överallt kan bygga sin avatar endast med textinmatning.
Vi är glada över att kunna meddela den offentliga förhandsversionen av Azure AI Speech text till tal-avatar, en ny funktion som gör det möjligt för användare att skapa talande avatarvideor med textinmatning, och att bygga interaktiva bots i realtid som tränas med hjälp av mänskliga bilder.
Microsoft
Den Redmond-baserade teknikjätten tror att Azure text-till-tal-avatar kan vara en lämplig lösning att bekämpa skapande av traditionellt videoinnehåll, och små företag, som nystartade företag, skulle kunna dra stor nytta av en sådan verktyg.
Traditionellt skapande av videoinnehåll kräver mycket tid och budget, inklusive att sätta upp videoinspelningsmiljö, filma videor, redigera, etc. Med text till tal-avatar kan användare skapa video mer effektivt. Användare kan använda avataren för att skapa utbildningsvideor, produktintroduktioner, kundrekommendationer, etc., helt enkelt med textinmatning.
Microsoft
Text-till-tal-avataren kan användas för olika applikationer:
- En chatbot för en resewebbplats
- Virtuell försäljning i en reklamfilm
- AI-lärare som undervisar online och kan svara på frågor
- En virtuell HR för att svara på anställdas frågor
Även om verktyget kommer att vara ganska användbart för många företag, kan det också generera videor som på något sätt saknar hela spektrumet av mänskliga uttryck. Här är varför:
Azures text-till-tal-avatar kan vara användbar, men den känns inte verklig
Det är viktigt att veta att Microsoft erbjuder två sätt att skapa en avatar:
- Förbyggda text-till-tal-avatarer, med Microsoft som tillhandahåller en lista med alternativ som användare kan välja mellan; dessa avatarer kommer att kunna tala olika språk och ha olika röster baserat på input från användarna.
- Anpassade text-till-tal-avatarer gör det möjligt för användare att bygga sina anpassade avatarer använder verkliga bilder och videor. Systemet tar dessa resurser och kommer automatiskt med en avatar som matchar dessa egenskaper. En viktig funktion är att systemet kommer att få en avatar att likna användaren om användaren ger sin röst och sitt utseende.
Trots det saknar avatarerna vissa uttryck, ett faktum som gör att de ser ganska robotiserade ut.
Låt oss ta de 2 videoexemplen som Microsoft publicerade i deras blogginlägg om produkterna. Båda genereras med Azures text-till-tal-avatar. Den första, som du kan se nedan, har en avatar som visar hur användare kan generera videoinnehåll med Azure-avatarer.
Från YouTube-miniatyren kan du inte säga att modellen som presenteras i videon faktiskt är en avatar, men så fort du spelar upp videon blir det tydligt att den är helt och hållet AI-genererad. Synkroniseringen mellan avatarens ansiktsuttryck och deras röst är något udda.
Azures text-till-tal-avatarteknik gör det möjligt att bygga interaktiva avatarer, det andra exemplet som visar upp känslan av kuslig dal (något som fungerar som en mänsklig person, men det är inte mänsklig).
Som Microsoft säger använder de interaktiva avatarerna Azure OpenAI Service GPT-3.5-modellen för att svara på kundfrågor, inklusive verbala dialoger med kunder på olika språk. Bara detta gör det otroligt användbart, men återigen, interaktionen ser konstgjord ut och saknar mänsklig interaktion, vilket kan vara störande för vissa.
Ta en titt här:
Med tiden kanske Microsoft löser det här problemet, och med den nya AI-tekniken som växer fram kan den Redmond-baserade teknikjätten förvandla Azure-avataren till ett branschverktyg. Varför? Eftersom företag redan älskar verktyget.
Vi använder Azure AI Services för vår AI Banking-avatar på grund av den unika kombinationen av ledande AI- och visualiseringstjänster i en och samma plattform. Genom att använda olika Azure AI Speech-text-till-tal-avatarer kommer vi att kunna generera en kundupplevelse på nästa nivå och verkligen förenkla bank- och bankinteraktioner.
Gerald Ertl, verkställande direktör, Commerzbank AG
Microsoft har dock inte tagit hänsyn till kundernas interaktioner med dessa avatarer. Även om de kan vara ett mycket billigare alternativ för företag (och snabbare också, bör en marknadsförare kunna skapa AI-genererad tutorials utan att tillgripa externa källor), avsaknaden av några meningsfulla fysiska uttryck gör att dessa avatarer ser ut som robotar.
AI kan inte ignoreras, särskilt om vi pratar om verktyg som Copilot på Windows 11 eller Microsoft 365, men när den vill likna människor kan den bli ganska kuslig.
Microsoft kommer att förfina dessa avatarer, det råder ingen tvekan om det, men för tillfället finns det en känsla längs min ryggrad varje gång jag tittar på en av dem, kraftfullt flinande eller utan uttryck alls.
Vad tycker du om dessa avatarer?