Microsoft zal de technologie zeker verfijnen als het tijd is om het menselijker te maken.
Microsoft heeft de release van de Azure tekst-naar-spraak-avatar aangekondigd op de Microsoft-ontsteking conferentie die plaatsvindt in Seattle van 14 tot 17 november 2023. De Azure-avatar is nu in openbare preview en Azure-gebruikers overal ter wereld kunnen hun avatar alleen bouwen met tekstinvoer.
Met trots kondigen we de openbare preview-release aan van Azure AI-spraak tekst-naar-spraak-avatar, een nieuwe functie waarmee gebruikers pratende avatar-video's met tekstinvoer kunnen maken en realtime interactieve bots kunnen bouwen die zijn getraind met behulp van menselijke afbeeldingen.
Microsoft
De in Redmond gevestigde technologiegigant denkt dat de Azure tekst-naar-spraak-avatar een geschikte oplossing kan zijn om te bestrijden traditionele creatie van video-inhoud, en kleine bedrijven, zoals startups, zouden hier enorm van kunnen profiteren hulpmiddel.
Het maken van traditionele video-inhoud vereist veel tijd en budget, inclusief het opzetten van een video-opnameomgeving, het filmen van video's, het bewerken, enz. Met tekst-naar-spraak-avatar kunnen gebruikers efficiënter video maken. Gebruikers kunnen de avatar gebruiken om trainingsvideo's, productintroducties, getuigenissen van klanten, enz. te maken, eenvoudigweg met tekstinvoer.
Microsoft
De tekst-naar-spraak-avatar kan voor verschillende toepassingen worden gebruikt:
- Een chatbot voor een reiswebsite
- Virtuele verkoop in een live commercial
- AI-docent die online lesgeeft en vragen kan beantwoorden
- Een virtuele HR om te reageren op vragen van medewerkers
Hoewel de tool voor veel bedrijven behoorlijk nuttig zal zijn, kan deze ook video's genereren die op de een of andere manier het volledige spectrum van menselijke uitdrukkingen missen. Dit is waarom:
De Azure-tekst-naar-spraak-avatar kan nuttig zijn, maar voelt niet echt aan
Het is belangrijk om te weten dat Microsoft 2 manieren biedt om een avatar te genereren:
- Vooraf gebouwde tekst-naar-spraak-avatars, waarbij Microsoft een lijst met opties biedt waaruit gebruikers kunnen kiezen; deze avatars kunnen verschillende talen spreken en verschillende stemmen hebben op basis van de input van gebruikers.
- Met aangepaste tekst-naar-spraak-avatars kunnen gebruikers hun eigen aangepaste avatars bouwen met behulp van real-life afbeeldingen en video's. Het systeem zal deze bronnen gebruiken en automatisch een avatar bedenken die bij deze kenmerken past. Een belangrijk kenmerk is dat het systeem een avatar op de gebruiker laat lijken als de gebruiker zijn stem en uiterlijk geeft.
Toch missen de avatars bepaalde uitdrukkingen, waardoor ze er behoorlijk robotachtig uitzien.
Laten we de twee videovoorbeelden nemen die Microsoft in hun blogpost over de producten heeft geplaatst. Beide worden gegenereerd met behulp van de Azure-tekst-naar-spraak-avatar. De eerste bevat, zoals u hieronder kunt zien, een avatar die laat zien hoe gebruikers video-inhoud kunnen genereren met behulp van Azure-avatars.
Aan de YouTube-thumbnail kun je niet zien dat het model dat in de video wordt gepresenteerd eigenlijk een avatar is, maar zodra je de video afspeelt, wordt het duidelijk dat deze volledig door AI is gegenereerd. De synchronisatie tussen de gezichtsuitdrukkingen van de avatar en hun stem is enigszins vreemd.
De Azure tekst-naar-spraak-avatartechnologie maakt het bouwen van interactieve avatars mogelijk, het tweede voorbeeld dat het gevoel van een griezelige vallei laat zien (iets dat zich gedraagt als een menselijk persoon, maar dat is het niet). menselijk).
Zoals Microsoft zegt, gebruiken de interactieve avatars het Azure OpenAI Service GPT-3.5-model om te reageren op vragen van klanten, inclusief verbale dialogen met klanten in verschillende talen. Dit alleen al maakt het ongelooflijk nuttig, maar nogmaals, de interactie ziet er kunstmatig uit en verstoken van enige menselijke interactie, wat voor sommigen verontrustend zou kunnen zijn.
Kijk hier eens:
Na verloop van tijd zou Microsoft dit probleem kunnen oplossen, en met de nieuwe AI-technologieën die opkomen, zou de in Redmond gevestigde technologiegigant de Azure-avatar kunnen transformeren in een hulpmiddel voor de industrie. Waarom? Omdat bedrijven al dol zijn op de tool.
We gebruiken Azure AI Services voor onze AI Banking Avatar vanwege de unieke combinatie van toonaangevende AI- en visualisatiediensten op één platform. Door verschillende Azure AI Speech tekst-naar-spraak-avatar te gebruiken, kunnen we een klantervaring op een hoger niveau genereren en bank- en bankinteracties echt vereenvoudigen.
Gerald Ertl, directeur van Commerzbank AG
Microsoft heeft echter geen rekening gehouden met de interacties van klanten met deze avatars. Hoewel ze voor bedrijven een veel goedkopere optie zouden kunnen zijn (en ook sneller), zou een marketeer in staat moeten zijn om door AI gegenereerde oplossingen te creëren tutorials zonder toevlucht te nemen tot externe bronnen), zorgt het ontbreken van betekenisvolle fysieke uitdrukkingen ervoor dat deze avatars eruitzien robots.
AI kan niet worden genegeerd, vooral als we het hebben over tools zoals Copilot Windows 11 of Microsoft365, maar als het op mensen wil lijken, kan het behoorlijk griezelig worden.
Microsoft zal deze avatars verfijnen, daar bestaat geen twijfel over, maar voorlopig loopt er elke keer een gevoel door mijn ruggengraat als ik naar een van hen kijk, krachtig grijnzend of helemaal geen uitdrukking.
Wat vind jij van deze avatars?