Intussen zijn er alweer nieuwe technologische doorbraken en zoomt onze blogpost vandaag in op de vooruitgang in spraaktechnologie – met een extra focus op Vlaamse stemmen! Ook geven we een blik achter de schermen van Pipecat, de “ruggengraat” die toelaat om de verschillende AI-bouwstenen te combineren tot virtuele gesprekspartners die kunnen luisteren én spreken.
Spraaktechnologie: Van Nederlands accent naar overtuigend Vlaams
Een van de grootste uitdagingen voor ons project was lang de beschikbaarheid van kwalitatieve Vlaamse stemmen. De beste technologie was voornamelijk Engelstalig, met andere talen die ofwel niet beschikbaar waren of minder kwalitatief. Lang leek Vlaams onhaalbaar en moesten we ons tevredenstellen met standaard Nederlands. Echter, zowel Gemini 2.5 van Google als ElevenLabs v3 hebben indrukwekkende vooruitgang geboekt in het genereren van natuurlijk klinkende Vlaamse stemmen.
Als voorbeeld gebruik we er even een gegenereerd antwoord bij van onze eerste virtuele gesprekspartner om het geven van feedback mee te oefenen. Luister hieronder naar hetzelfde fragment, ingesproken door beide systemen in een neutrale toon:
Goh, ik denk dat mijn focus wel wat meer op mijn werk lag de laatste tijd. Ik heb echt geprobeerd om… ja, minder afgeleid te zijn. En ik dacht eigenlijk dat het best goed ging. Maar ik ben wel benieuwd hoe jij het ziet.
Gemini 2.5 Pro TTS (Neutraal – Mannelijke stem)
Elevenlabs v3 (Neutraal – Vrouwelijke stem)
De volgende stap: Een stem met emotie
Maar bij het voeren van feedbackgesprekken of omgaan met conflicten is het belangrijk niet alleen te weten wat gezegd wordt, maar ook hoe iets gezegd wordt. Denk aan een zucht, een lachje of een aarzeling. Aan de hand van ‘emotie-labels’ kan je ook sturen op welke manier de tekst uitgesproken wordt. De tekst ziet er dan zo uit:
[thoughtful] Goh, [short pause] ik denk dat mijn focus wel wat meer op mijn werk lag de laatste tijd. [sighs] Ik heb echt geprobeerd om… [chuckles] ja, minder afgeleid te zijn. [hesitant] En ik… [muttering] dacht eigenlijk dat het best goed ging. [nervous] Maar ik ben wel benieuwd hoe jij het ziet.
Gemini 2.5 Pro TTS (Met emotionele cues – Mannelijke stem)
Elevenlabs v3 (Met emotionele cues – Vrouwelijke stem)
Het resultaat is een gesprek dat levensechter aanvoelt en de lerende ook een rijkere leerervaring biedt. Zoals bij andere AI-ontwikkelingen is dit alles nog niet feilloos: soms wordt een emotie-label genegeerd, spreekt het niet alle woorden uit, of neigt het eerder naar andere dialecten. Maar de vooruitgang is duidelijk en ze worden steeds bruikbaarder om virtuele gesprekspartners mee te ontwikkelen.
Pipecat: de ruggengraat achter levensechte gesprekken
Maar hoe krijg je nu een echt vlot gesprek, bijna op menselijk tempo? Daarvoor zijn er meer bouwstenen nodig dan alleen een goede stem. In de fractie van een seconde dat jij uitgesproken bent, moet er heel wat gebeuren:
- Spraak naar tekst (STT): Je stem wordt omgezet in geschreven woorden.
- Spraakdetectie (VAD): Het systeem merkt dat je gestopt bent met praten.
- Antwoord genereren (LLM): Een taalmodel zoals GPT-4 formuleert een passend antwoord.
- Tekst naar spraak (TTS): Het antwoord wordt omgezet in natuurlijke spraak, inclusief passende emoties.
Voor elk van deze stappen worden aparte technologieën gebruikt. Om al deze onderdelen naadloos met elkaar te laten communiceren, gebruiken we het open source framework Pipecat. Dit laat ons toe om flexibel te experimenteren en de beste combinatie van technologieën te vinden. Wil je meer weten over de technische kant van Pipecat? Lees dan zeker de blogpost van Jens Eeckhaut, een van de onderzoekers op AVATALK.
Elke evolutie brengt ons dichter bij ons doel: virtuele gesprekspartners ontwikkelen om praktische gespreksvaardigheden mee te oefenen. We blijven deze ontwikkelingen volgen, uittesten en met jullie delen. Heb je vragen of wil je dat we een specifiek onderwerp verder uitdiepen? Laat het ons zeker weten!
Wordt vervolgd!
