Een van de dingen waar AI goed in is is het herkennen van gesproken tekst. Ik probeerde de top-3 uit.
Voor steeds meer toepassingen wordt ‘voice’ de primaire vorm van input. Logisch ook: er zijn niet veel mensen die sneller typen dan ze kunnen praten. Dus praten tegen je apparaat is heel logisch. Als dat apparaat tenminste snapt wat je zegt….
Gelukkig wordt het het herkennen van gesproken tekst dankzij goede AI modellen steeds beter. Drie groten op dit gebied zijn AssemblyAI, het Whisper model van OpenAI en Deepgram.
Ik heb een pagina gemaakt om ze met z’n drieën naast elkaar uit te testen.
De resultaten tussen de modellen zijn nogal verschillend moet ik zeggen.
AssemblyAI
❇️ “My name is hans peter hamsun igban AI exper in amsterdam.”
Omgezet in 8.5 seconden
AssemblyAI viel eigenlijk meteen af. De vertalingen zijn niet goed en het model is supertraag ten opzichte van de andere twee.
Deepgram
❇️ “Mijn naam is Hans Peter Hankssen, ik ben AI expert en ik woon op IJburg in Amsterdam.”
Omgezet in 1.13 seconden
Deepgram is een heel stuk beter. De snelste van de drie ook. Maar hij laat qua herkenning wel wat steekjes vallen.
Whisper
❇️ “Mijn naam is Hans-Peter Harmsen, ik ben AI-expert en ik woon op IJburg in Amsterdam.”
Omgezet in 1.37 seconden
Whisper is duidelijk de winnaar. Snel en vooral: het meest nauwkeurig van de drie. In een project waar spraakherkenning een rol speelt, kies ik voor dit model.
Weer een mooie van OpenAi. Naast ChatGPT (tekst), Dall-E (afbeeldingen) en binnenkort Sora (video) is dus ook voice een gebied waar ze excelleren.
Zelf uitproberen
Op deze pagina kan je ze zelf eens naast elkaar proberen.
Vorige post: Claude 3