Top WordPress-chatbots met beeld- en spraak-naar-tekst-invoer

Waarom de meeste WordPress-chatbots nog steeds niet kunnen zien of horen

Dit is het punt met WordPress-chatbots in 2026: de meeste zitten nog steeds vast in een modus met alleen tekst. Je stelt een vraag, je krijgt een antwoord. Simpel.

Maar wat als je bezoekers een foto willen uploaden en vragen: “Wat is dit product?” Of hun vraag inspreken in plaats van typen? Dan komen multimodale AI-chatbots in beeld, en verrassend weinig WordPress-plugins ondersteunen deze functies daadwerkelijk.

Na onderzoek van het WordPress-chatbotlandschap ontdekte ik dat slechts 3-4 plugins echt zowel beeldinvoer (vision) als spraak-naar-tekst (spraakinvoer) ondersteunen. De rest mist deze functies, of maakt gebruik van misleidende marketing. “Multimodaal” betekent vaak alleen tekst plus door AI gegenereerde afbeeldingen, niet het analyseren van foto’s die je bezoekers uploaden.

Als je nog twijfelt over welke AI-provider je wilt gebruiken, bekijk dan onze Mistral vs Gemini vs ChatGPT-vergelijking voor een gedetailleerd overzicht van kosten en mogelijkheden. Voor een bredere vergelijking van chatbotopties kun je onze gids met de beste chatbot-plugins voor WordPress raadplegen.


De AI-modellen die vision en spraak aandrijven

Je chatbot is slechts zo slim als de AI erachter. Dit is wat multimodale mogelijkheden op dit moment aandrijft:

Modellen met visuele mogelijkheden

GPT-5 (uitgebracht in augustus 2025) bracht flinke verbeteringen in visuele waarneming. GPT-5.2 (december 2025) ging nog een stap verder met 86,3% nauwkeurigheid op de ScreenSpot-Pro-benchmark voor het begrijpen van software-interfaces en diagrammen (bron).

Aan de kant van Google behaalde Gemini 3 Flash (december 2025) 81,2% op MMMU Pro (bron), dat multimodaal begrip en redeneervermogen test. Het is bovendien 3x sneller dan Gemini 2.5 Pro en tegelijkertijd goedkoper om te draaien.

Spraak-naar-tekstmodellen

Moderne LLM-providers bieden nu native audiobegrip als onderdeel van hun multimodale mogelijkheden. In plugins zoals AI Chat & Search Pro werkt spraak-naar-tekst via het eigen systeem van elke provider:

  • OpenAI: Gebruikt de Whisper API (/v1/audio/transcriptions)
  • Gemini: Maakt gebruik van Google’s eigen spraakherkenning (alle Gemini-modellen zijn multimodaal)
  • Mistral: Gebruikt Voxtral (bron), hun multimodale audiomodel dat Whisper overtreft tegen de helft van de kosten

Dit betekent dat de kwaliteit van de spraakinvoer van je chatbot afhangt van welke AI-provider je hebt geconfigureerd, en niet van een aparte transcriptieservice.


WordPress-plugins met echte multimodale ondersteuning

1. AI Chat & Zoeken Pro

Prijzen: $59 One-time purchase

Voor afbeeldingsinvoer klikken gebruikers op een afbeeldingsknop, selecteren ze hun bestand en wordt het vóór verzending naar de AI API omgezet naar base64. Werkt met GPT-5, GPT-5.2, Gemini 3 Pro en Gemini 3 Flash.

Voor spraak-naar-tekst tikken gebruikers op de microfoonknop en wordt hun audio getranscribeerd met de native mogelijkheden van elke provider: OpenAI’s Whisper API, Gemini’s multimodale audio of Mistral’s Voxtral. Afbeeldingen en audio gaan rechtstreeks naar de AI-provider en worden niet op je server opgeslagen.

Afbeeldingen en audio worden rechtstreeks naar de AI-provider gestuurd (OpenAI, Gemini of Mistral) en worden nooit opgeslagen op je WordPress-server, waardoor je hosting schoon blijft en je privacy-aansprakelijkheid afneemt. Alle uploads gaan door magic bytes-validatie om het daadwerkelijke bestandstype op binair niveau te verifiëren, zodat gebruikers geen schadelijke bestanden kunnen uploaden die vermomd zijn met nep-extensies.


2. AI Engine (Meow Apps)

Prijzen: Free + $59/year Pro

De gratis versie bevat ondersteuning voor uploads van meerdere bestanden voor vision. Je kunt “vision zonder query” inschakelen, wat betekent dat gebruikers gewoon een afbeelding kunnen uploaden en analyse krijgen zonder iets te typen.

Werkt met GPT-5, GPT-5.2, Gemini 3, Claude en 50+ modellen via OpenRouter. Heeft een bestandslimiet van 25 MB (een beperking van de OpenAI API).

Voor spraak gebruikt de gratis versie de Web Speech API van de browser (alleen Chrome en Safari). De Pro-versie ontgrendelt de Realtime Audio Chatbot met behulp van OpenAI’s Realtime API.


3. Aimogen Pro (CodeCanyon)

Prijzen: $249 eenmalig

Ondersteunt GPT-5 Vision en Gemini Vision-modellen, plus een “AI Vision OmniBlock” voor custom workflows. Speech-to-text gebruikt de transcriptiemodellen van OpenAI, met een realtime-chatbotoptie die Google TTS bevat voor gesproken antwoorden.


4. WPBot Pro (QuantumCloud)

Prijzen: Base $59-199 + addons

Beeldinvoer werkt via de Conversational Forms Pro-module, niet via vrije chat. Spraak vereist aparte add-ons ($21-22/jaar per stuk). Totale kosten: ongeveer $142/jaar plus API-kosten.


Pluginvergelijkingstabel

PluginLicenseBase PriceAfbeeldingSpraakBeste voor
AI Chat & Zoeken ProOne-timePro licenseGeen terugkerende kosten
AI EngineAbonnementFree / $59/yr✅ Free⚠️ ProGrote community
Aimogen ProOne-time$249All-in-one toolkit
WPBot ProAbonnement~$142/yr⚠️ Forms⚠️ AddonsWooCommerce

Te verwachten API-kosten

Naast de pluginprijs betaal je ook voor API-gebruik. De kosten verschillen per provider:

ProviderTranscriptiekosten
OpenAI Whisper$0.006/minute
Mistral Voxtral$0.001/minute
Gemini 3 FlashIncluded in token pricing

Privacy- en AVG-overwegingen

Wanneer gebruikers afbeeldingen uploaden of tegen je chatbot spreken, stroomt die data van hun apparaat naar je WordPress-server, naar de AI-provider en weer terug.

Wat je moet doen:

  • Verkrijg expliciete opt-in toestemming voordat je audio of afbeeldingen vastlegt
  • Geef duidelijk aan dat gegevens naar AI-diensten van derden worden verzonden
  • Zorg ervoor dat chatgeschiedenissen met media op verzoek kunnen worden verwijderd

Sommige plugins bevatten ingebouwde GDPR-tools. AI Engine biedt een optie “Privacy First” met IP-hashing en toestemmingsbeheer.


FAQ

Welke plugin moet ik kiezen voor ondersteuning van zowel afbeeldingen als spraak?

For no recurring fees, AI Chat & Zoeken Pro of Aimogen Pro. For frequent updates and a large community, AI Engine Pro at $59/year.

Werkt spraakinvoer in alle browsers?

Het hangt ervan af: in AI Chat & Search Pro – ja. In andere plugins die alleen de basis-Web Speech API gebruiken, werkt het alleen in Chrome en Safari. Voor bredere ondersteuning heb je plugins nodig die terugvallen op OpenAI Whisper.

Is HTTPS vereist?

Voor spraakinvoer: ja. Browsers blokkeren microfoontoegang via HTTP. Voor het uploaden van afbeeldingen is HTTPS technisch gezien niet vereist, maar wel sterk aanbevolen.

Kan ik de chatbot trainen met mijn eigen content?

Ja. De meeste plugins ondersteunen aangepaste training. Bekijk onze gids over hoe je een AI-chatbot traint met je WordPress-kennisbank voor een stapsgewijze walkthrough.


Afronding

Echt multimodale chatbots op WordPress zijn nog steeds zeldzaam. In feite kies je tussen AI Engine (abonnement, enorm veel features), AI Chat & Search Pro of Aimogen Pro (eenmalige aankopen), of je stelt WPBot Pro samen met add-ons.

De onderliggende AI-modellen zijn ongelooflijk krachtig geworden. GPT-5.2 en Gemini 3 Flash kunnen beelden echt begrijpen en spraak met hoge nauwkeurigheid transcriberen. De bottleneck is niet langer de AI. Het zit ’m in het vinden van WordPress-plugins die deze mogelijkheden op de juiste manier beschikbaar maken.

Wat je ook kiest, zorg dat je site via HTTPS draait, bereid je privacyverklaringen voor en houd rekening met API-kosten in je budget. Je bezoekers zullen het waarderen dat ze kunnen laten zien, niet alleen vertellen, waar ze hulp bij nodig hebben.

Als je een WooCommerce-winkel runt, behandelt onze gids beste AI-chatbot voor WooCommerce productspecifieke aandachtspunten.

Purethemes