Top WordPress-Chatbots mit Bild- und Sprache-zu-Text-Eingabe
Warum die meisten WordPress-Chatbots immer noch nicht sehen oder hören können
So sieht’s mit WordPress-Chatbots im Jahr 2026 aus: Die meisten hängen immer noch im reinen Textmodus fest. Du stellst eine Frage, du bekommst eine Antwort. Ganz einfach.
Aber was, wenn deine Besucher ein Foto hochladen und fragen möchten: „Was ist das für ein Produkt?“ Oder ihre Frage lieber sprechen, statt zu tippen? Genau hier kommen multimodale KI-Chatbots ins Spiel – und erstaunlich wenige WordPress-Plugins unterstützen diese Funktionen tatsächlich.
Nach meiner Recherche in der WordPress-Chatbot-Landschaft habe ich festgestellt, dass nur 3–4 Plugins wirklich sowohl Bildeingabe (Vision) als auch Speech-to-Text (Spracheingabe) unterstützen. Der Rest hat diese Funktionen entweder nicht oder arbeitet mit irreführendem Marketing. „Multimodal“ bedeutet oft nur Text plus KI-generierte Bilder – nicht die Analyse von Fotos, die deine Besucher hochladen.
Wenn du noch unsicher bist, welchen KI-Anbieter du nutzen möchtest, schau dir unseren Mistral vs Gemini vs ChatGPT Vergleich an, in dem wir Kosten und Funktionen im Detail aufschlüsseln. Für einen umfassenderen Vergleich der Chatbot-Optionen sieh dir unseren Leitfaden zu den besten Chatbot-Plugins für WordPress an.

Die KI-Modelle, die Vision und Sprache antreiben
Dein Chatbot ist nur so smart wie die KI dahinter. Hier ist, was multimodale Funktionen aktuell antreibt:
Bildverstehende Modelle
GPT-5 (veröffentlicht im August 2025) brachte deutliche Verbesserungen bei der visuellen Wahrnehmung. GPT-5.2 (Dezember 2025) ging noch einen Schritt weiter – mit 86,3% Genauigkeit im ScreenSpot-Pro-Benchmark zum Verständnis von Software-Oberflächen und Diagrammen (Quelle).
Auf Googles Seite erreichte Gemini 3 Flash (Dezember 2025) 81,2% beim MMMU Pro (Quelle), der multimodales Verständnis und Schlussfolgerungsvermögen testet. Zudem ist es 3x schneller als Gemini 2.5 Pro und dabei günstiger im Betrieb.
Speech-to-Text-Modelle
Moderne LLM-Anbieter bieten inzwischen native Audioverarbeitung als Teil ihrer multimodalen Funktionen. In Plugins wie AI Chat & Search Pro funktioniert Speech-to-Text über das jeweilige System des Anbieters:
- OpenAI: Verwendet die Whisper API (
/v1/audio/transcriptions) - Gemini: Nutzt Googles integrierte Spracherkennung (alle Gemini-Modelle sind multimodal)
- Mistral: Nutzt Voxtral (Quelle), ihr multimodales Audio-Modell, das Whisper bei halben Kosten übertrifft
Das heißt, die Qualität der Spracheingabe deines Chatbots hängt davon ab, welchen KI-Anbieter du konfiguriert hast – nicht von einem separaten Transkriptionsdienst.
WordPress-Plugins mit echter multimodaler Unterstützung
1. AI Chat & Suche Pro

Preisgestaltung: $59 One-time purchase
Für die Bildeingabe klicken Nutzer auf einen Bild-Button, wählen ihre Datei aus, und sie wird vor dem Senden an die AI-API in base64 konvertiert. Funktioniert mit GPT-5, GPT-5.2, Gemini 3 Pro und Gemini 3 Flash.
Für die Sprache-zu-Text-Funktion tippen Nutzer auf die Mikrofon-Schaltfläche, und ihr Audio wird mithilfe der nativen Funktionen des jeweiligen Anbieters transkribiert: OpenAIs Whisper API, Geminis multimodales Audio oder Mistrals Voxtral. Bilder und Audio werden direkt an den KI-Anbieter gesendet und nicht auf deinem Server gespeichert.
Bilder und Audio werden direkt an den KI-Anbieter (OpenAI, Gemini oder Mistral) gesendet und niemals auf Ihrem WordPress-Server gespeichert – so bleibt Ihr Hosting schlank und das Datenschutzrisiko sinkt. Alle Uploads durchlaufen eine Magic-Bytes-Validierung, um die tatsächlichen Dateitypen auf Binärebene zu prüfen und zu verhindern, dass Nutzer schädliche Dateien mit gefälschten Dateiendungen hochladen.
2. AI Engine (Meow Apps)

Preisgestaltung: Free + $59/year Pro
Die kostenlose Version bietet Unterstützung für das Hochladen mehrerer Dateien für Vision. Du kannst „Vision ohne Anfrage“ aktivieren – das bedeutet, Nutzer laden einfach ein Bild hoch und erhalten eine Analyse, ohne etwas tippen zu müssen.
Funktioniert mit GPT-5, GPT-5.2, Gemini 3, Claude und über 50 weiteren Modellen über OpenRouter. Hat ein 25MB-Dateilimit (API-Einschränkung von OpenAI).
Für Sprache nutzt die kostenlose Version die Web Speech API des Browsers (nur Chrome und Safari). Die Pro-Version schaltet den Realtime Audio Chatbot über OpenAIs Realtime API frei.
3. Aimogen Pro (CodeCanyon)
Preisgestaltung: $249 einmalig
Unterstützt GPT-5 Vision und Gemini Vision models sowie einen „AI Vision OmniBlock“ für individuelle Workflows. Speech-to-Text nutzt die Transkriptionsmodelle von OpenAI – mit einer Echtzeit-Chatbot-Option, die Google TTS für gesprochene Antworten umfasst.
4. WPBot Pro (QuantumCloud)
Preisgestaltung: Base $59-199 + addons
Bildeingaben funktionieren über das Conversational Forms Pro-Modul, nicht über den freien Chat. Für Sprache sind separate Add-ons erforderlich (jeweils 21–22 $/Jahr). Gesamtkosten: ca. 142 $/Jahr plus API-Kosten.
Plugin-Vergleichstabelle
| Plugin | License | Base Price | Bild | Sprache | Am besten für |
|---|---|---|---|---|---|
| AI Chat & Suche Pro | One-time | Pro license | ✅ | ✅ | Keine wiederkehrenden Gebühren |
| AI Engine | Abonnement | Free / $59/yr | ✅ Free | ⚠️ Pro | Große Community |
| Aimogen Pro | One-time | $249 | ✅ | ✅ | All-in-one toolkit |
| WPBot Pro | Abonnement | ~$142/yr | ⚠️ Forms | ⚠️ Addons | WooCommerce |
Zu erwartende API-Kosten
Neben dem Plugin-Preis fallen Kosten für die API-Nutzung an. Die Preise variieren je nach Anbieter:
| Provider | Transkriptionskosten |
|---|---|
| OpenAI Whisper | $0.006/minute |
| Mistral Voxtral | $0.001/minute |
| Gemini 3 Flash | Included in token pricing |
Datenschutz- und DSGVO-Überlegungen
Wenn Nutzer Bilder hochladen oder mit Ihrem Chatbot sprechen, werden diese Daten von ihrem Gerät an Ihren WordPress-Server, weiter zum KI-Anbieter und wieder zurück übertragen.
Was du tun solltest:
- Holen Sie eine ausdrückliche Opt-in-Einwilligung ein, bevor Sie Audio oder Bilder erfassen
- Legen Sie klar offen, dass Daten an KI-Dienste von Drittanbietern übermittelt werden
- Stellen Sie sicher, dass Chatverläufe mit Medien auf Anfrage gelöscht werden können
Einige Plugins enthalten integrierte DSGVO-Tools. AI Engine bietet eine „Privacy First“-Option mit IP-Hashing und Einwilligungsverwaltung.
FAQ
Welches Plugin sollte ich wählen, wenn ich sowohl Bild- als auch Sprachunterstützung benötige?
For no recurring fees, AI Chat & Suche Pro oder Aimogen Pro. For frequent updates and a large community, AI Engine Pro at $59/year.
Funktioniert die Spracheingabe in allen Browsern?
Das kommt darauf an, in AI Chat & Search Pro – ja. In anderen Plugins, die nur die einfache Web Speech API nutzen, funktioniert es nur in Chrome und Safari. Für eine breitere Unterstützung brauchst du Plugins, die als Fallback auf OpenAI Whisper zurückgreifen.
Ist HTTPS erforderlich?
Für Spracheingabe: ja. Browser blockieren den Mikrofonzugriff über HTTP. Für den Bild-Upload ist HTTPS technisch nicht zwingend erforderlich, aber dringend empfohlen.
Kann ich den Chatbot mit meinen eigenen Inhalten trainieren?
Ja. Die meisten Plugins unterstützen individuelles Training. In unserem Leitfaden So trainierst du einen KI-Chatbot mit deiner WordPress-Wissensdatenbank findest du eine Schritt-für-Schritt-Anleitung.
Zusammenfassung
Echte multimodale Chatbots für WordPress sind nach wie vor selten. Im Grunde musst du dich zwischen AI Engine (Abo, riesiger Funktionsumfang), AI Chat & Search Pro oder Aimogen Pro (Einmalkäufe) entscheiden – oder WPBot Pro mit Add-ons zusammenstückeln.
Die zugrunde liegenden KI-Modelle sind inzwischen unglaublich leistungsfähig geworden. GPT-5.2 und Gemini 3 Flash können Bilder wirklich verstehen und Sprache mit hoher Genauigkeit transkribieren. Der Engpass ist nicht mehr die KI. Es geht darum, WordPress-Plugins zu finden, die diese Funktionen sauber zugänglich machen.
Was auch immer du wählst: Stell sicher, dass deine Website über HTTPS läuft, bereite deine Datenschutzhinweise vor und plane ein Budget für API-Kosten ein. Deine Besucher werden es zu schätzen wissen, zeigen zu können – und nicht nur zu beschreiben –, wobei sie Hilfe brauchen.
Wenn du einen WooCommerce-Shop betreibst, deckt unser Guide zum besten KI-Chatbot für WooCommerce produktspezifische Aspekte ab.