Görüntü ve Konuşmadan Metne Girdi Desteği Sunan En İyi WordPress Sohbet Botları
Neden Çoğu WordPress Chatbot’u Hâlâ Göremiyor veya Duyamıyor
2026’da WordPress chatbot’ları ile ilgili mesele şu: çoğu hâlâ yalnızca metin modunda takılı kalmış durumda. Bir soru soruyorsun, bir cevap alıyorsun. Basit işler.
Peki ya ziyaretçileriniz bir fotoğraf yükleyip “Bu ürün nedir?” diye sormak isterse? Ya da yazarak yerine sorularını sesli olarak sorarsa? İşte tam bu noktada çok modlu yapay zekâ sohbet botları devreye giriyor ve şaşırtıcı şekilde, çok az WordPress eklentisi bu özellikleri gerçekten destekliyor.
WordPress chatbot ekosistemini inceledikten sonra, hem görsel girişi (vision) hem de konuşmadan metne (ses girişi) desteğini gerçekten sunan yalnızca 3-4 eklenti olduğunu gördüm. Geri kalanlar ya bu özelliklere sahip değil ya da yanıltıcı pazarlama kullanıyor. “Multimodal” çoğu zaman sadece metin + yapay zekâ tarafından üretilmiş görseller anlamına geliyor; ziyaretçilerinizin yüklediği fotoğrafları analiz etmek değil.
Hangi yapay zeka sağlayıcısını kullanacağınıza hâlâ karar veremiyorsanız, maliyetler ve yeteneklerin ayrıntılı dökümünü görmek için Mistral vs Gemini vs ChatGPT karşılaştırmamıza göz atın. Chatbot seçeneklerinin daha kapsamlı bir karşılaştırması için ise WordPress için en iyi chatbot eklentileri rehberimize bakın.

Görsel ve Ses Özelliklerini Güçlendiren Yapay Zekâ Modelleri
Chatbot’unuz yalnızca arkasındaki yapay zekâ kadar akıllıdır. İşte şu anda çok modlu yetenekleri güçlendiren şeyler:
Görsel Algılama Özellikli Modeller
GPT-5 (Ağustos 2025’te yayımlandı), görsel algılama konusunda önemli iyileştirmeler getirdi. GPT-5.2 (Aralık 2025) ise yazılım arayüzlerini ve diyagramları anlama konusunda ScreenSpot-Pro kıyaslamasında ,3 doğruluk ile çıtayı daha da yükseltti (kaynak).
Google tarafında, Gemini 3 Flash (Aralık 2025) çok modlu anlama ve akıl yürütmeyi ölçen MMMU Pro’da ,2 aldı (kaynak). Ayrıca, çalıştırması daha ucuzken Gemini 2.5 Pro’dan 3 kat daha hızlı.
Konuşmadan Metne Dönüştürme Modelleri
Modern LLM sağlayıcıları artık çok modlu yeteneklerinin bir parçası olarak yerleşik ses anlama sunuyor. AI Chat & Search Pro gibi eklentilerde konuşmayı metne dönüştürme, her sağlayıcının kendi sistemi üzerinden çalışır:
- OpenAI: Whisper API’sini kullanır (
/v1/audio/transcriptions) - Gemini: Google’ın yerel konuşma tanımasını kullanır (tüm Gemini modelleri çok modludur)
- Mistral: Whisper’dan yarı maliyetle daha iyi performans sunan çok modlu ses modeli Voxtral’ı kullanır (kaynak)
Bu, chatbot’unuzun sesli giriş kalitesinin ayrı bir transkripsiyon hizmetine değil, yapılandırdığınız AI sağlayıcısına bağlı olduğu anlamına gelir.
Gerçek Çok Modlu Desteğe Sahip WordPress Eklentileri
1. AI Chat & Search Pro

Fiyatlandırma: $59 One-time purchase
Görsel girdi için kullanıcılar bir görsel düğmesine tıklar, dosyalarını seçer ve AI API’sine gönderilmeden önce base64’e dönüştürülür. GPT-5, GPT-5.2, Gemini 3 Pro ve Gemini 3 Flash ile çalışır.
Konuşmayı metne dönüştürmek için kullanıcılar mikrofon düğmesine dokunur ve sesleri her sağlayıcının yerleşik özellikleriyle yazıya dökülür: OpenAI’nin Whisper API’si, Gemini’nin çok modlu ses desteği veya Mistral’ın Voxtral’ı. Görseller ve ses doğrudan AI sağlayıcısına gider ve sunucunuzda depolanmaz.
Görseller ve ses dosyaları doğrudan AI sağlayıcısına (OpenAI, Gemini veya Mistral) gönderilir ve WordPress sunucunuzda asla depolanmaz; böylece hosting’iniz temiz kalır ve gizlilik sorumluluğunuzu azaltır. Tüm yüklemeler, dosya türlerini ikili düzeyde doğrulamak için magic bytes doğrulamasından geçer; bu da kullanıcıların sahte uzantılarla gizlenmiş kötü amaçlı dosyaları yüklemesini engeller.
2. AI Engine (Meow Apps)

Fiyatlandırma: Free + $59/year Pro
Ücretsiz sürüm, görsel analiz için çoklu dosya yükleme desteği içerir. “Sorgusuz görsel” özelliğini etkinleştirebilirsiniz; böylece kullanıcılar yalnızca bir görsel bırakır ve hiçbir şey yazmadan analiz alır.
GPT-5, GPT-5.2, Gemini 3, Claude ve OpenRouter üzerinden 50+ modelle çalışır. 25MB dosya limiti vardır (OpenAI API kısıtlaması).
Ses için ücretsiz sürüm, tarayıcının Web Speech API’sini (yalnızca Chrome ve Safari) kullanır. Pro sürüm ise OpenAI’nin Realtime API’sini kullanarak Gerçek Zamanlı Sesli Chatbot özelliğinin kilidini açar.
3. Aimogen Pro (CodeCanyon)
Fiyatlandırma: $249 tek seferlik
GPT-5 Vision ve Gemini Vision modellerini destekler; ayrıca özel iş akışları için bir “AI Vision OmniBlock” sunar. Konuşmadan metne, OpenAI’nin transkripsiyon modellerini kullanır ve sesli yanıtlar için Google TTS içeren gerçek zamanlı bir sohbet botu seçeneğiyle birlikte gelir.
4. WPBot Pro (QuantumCloud)
Fiyatlandırma: Base $59-199 + addons
Görüntü girişi, serbest biçimli sohbet üzerinden değil Conversational Forms Pro modülü üzerinden çalışır. Sesli giriş için ayrı eklentiler gerekir (her biri yıllık $21-22). Toplam maliyet: API maliyetleri hariç yaklaşık $142/yıl.
Eklenti Karşılaştırma Tablosu
| Eklenti | License | Base Price | Görsel | Ses | İçin En İyisi |
|---|---|---|---|---|---|
| AI Chat & Search Pro | One-time | Pro license | ✅ | ✅ | Yinelenen ücret yok |
| AI Engine | Abonelik | Free / $59/yr | ✅ Free | ⚠️ Pro | Geniş topluluk |
| Aimogen Pro | One-time | $249 | ✅ | ✅ | All-in-one toolkit |
| WPBot Pro | Abonelik | ~$142/yr | ⚠️ Forms | ⚠️ Addons | WooCommerce |
Beklenen API Maliyetleri
Eklenti ücretinin yanı sıra, API kullanımının da ücretini ödersiniz. Maliyetler sağlayıcıya göre değişir:
| Provider | Transkripsiyon Maliyeti |
|---|---|
| OpenAI Whisper | $0.006/minute |
| Mistral Voxtral | $0.001/minute |
| Gemini 3 Flash | Included in token pricing |
Gizlilik ve GDPR Hususları
Kullanıcılar görüntü yüklediğinde veya sohbet botunuza konuştuğunda, bu veriler cihazlarından WordPress sunucunuza, oradan AI sağlayıcısına ve geri doğru aktarılır.
Ne yapmalısınız:
- Ses veya görsel kaydı almadan önce açık opt-in onayı alın
- Verilerin üçüncü taraf yapay zekâ hizmetlerine gönderildiğini açıkça belirtin
- İstek üzerine medya içeren sohbet geçmişlerinin silinebildiğinden emin olun
Bazı eklentiler yerleşik GDPR araçlarıyla gelir. AI Engine, IP hash’leme ve onay kontrolleri içeren “Privacy First” seçeneği sunar.
SSS
Hem görsel hem de ses desteği için hangi eklentiyi seçmeliyim?
For no recurring fees, AI Chat & Search Pro veya Aimogen Pro. For frequent updates and a large community, AI Engine Pro at $59/year.
Sesle giriş tüm tarayıcılarda çalışır mı?
Değişir; AI Chat & Search Pro’da – evet. Yalnızca temel Web Speech API kullanan diğer eklentilerde ise sadece Chrome ve Safari’de çalışır. Daha geniş destek için OpenAI Whisper’a geri düşen eklentilere ihtiyacınız var.
HTTPS gerekli mi?
Ses girişi için evet. Tarayıcılar HTTP üzerinde mikrofon erişimini engeller. Görsel yükleme için teknik olarak HTTPS zorunlu değil, ancak şiddetle tavsiye edilir.
Chatbot’u kendi içeriklerimle eğitebilir miyim?
Evet. Çoğu eklenti özel eğitim desteği sunar. Adım adım bir anlatım için WordPress bilgi bankanız üzerinde bir yapay zekâ sohbet botu nasıl eğitilir rehberimize göz atın.
Özetle
WordPress’te gerçek anlamda çok modlu chatbotlar hâlâ nadir. Temelde AI Engine (abonelik, çok geniş özellik seti), AI Chat & Search Pro veya Aimogen Pro (tek seferlik satın alma) arasında seçim yapıyor ya da WPBot Pro’yu eklentilerle bir araya getiriyorsunuz.
Temeldeki yapay zekâ modelleri inanılmaz derecede yetenekli hâle geldi. GPT-5.2 ve Gemini 3 Flash, görüntüleri gerçekten anlayabiliyor ve konuşmayı yüksek doğrulukla metne dökebiliyor. Darboğaz artık yapay zekâ değil. Bu yetenekleri düzgün şekilde sunan WordPress eklentilerini bulmak.
Ne seçerseniz seçin, sitenizin HTTPS üzerinde çalıştığından emin olun, gizlilik bilgilendirmelerinizi hazırlayın ve API maliyetleri için bütçe ayırın. Ziyaretçileriniz, yardıma ihtiyaç duydukları şeyi sadece anlatmakla kalmayıp gösterebilmeyi takdir edecek.
Bir WooCommerce mağazası işletiyorsanız, WooCommerce için en iyi yapay zekâ sohbet botu rehberimiz, ürün odaklı dikkat edilmesi gereken noktaları ele alıyor.