Görüntü ve Konuşmadan Metne Girdi Desteği Sunan En İyi WordPress Sohbet Botları

Neden Çoğu WordPress Chatbot’u Hâlâ Göremiyor veya Duyamıyor

2026’da WordPress chatbot’ları ile ilgili mesele şu: çoğu hâlâ yalnızca metin modunda takılı kalmış durumda. Bir soru soruyorsun, bir cevap alıyorsun. Basit işler.

Peki ya ziyaretçileriniz bir fotoğraf yükleyip “Bu ürün nedir?” diye sormak isterse? Ya da yazarak yerine sorularını sesli olarak sorarsa? İşte tam bu noktada çok modlu yapay zekâ sohbet botları devreye giriyor ve şaşırtıcı şekilde, çok az WordPress eklentisi bu özellikleri gerçekten destekliyor.

For the full setup walkthrough, see our guide on how to add ChatGPT or Gemini to WordPress.

WordPress chatbot ekosistemini inceledikten sonra, hem görsel girişi (vision) hem de konuşmadan metne (ses girişi) desteğini gerçekten sunan yalnızca 3-4 eklenti olduğunu gördüm. Geri kalanlar ya bu özelliklere sahip değil ya da yanıltıcı pazarlama kullanıyor. “Multimodal” çoğu zaman sadece metin + yapay zekâ tarafından üretilmiş görseller anlamına geliyor; ziyaretçilerinizin yüklediği fotoğrafları analiz etmek değil.

Hangi yapay zeka sağlayıcısını kullanacağınıza hâlâ karar veremiyorsanız, maliyetler ve yeteneklerin ayrıntılı dökümünü görmek için Mistral vs Gemini vs ChatGPT karşılaştırmamıza göz atın. Chatbot seçeneklerinin daha kapsamlı bir karşılaştırması için ise WordPress için en iyi chatbot eklentileri rehberimize bakın.


Which AI Models Power Image and Voice Input in WordPress Chatbots?

Chatbot’unuz yalnızca arkasındaki yapay zekâ kadar akıllıdır. İşte şu anda çok modlu yetenekleri güçlendiren şeyler:

Görsel Algılama Özellikli Modeller

GPT-5 (Ağustos 2025’te yayımlandı), görsel algılama konusunda önemli iyileştirmeler getirdi. GPT-5.2 (Aralık 2025) ise yazılım arayüzlerini ve diyagramları anlama konusunda ScreenSpot-Pro kıyaslamasında ,3 doğruluk ile çıtayı daha da yükseltti (kaynak).

Google tarafında, Gemini 3 Flash (Aralık 2025) çok modlu anlama ve akıl yürütmeyi ölçen MMMU Pro’da ,2 aldı (kaynak). Ayrıca, çalıştırması daha ucuzken Gemini 2.5 Pro’dan 3 kat daha hızlı.

Konuşmadan Metne Dönüştürme Modelleri

Modern LLM providers now offer native audio understanding as part of their multimodal capabilities. In plugins like PurioChat, speech-to-text works through each provider’s own system:

  • OpenAI: Whisper API’sini kullanır (/v1/audio/transcriptions)
  • Gemini: Google’ın yerel konuşma tanımasını kullanır (tüm Gemini modelleri çok modludur)
  • Mistral: Whisper’dan yarı maliyetle daha iyi performans sunan çok modlu ses modeli Voxtral’ı kullanır (kaynak)

Bu, chatbot’unuzun sesli giriş kalitesinin ayrı bir transkripsiyon hizmetine değil, yapılandırdığınız AI sağlayıcısına bağlı olduğu anlamına gelir.


Gerçek Çok Modlu Desteğe Sahip WordPress Eklentileri

1. PurioChat – MultiModal AI WordPress Chatbot Plugin

Fiyatlandırma: $59 One-time purchase

Görsel girdi için kullanıcılar bir görsel düğmesine tıklar, dosyalarını seçer ve AI API’sine gönderilmeden önce base64’e dönüştürülür. GPT-5, GPT-5.2, Gemini 3 Pro ve Gemini 3 Flash ile çalışır.

Konuşmayı metne dönüştürmek için kullanıcılar mikrofon düğmesine dokunur ve sesleri her sağlayıcının yerleşik özellikleriyle yazıya dökülür: OpenAI’nin Whisper API’si, Gemini’nin çok modlu ses desteği veya Mistral’ın Voxtral’ı. Görseller ve ses doğrudan AI sağlayıcısına gider ve sunucunuzda depolanmaz.

Görseller ve ses dosyaları doğrudan AI sağlayıcısına (OpenAI, Gemini veya Mistral) gönderilir ve WordPress sunucunuzda asla depolanmaz; böylece hosting’iniz temiz kalır ve gizlilik sorumluluğunuzu azaltır. Tüm yüklemeler, dosya türlerini ikili düzeyde doğrulamak için magic bytes doğrulamasından geçer; bu da kullanıcıların sahte uzantılarla gizlenmiş kötü amaçlı dosyaları yüklemesini engeller.

As you can see this multimodal chatbot plugin is ready to use out of the box on your WordPress site.


2. AI Engine (Meow Apps)

Fiyatlandırma: Free + $59/year Pro

Ücretsiz sürüm, görsel analiz için çoklu dosya yükleme desteği içerir. “Sorgusuz görsel” özelliğini etkinleştirebilirsiniz; böylece kullanıcılar yalnızca bir görsel bırakır ve hiçbir şey yazmadan analiz alır.

GPT-5, GPT-5.2, Gemini 3, Claude ve OpenRouter üzerinden 50+ modelle çalışır. 25MB dosya limiti vardır (OpenAI API kısıtlaması).

Ses için ücretsiz sürüm, tarayıcının Web Speech API’sini (yalnızca Chrome ve Safari) kullanır. Pro sürüm ise OpenAI’nin Realtime API’sini kullanarak Gerçek Zamanlı Sesli Chatbot özelliğinin kilidini açar.


3. Aimogen Pro (CodeCanyon)

Fiyatlandırma: $249 tek seferlik

GPT-5 Vision ve Gemini Vision modellerini destekler; ayrıca özel iş akışları için bir “AI Vision OmniBlock” sunar. Konuşmadan metne, OpenAI’nin transkripsiyon modellerini kullanır ve sesli yanıtlar için Google TTS içeren gerçek zamanlı bir sohbet botu seçeneğiyle birlikte gelir.


4. WPBot Pro (QuantumCloud)

Fiyatlandırma: Base $59-199 + addons

Görüntü girişi, serbest biçimli sohbet üzerinden değil Conversational Forms Pro modülü üzerinden çalışır. Sesli giriş için ayrı eklentiler gerekir (her biri yıllık $21-22). Toplam maliyet: API maliyetleri hariç yaklaşık $142/yıl.


Eklenti Karşılaştırma Tablosu

EklentiLicenseBase PriceGörselSesİçin En İyisi
PurioChatOne-timePro licenseYinelenen ücret yok
AI EngineAbonelikFree / $59/yr✅ Free⚠️ ProGeniş topluluk
Aimogen ProOne-time$249All-in-one toolkit
WPBot ProAbonelik~$142/yr⚠️ Forms⚠️ AddonsWooCommerce

Image and Speech Input API Costs for WordPress Chatbots

Eklenti ücretinin yanı sıra, API kullanımının da ücretini ödersiniz. Maliyetler sağlayıcıya göre değişir:

ProviderTranskripsiyon Maliyeti
OpenAI Whisper$0.006/minute
Mistral Voxtral$0.001/minute
Gemini 3 FlashIncluded in token pricing

Privacy and GDPR Rules for Voice and Image Chatbots in WordPress

Kullanıcılar görüntü yüklediğinde veya sohbet botunuza konuştuğunda, bu veriler cihazlarından WordPress sunucunuza, oradan AI sağlayıcısına ve geri doğru aktarılır.

Ne yapmalısınız:

  • Ses veya görsel kaydı almadan önce açık opt-in onayı alın
  • Verilerin üçüncü taraf yapay zekâ hizmetlerine gönderildiğini açıkça belirtin
  • İstek üzerine medya içeren sohbet geçmişlerinin silinebildiğinden emin olun

Bazı eklentiler yerleşik GDPR araçlarıyla gelir. AI Engine, IP hash’leme ve onay kontrolleri içeren “Privacy First” seçeneği sunar.


Image and Voice WordPress Chatbot Questions

Hem görsel hem de ses desteği için hangi eklentiyi seçmeliyim?

For no recurring fees, PurioChat or Aimogen Pro. For frequent updates and a large community, AI Engine Prou at $59/year.

Sesle giriş tüm tarayıcılarda çalışır mı?

It depends, in PurioChat – yes. In other plugins that use basic Web Speech API only works on Chrome and Safari. For broader support, you need plugins that fall back to OpenAI Whisper.

HTTPS gerekli mi?

Ses girişi için evet. Tarayıcılar HTTP üzerinde mikrofon erişimini engeller. Görsel yükleme için teknik olarak HTTPS zorunlu değil, ancak şiddetle tavsiye edilir.

Chatbot’u kendi içeriklerimle eğitebilir miyim?

Yes. Most plugins support custom training. See our guide on how to train an AI chatbot on your WordPress knowledge baseu for a step-by-step walkthrough.


Özetle

True multimodal chatbots on WordPress are still rare. You’re essentially choosing between AI Engine (subscription, massive features), PurioChat veya Aimogen Pro (one-time purchases), or piecing together WPBot Pro with addons.

Temeldeki yapay zekâ modelleri inanılmaz derecede yetenekli hâle geldi. GPT-5.2 ve Gemini 3 Flash, görüntüleri gerçekten anlayabiliyor ve konuşmayı yüksek doğrulukla metne dökebiliyor. Darboğaz artık yapay zekâ değil. Bu yetenekleri düzgün şekilde sunan WordPress eklentilerini bulmak.

Ne seçerseniz seçin, sitenizin HTTPS üzerinde çalıştığından emin olun, gizlilik bilgilendirmelerinizi hazırlayın ve API maliyetleri için bütçe ayırın. Ziyaretçileriniz, yardıma ihtiyaç duydukları şeyi sadece anlatmakla kalmayıp gösterebilmeyi takdir edecek.

Bir WooCommerce mağazası işletiyorsanız, WooCommerce için en iyi yapay zekâ sohbet botu rehberimiz, ürün odaklı dikkat edilmesi gereken noktaları ele alıyor.

Purethemes