Sesi yazıya link ile dönüştüren api'ler mevcut. Ses dosyasının linkini nasıl çıkartacağınızı bilmiyorsanız xpath'inde bulunuyor, selenium'da href'i de alabiliyorduk yanlış hatırlamıyorsam. Her eklenti/yazılım aynı mantık ile çalışıyor.
Attığınız github projesinde kullanılan api: https://wit.ai/docs