Sztuczna inteligencja staje się rzeczywistością i wchodzi do "naszego świata" szerokimi drzwiami. Nie jest tajemnicą, iż wielką zasługę w tym zakresie ma oprogramowanie ChatGPT. W świecie AI (Sztucznej Inteligencji) wyróżnia się tym, że potrafi rozpoznać kontekst konwersacji i udzielać sensownych odpowiedzi. Osoba prowadząca rozmowę z "maszyną" odnosi wrażenie, jakby po drugiej stronie był "żywy człowiek".
To jednak nie jest żywa inteligencja, a "Chatbot", który rozumie słowo pisane i udziela pisemnych odpowiedzi. Taka konwersacja jest mniej ekscytująca aniżeli prosta rozmowa. Chcąc pójść w tym kierunku, spróbujemy zaprogramować ChatGPT tak, aby stał się asystentem głosowym, który nazwiemy VoiceGPT. Pierwszą czynnością, którą musimy wykonać jest przekształcenie ludzkiego głosu do postaci pisemnej. Wykorzystamy istniejące oprogramowanie NLP (Natural Language Processisng), które potrafi rozpoznać słowo mówione. "Słowo" to stanowi dane wejściowe dla ChatGPT. W procesie konstruowania zapytania dla ChatGPT wykorzystamy darmowy i powszechnie dostępny interfejs programowania aplikacji API. Gdy ChatGPT udzieli inteligentnej odpowiedzi, ponownie wykorzystamy NLP w celu konwersji odpowiedzi pisemnej na słowną. Będą zatem potrzebne programy wysokiego poziomu. Wykorzystamy Whisper, który należy do kategorii OpenAI oraz sprawne narzędzie działające na NLP. Jako interfejs aplikacji wykorzystałem oprogramowanie Google-a Natural Language API.
Przewodnik jak krok po kroku uzyskać VoiceGPT
Musimy rozpocząć od serwisu NLP w celu pozyskania tekstowej postaci zapytania skierowanego dla ChatGPT. Ze strony sprzętowej potrzebujemy maszyny zdolnej pracować pod kontrolą interfejsu aplikacji Open API. To oprogramowanie kieruje zapytanie skierowane do ChatGPT, jak i przekształci tekstową odpowiedź z wykorzystaniem syntetyzatora ludzkiej mowy (wykorzystując pakiety NLP). Z tym softwarem powinien poradzić sobie każdy laptop, ja jednak użyłem Raspberry Pi. Ale jak wprowadzić informację głosową do postaci rozumianej przez maszynę?