Serwisy partnerskie:
Close icon
Serwisy partnerskie

Opracowany w Politechnice Gdańskiej (PG) polski odpowiednik GPT

Article Image
Chodzi tutaj o polskojęzyczne, generatywne, neuronowe modele językowe Qra, które z łatwością wytrenowano na bazie terabajta danych tekstowych, które występują tylko i wyłącznie w języku polskim. Jest to pierwszy odpowiednik GPT, który łatwiej rozumie i przetwarza treści w języku polskim, lepiej rozumuje pytania zadawane w tym języku, a także sprawniej generuje teksty po polsku.

Polskojęzyczne, generatywne, neuronowe modele językowe Qra zostały bezproblemowo oraz szybko nauczone na podstawie sporego korpusu danych zawierającego teksty tylko w języku polskim. Wykorzystany korpus liczył inicjalnie do 2 TB surowych danych tekstowych, które, w dalszej kolejności, uległy dwukrotnemu zmniejszeniu w wyniku procesów deduplikacji jak też oczyszczenia. Są to pierwsze modele wytrenowane na tak wielkim zasobie polskich tekstów - do ich uczenia użyto sporych mocy obliczeniowych. Zbudowano w sumie 3 modele Qra, które różnią się złożonością - są to: Qra 1B, Qra 7B i Qra 13B. Modele Qra 7B oraz Qra 13B uzyskują istotnie wysoki wynik perplexity, czyli zdolności do modelowania języka polskiego w zakresie jego rozumienia, warstwy leksykalnej i gramatyki. Testów pomiaru perplexity dokonano m.in. na zbiorach 10 tysięcy zdań ze zbioru testowego PolEval-2018 oraz 5 tysięcy długich, bardziej wymagających dokumentów stworzonych w 2024 roku. Zgodnie z planami, modele językowe Qra będą stanowić podstawę rozwiązań informatycznych dla obsługi spraw i procesów, które wymagają właściwego zrozumienia języka polskiego. Już teraz potrafią generować poprawne gramatycznie, stylistycznie odpowiedzi wyrażone w języku polskim. Generowane treści są na dobrą sprawę istotnie wysokiej jakości, co potwierdza m.in. miara perplexity. Teraz rozpoczną się prace nad strojeniem modeli w celu sprawdzenia ich możliwości pod kątem takich zadań i problemów jak: klasyfikacja tekstów, dokonywanie ich streszczeń i odpowiadanie na pytania.

Więcej informacji pod adresami: link 1 i link 2

Wideo
Firma: Politechnika Gdańska (PG)
Tematyka materiału: GPT, język polski, modele językowe, PG, Politechnika Gdańska, Qra
AUTOR
Źródło
pg.edu.pl
Udostępnij
Zobacz wszystkie quizy
Quiz weekendowy
Czujniki temperatury
1/10 Temperatura to
UK Logo
Elektronika dla Wszystkich
Zapisując się na nasz newsletter możesz otrzymać GRATIS
najnowsze e-wydanie magazynu "Elektronika dla Wszystkich"