ChatGPT – niezwykłe rozwiązanie w świecie modeli eksperckich

Kiedy OpenAI udostępniło ChatGPT, natychmiast podbił on Internet. Z milionem użytkowników w ciągu zaledwie jednego tygodnia i 100 milionami aktywnych użytkowników w ciągu dwóch miesięcy stał się on najszybciej rozwijającą się aplikacją w historii, wyprzedzając nawet gigantów takich jak TikTok, Instagram czy Facebook.

Oprócz samej popularności, ChatGPT wywołał głębszą dyskusję na temat przyszłości sztucznej inteligencji w naszym życiu. Czy wraz z jego zastosowaniami w biznesie, edukacji lub medycynie zapotrzebowanie na specjalistów w danych dziedzinach spadnie? Podczas gdy wiele osób mówi o rewolucji zmieniającej świat, my przyjrzymy się głębiej ChatGPT - czym naprawdę jest i do czego jest zdolny.

Krótka historia
Czy rewolucja AI naprawdę rozpoczęła się pod koniec 2022 roku?

ChatGPT zyskał dużą sławę w tak szybki sposób, że dla wielu osób spoza społeczności AI wydawało się to przełomem, którego nigdy wcześniej nie widzieliśmy. Zadajmy więc fundamentalne pytanie – czy rewolucja AI naprawdę rozpoczęła się pod koniec 2022 roku?

Modele oparte na transformerach, obecni królowie lingwistyki komputerowej, są dobrze znane od 2017 roku. Napędzają nowoczesne rozwiązania Machine Learning, pozwalając nam klasyfikować dokumenty, wydobywać informacje, a nawet generować teksty. Generative Pre-Training (GPT [6]), opublikowany w 2018 roku, był jednym z pierwszych generatywnych modeli opartych na architekturze Transformer. Taki model jest w stanie wygenerować nowy tekst w różnych zadaniach, takich jak tłumaczenie, streszczanie lub odpowiadanie na pytania.

W GPT-2 (2019), rozszerzeniu pierwotnej koncepcji, autorzy skupili się głównie na zwiększeniu samego rozmiaru modelu. Długość tekstu wejściowego została podwojona (z 512 do 1024 tokenów), a ilość danych do treningu wzrosła do 40 GB, ponadto całkowita liczba parametrów trenowania modeli zwiększyła się ze 117 mln (GPT) do 1,5 mld (GPT-2). Kolejny model GPT-3 (2020) wyróżniały głównie dwa czynniki: liczba parametrów modelu wzrosła do 175B, a do treningu wykorzystano dane tekstowe o objętości 45TB. Strategia OpenAI – więcej znaczy lepiej – przynosiła rezultaty, ponieważ GPT-3 osiągał znakomite wyniki, szczególnie w scenariuszach zero-shot i few shot (tj. Scenariuszach, w których model musi odpowiadać na pytania dotyczące tematów, o których nigdy wcześniej nie słyszał). W ten sposób doszliśmy do ChatGPT – jego rdzeń został oparty na GTP-3 (2020), lecz został specjalnie dostosowany do interakcji z ludźmi (autorzy polegali na ludzkich opiniach podczas szkolenia).

Jak wiemy, dziecko OpenAI odniosło ogromny sukces – pomogło spopularyzować Sztuczną Inteligencję i zwrócić naszą uwagę na nowe, innowacyjne rozwiązania w wielu dziedzinach naszego życia. Mimo, że ChatGPT to komercyjne i publiczne duże osiągnięcie, z technologicznego punktu widzenia nie jest to nic nowego. Z pewnością jest znacząco lepszy od poprzednich generacji modeli, ale to tylko kolejny krok na długiej drodze. Zwłaszcza, że podstawowy model wewnątrz ChatGPT był znany na wiele lat przed publicznym boomem w 2022 roku, zatem nie można go nazwać „rewolucyjną technologią, jakiej nigdy wcześniej nie widzieliśmy”.

Szczegółowa ocena
Jak dobry jest ChatGPT?

Aby wskazać mocne i słabe strony ChatGPT, warto przyjrzeć się niezależnemu badaniu ewaluacyjnemu. Naukowcy z zespołu CLARIN opublikowali niedawno bardzo obszerny artykuł [4] testujący czat na wielu zestawach danych porównawczych i zestawili wyniki z najnowocześniejszymi znanymi modelami (state-of-the-art - SOTA). Zespół badawczy przetestował modele na różnych zadaniach z dwóch głównych grup: semantycznej – rozpoznawanie właściwości tekstu (tj. opisu sensu, postawy mówcy itp.) lub wydobywanie informacje, które są bezpośrednio wyrażone we wskazanym fragmencie (tj. relacje między zdaniami) oraz pragmatycznej – umiejętności wykorzystania wiedzy ogólnej zapisanej w modelu do rozwiązywania zadań wykraczających poza dosłowną treść semantyczną tekstu.

Zestaw porównawczy zawierał zbiory danych szeroko stosowane w społeczności naukowej AI, między innymi:

Wikipedia Talk Labels: Aggression [9] – ocena agresywności każdego tekstu (np. wykrywanie nienawiści)
ColBERT [1] – klasyfikowanie tekstów jako zabawnych lub nieśmiesznych
SMS Spam Collection [3] – klasyfikowanie tekstów jako spam lub nie
WordContext [5] – identyfikacja zamierzonego znaczenia słowa w danym kontekście
TextEntail [8] – rozpoznawanie następstw tekstowych między fragmentami
SQuAD [7] – odpowiedź na pytanie
RACE [10] – czytanie ze zrozumieniem
TweetEmoji [2] – przewidywanie odpowiednich emoji dla danego Tweet

Wydajność modeli Machine Learning (w zadaniach takich jak to) jest zwykle mierzona wynikiem F1_macro – jest to uniwersalna miara wydajności, która poza dokładnością modelu uwzględnia także inne czynniki, takie jak brak równowagi klas w zbiorze danych. Jednak dla jasności porównania spójrzmy na wyniki pod względem korzyści (o ile ChatGPT jest lepszy niż najlepsze dedykowane metody) i strat (o ile Chat jest gorszy od modeli SOTA).

Rysunek 1: Procentowa utrata wydajności GPT czatu. Górna oś X odpowiada osiągom najlepszego modelu (SOTA), traktowanym jako 100%. Na podstawie pracy Kocon i in. [4]

Kluczowym wnioskiem z badania zespołu CLARIN jest to, że wydajność ChatGPT jest zawsze niższa niż metody SOTA (strata > 0). Chociaż z pewnością niezwykłe jest to, że czat zdołał ustanowić przyzwoity wynik w każdym zadaniu, nigdy nie osiągnął poziomu wydajności najlepszych istniejących modeli. Średnia jakość modeli SOTA wyniosła 73,7%, podczas gdy ChatGPT osiągnął tylko 56,5%. Jednocześnie ChatGPT był mniej stabilny: odchylenie standardowe jego wydajności wyniosło 23,3% w porównaniu do zaledwie 16,7% dla rozwiązań SOTA.

Bardzo dobry,
lecz nie specjalista

ChatGPT to niezwykłe osiągnięcie, chociaż badania pokazują, że może być konsekwentnie wyprzedzany przez dedykowane modele SOTA. Nie możemy jednak nie doceniać jego wszechstronności. Ma niesamowitą zdolność dostarczania rozsądnych, gotowych rozwiązań dla wielu problemów językowych.

Pozwala nam to wyciągnąć pewne wnioski na temat tego, gdzie ChatGPT plasuje się w naszym świecie. Dzięki wygodnemu „konwersacyjnemu” interfejsowi użytkownika może stać się częścią naszego życia w postaci wirtualnego asystenta lub pomocy edukacyjnej. Ma również szeroki zakres zastosowań w dziedzinie wspomagania sztucznej inteligencji – pomagając inżynierom opracowywać lepsze modele ML. Może być używany jako zaawansowany mechanizm augmentacji tekstu lub wstępny adnotator danych – zapewniając srebrny standard dla innych modeli wstępnego szkolenia. Wiedza ogólna i zdolności poznawcze czatu pozwalają również na szybkie stworzenie bazowego modelu dla zadań związanych z wydobywaniem wiedzy (np. NER). Taki prototyp może być przydatny w wielu przypadkach, pamiętajmy jednak – dedykowane modele będą miały przewagę pod względem dokładności, szybkości i wydajności. W zastosowaniach komercyjnych, takich jak inteligentna automatyzacja czy przetwarzanie dokumentów, trudno przeoczyć te cechy.

Bibliografia:

[1] Issa Annamoradnejad and Gohar Zoghi. Colbert: Using BERT sentence embedding for humor detection. CoRR, abs/2004.12765, 2020.
[2] Francesco Barbieri, Jos ́e Camacho-Collados, Leonardo Neves, and Luis Espinosa Anke. Tweeteval: Unified benchmark and comparative evaluation for tweet classification. CoRR, abs/2010.12421, 2020.
[3] José Maria Gómez Hidalgo, Tiago A. Almeida, and Akebo Yamakami. On the validity of a new sms spam collection. In 2012 11th International Conference on Machine Learning and Applications, volume 2, pages 240– 245, 2012.
[4] Jan Kocon, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, Dominika Szydlo, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Kocon ́, Bartłomiej Koptyra, Wikto- ria Mieleszczenko-Kowszewicz, Piotr Miłkowski, Marcin Oleksy, Maciej Piasecki, Łukasz Radliński,Konrad Wojtasik, Stanislaw Woźniak and Przemysław Kazienko. Chatgpt: Jack of all trades, master of none, 2023.
[5] Mohammad Taher Pilehvar and Jos ́e Camacho-Collados. Wic: 10, 000 example pairs for evaluating context-sensitive representations. CoRR, abs/1808.09121, 2018.
[6] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training, 2018.
[7] Pranav Rajpurkar, Robin Jia, and Percy Liang. Know what you don’t know: Unanswerable questions for squad. CoRR, abs/1806.03822, 2018.
[8] Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R. Bowman. Superglue: A stickier benchmark for general-purpose language understanding systems. CoRR, abs/1905.00537, 2019.
[9] Ellery Wulczyn, Nithum Thain, and Lucas Dixon. Ex machina: Personal attacks seen at scale. CoRR, abs/1610.08914, 2016.
[10] Yichong Xu, Jingjing Liu, Jianfeng Gao, Yelong Shen, and Xiaodong Liu. Towards human-level machine reading comprehension: Reasoning and inference with multiple strategies. CoRR, abs/1711.04964, 2017.

ChatGPT – niezwykłe rozwiązanie w świecie modeli eksperckich

Krótka historiaCzy rewolucja AI naprawdę rozpoczęła się pod koniec 2022 roku?

Szczegółowa ocenaJak dobry jest ChatGPT?

Bardzo dobry,lecz nie specjalista

Bibliografia:

Kontakt

Krótka historia
Czy rewolucja AI naprawdę rozpoczęła się pod koniec 2022 roku?

Szczegółowa ocena
Jak dobry jest ChatGPT?

Bardzo dobry,
lecz nie specjalista