Generowana przeszłość, czyli o obrazach, których nigdy nie było

Obrazy mają moc, a jakże! I wiemy to już od wielu, wielu tysiącleci… Zamiast jednak sięgać po malowidła naskalne z Lascaux czy Altamiry, w dzisiejszym artykule przyglądamy się wizualizacjom, które od dwóch lat przyprawiają naszą Redakcję o zawrót głowy. Chodzi mianowicie o wyobrażenia przeszłości tworzone z użyciem generatywnej Sztucznej Inteligencji. Nie znajdziecie tu jednak słów czystej krytyki. Przyjrzymy się temu tematowi bowiem bardzo holistycznie. Zatem, wracając do otwarcia, musimy to jeszcze raz podkreślić:

Obrazy mają moc! 

Wyobraź sobie sytuację: mieszkasz w Warszawie, jest godzina 7:42, a Ty spieszysz się do pracy. Wskakujesz w M1 w dzielnicy Ursynów i dostrzegając wolne miejsce, wygodnie się w nim sadowisz na kolejne 15 minut podróży do stacji Centrum. By umilić sobie czas sięgasz po telefon i scrollujesz stronę główną jakiegoś poczytnego portalu. Nagle dostrzegasz artykuł poświęcony starożytnemu Egiptowi. Od razu klikasz w „czytaj dalej”, przecież od dziecka marzyłeś o tym, by zostać archeologiem! 

W trakcie tego kwadransu zapominasz na chwilę o tym, że mieszkasz w kraju nad Wisłą i zagłębiasz się w egzotyczne historie znad Nilu, którym towarzyszą piękne ilustracje. Na nich uśmiechnięci ludzie, którzy w pocie czoła i blasku słońca, pracują w polu z widokiem na piramidy i palmy rosnące wzdłuż jednej z najdłuższych rzek świata. Wszystko wygląda tak naturalnie, że nawet nie podejrzewasz, iż grafikę tę wykonała… sztuczna inteligencja. I wszystko byłoby fajne, gdyby nie jeden mały szkopuł – ilustracja zawiera halucynacje, które mogą umknąć Twojemu bystremu oku.

– Ale jak to? O co chodzi? – zapytasz Czytelniku. 

Zanim odpowiemy Ci na to pytanie, zacznijmy od początku.

Ilustracja wykonana w ChatGPT. Prompt: obraz starożytnych Egipcjan w strojach stylizowanych na Abbę podczas codziennych prac rolniczych na tle piramid i Nilu, ed. A.C.
Ilustracja wykonana w ChatGPT. Prompt: obraz starożytnych Egipcjan w strojach stylizowanych na Abbę podczas codziennych prac rolniczych na tle piramid i Nilu, ed. A.C.

Społeczna odpowiedzialność nauki

Jak dobrze wszyscy wiemy, archeologia to bardzo specyficzna nauka, która opiera się na nad wyraz szczątkowych capta – informacjach wydobywanych przez badacza przeszłości z odkrywanych przez niego źródeł. W nich jednak tkwi również i podstawowy problem naszej dziedziny. Jak bowiem na bazie strzępów dawnej treści ukrytych w zniekształconych przedmiotach (i nie tylko) mamy poznać tę podmiotową przeszłość, nie mówiąc w ogóle o jej zrozumieniu?  Czy możemy na ich podstawie faktycznie ją rekonstruować? 

Kwestią tą od wielu lat zajmują się metodolodzy i teoretycy archeologii. Jakikolwiek nie byłby wynik ich dyskusji, jedno wszak pozostaje pewne – każdy archeolog, niezależnie od specjalizacji, zmuszony jest do zabiegu interpretacji, czyli nadawania znaczenia. Bez obaw jednak, nie jest on bynajmniej arbitrem bezwzględnej fantazji. Badacz ten, niczym detektyw, działa bowiem w oparciu o szereg przesłanek, które pomagają mu stworzyć pewien akceptowany naukowo obraz przeszłości. Obraz, który w świetle współcześnie proklamowanej (jakże słusznie) idei „społecznej odpowiedzialności nauki” powinien być jak najszerzej upowszechniany. 

Po pierwsze dlatego, że zabieg ten demokratyzuje dostęp do wiedzy. Po drugie, podnosi świadomość społeczną w kontekście znaczenia dziedzictwa archeologicznego dla rozumienia dzisiejszego świata. I po trzecie, podnosi atrakcyjność dyscypliny, a co za tym idzie – również i finanse na nią łożone. W taki oto zatem sposób zamyka się koło popytu i podaży na naukową treść archeologiczną. I o ile w teorii mechanizm wydaje się chodzić jak w przysłowiowym szwajcarskim zegarku, to w praktyce trochę się on zacina… 

Ilustracja wykonana w Midjourney. Prompt: Obraz starożytnych Egipcjan w strojach stylizowanych na Abbę podczas codziennych prac rolniczych na tle piramid i Nilu, ed. K.K.
Ilustracja wykonana w Midjourney. Prompt: Obraz starożytnych Egipcjan w strojach stylizowanych na Abbę podczas codziennych prac rolniczych na tle piramid i Nilu, ed. K.K.

Wizualizacje w archeopopularyzacji

Stworzenie naukowego obrazu przeszłości to bowiem jedno, drugie zaś to jego formalne ukazanie. I to właśnie w sferze praktycznej tkwi największy problemem archeologicznej komunikacji. 

Jak bowiem ukazać przeszłość całościowo, bazując na fragmentarycznie zachowanych informacjach? 

W sukurs przychodzą kolejne interpretacje…

I tak, w trakcie takiego złożonego i nad wyraz trudnego procesu badawczego, tworzona jest kolejna koncepcja. Tym razem jednak zdecydowanie bliżej jej do definicji terminu narracja aniżeli rekonstrukcji w ścisłym tego słowa znaczeniu. Na tym bowiem etapie format “obrazu przeszłości” zależy już nie tyle od jednostkowych dowodów naukowych, ale licznych analogii, domysłów, intuicji badacza, jego doświadczenia, a przede wszystkim – umiejętności storytellingu. W tym bowiem momencie archeolog z naukowca/odkrywcy przeradza się w opowiadacza. Jego zadaniem zaś staje się przekazanie historii z pełnym jej osadzeniem. 

Jak jednak sprawić, by w dzisiejszym świecie była ona łatwiej przyswajalna i zapamiętywalna? 

Jednym z takich narzędzi jest wizualizacja. Jej wykonanie zaś zleca się artystom. W ten oto sposób staje się on uczestnikiem kolejnego, plastycznego tym razem procesu konceptualizacji przeszłości. Jego efektem zaś jest ilustracja, będąca rezultatem artystyczno-naukowego kompromisu. 

Tu jednak, na drodze do osiągnięcia owego kompromisu, napotykamy kolejne problemy natury iście materialistycznej, bo związanej krótko mówiąc z finansami. Odpowiednie finansowanie pozwala bowiem na tworzenie licznych i wartościowych wizualizacji. Jego brak natomiast uniemożliwia angaż oraz wynagrodzenie artystów za ich rzetelną pracę. W efekcie niestety, wiele naukowych wizji przeszłości nigdy nie wychodzi nawet poza sferę wyobraźni archeologów.

Wydawałoby się, że rozwiązaniem tego problemu mogłyby być powszechnie dostępne zdjęcia zabytków, dokumentacja lub wsparcie zdolnej szwagierki czy utalentowanego potomka. Niestety, po pierwsze – nawet najlepsze zdjęcia zabytków nie zastąpią obrazu, który jest nie tylko całościowy, ale i bardziej przystępny poznawczo, a po drugiego – ile czasu może poświęcić osoba w ogóle niezwiązana z tematem na pracę twórczą a) wykraczającą poza zakres jej zainteresowań własnych i b) niekomercyjną…

Ilustracja wykonana w DaVinci. Prompt: Obraz starożytnych Egipcjan w strojach stylizowanych na Abbę podczas codziennych prac rolniczych na tle piramid i Nilu, ed. J.M.C.
Ilustracja wykonana w DaVinci. Prompt: Obraz starożytnych Egipcjan w strojach stylizowanych na Abbę podczas codziennych prac rolniczych na tle piramid i Nilu, ed. J.M.C.

 W tym właśnie miejscu pojawia się zatem generatywna Sztuczna Inteligencja, cała na… szaro? 

Tak, na szaro. Bowiem choć jest szybka, atrakcyjna i ekonomicznie dostępna, to wykorzystanie jej generuje szereg istotnych etycznie i merytorycznie problemów, zarówno ze strony archeologa, artysty, jak i odbiorcy wizualizacji. Większość z nich można sprowadzić do hasła „projekcje projekcji”. Dlaczego? 

O tym poniżej. 

Projekcje w praktyce

Archeowizualizacje będące efektem kompromisu sztuki i nauki już same w sobie są projekcjami tego, jak wyglądała przeszłość. Nie pokazują bowiem tej przeszłości, ale raczej odpowiadają na pytanie: jak sobie tę przeszłość dzisiaj wyobrażamy. Z obrazami generowanymi przez Sztuczną Inteligencję jest jednak zdecydowanie gorzej w tym aspekcie. 

Nie tylko bazuje ona na tym, co już zostało przez ten kompromis wypracowane, ale jeszcze bardziej go upraszcza poprzez szereg zabiegów uogólniających… Działa ona bowiem w oparciu o duże modele językowe uczone na ogromnych zbiorach danych. Ich celem zaś nie jest rozumienie przeszłości i jej ukazywanie, ale tworzenie treści w oparciu o predefiniowane związki pomiędzy słowami a dostępną bazą danych. Bazą danych, która bardzo często nie jest znana publicznie, a której zakres z perspektywy archeologa może być tendencyjny – albo mocno ograniczony, albo skupiony wyłącznie na najpopularniejszych tematach.

Jak to działa w praktyce?

Na przykładzie. W dowolny generator Sztucznej Inteligencji wpisujemy następujący prompt: „rzymski miecz gladius leżący na kamieniu”.  Model po zapoznaniu się z „poleceniem” dzieli je na tokeny:

– „rzymski”, który kojarzy z archeologią, antykiem, typowymi rzymskimi detalami, 

– „gladius”, który pozwala mu na zidentyfikowanie konkretnego przedstawienia i jego formy, w tym wypadku specyficznej broni białej o krótkiej klindze, prostej rękojeści i lekko prostokątnym jelcu (część rękojeści), 

– „leżący na kamieniu”, który identyfikuje kontekst w jakim model ma ukazać dany przedmiot.

Każdy token ma przy tym przypisany wektor znaczeniowy określający jego wizualne cechy. Na podstawie takiego rozbicia promptu, model generuje następnie obraz, łącząc statystycznie prawdopodobne cechy każdego z tokenów. Nadaje więc przedmiotowi formę, proporcje, dobiera materiał, z którego go wykonano, uwzględnia detale historyczne jak np. żłobienia na rękojeści i umiejscawia go w stosownym otoczeniu. 

Sztuczna Inteligencja stara się przy tym nie “zmyślać”, ale bazować na wzorcach, czyli – wykorzystuje cechy gladiusów, które znajdują się w jej bazie danych.

Po kilku kolejnych wizualnych sznytach, których dokonuje w trakcie buforowania – ta dam! 

Obraz gotowy.

Uproszczony proces generowania obrazu z wykorzystaniem Midjourney. Ed. A.C.

Żyleta, jakby to ktoś mógł bardzo kolokwialnie ująć. 

Jaki jest jednak problem? 

Wizualizacja ta nie przedstawia niestety żadnego prawdziwego przedmiotu, a jedynie pewne wyobrażenie tego jak statystycznie mógłby on wyglądać w oparciu o… właśnie, o co? 

Tutaj pojawia się pierwszy poważny problem z wykorzystywaniem generatywnej Sztucznej Inteligencji. Nie wiemy bowiem na jakich danych ona faktycznie bazuje i w jaki sposób je przetwarza. Fakt ten rodzi zatem szereg pytań na temat tego, na czym opiera się wyobrażenie ukazanego gladiusa. Czy do jego wykonania model skorzystał ze zdjęć oryginałów pochodzących z katalogów muzealnych? A może bazował na ilustracjach naukowych lub archeologicznych rekonstrukcjach? Jeżeli na ilustracjach naukowych, to czy pochodziły one jedynie z czasopism w wolnym dostępie (open access), czy może jednak miał on możliwość sięgnięcia za paywall większości naukowych wydawnictw? A co jeżeli model korzystał jedynie z innych dostępnych źródeł internetowych, które niekoniecznie są odpowiednie dla poprawnego merytorycznie przekazu treści? 

Podstawowym pytaniem, które jest również uniwersalne dla wszystkich treści generowanych przez Sztuczną Inteligencję jest też to, czy połączenia pomiędzy tokenami a ich wizualizacjami w ogóle zostały prawidłowo zdefiniowane… Kolejna kwestia w tym zakresie to ta, czy w ogóle mogły, jeżeli wykonał je zapewne niearcheolog. Zresztą, pytanie brzmi, czy w ogóle sam archeolog byłby w stanie je prawidłowo zdefiniować, jeżeli wychodziłyby one poza zakres jego specjalizacji. Wszystko to możemy uznać za drugi poważny problem z wykorzystywaniem generatywnej Sztucznej Inteligencji.

W świetle powyższych, wizualizacja “rzymskiego miecza gladius leżącego na kamieniu” jawi się zatem jako pewne wyobrażenie tego jak statystycznie mógłby on wyglądać w oparciu o prawdopodobieństwo, że dobrze zdefiniowano wyodrębnione z promptu tokeny oraz powiązano je z rzetelnymi danymi. I nawet jeżeli uznamy, że wszystkie dane są prawidłowe, a powiązania poprawne, to z przedstawieniem tym może być wciąż dużo więcej problemów…

Wykorzystany model może bowiem wprowadzić elementy niepoprawne merytorycznie. Od ogólnych jak zły charakter korozji miecza czy niespójny stan zachowania, po bardziej szczegółowe jak ornamentowana rękojeść – cecha nie występująca na tym przedmiocie w rzeczywistości. Czy stanowi to poważny problem? 

Ilustracja wykonana w ChatGPT. Prompt: archeolog w XIX-wiecznym gabinecie, pochylony nad książkami i notatkami, otoczony zabytkami, ilustracja w stylu XIX wieku, realistyczny rysunek tuszem, ed. J.M.C.
Ilustracja wykonana w ChatGPT. Prompt: archeolog w XIX-wiecznym gabinecie, pochylony nad książkami i notatkami, otoczony zabytkami, ilustracja w stylu XIX wieku, realistyczny rysunek tuszem, ed. J.M.C.

Tutaj pojawia się hasło wytrych: to zależy!

I to od wielu czynników. 

Halucynacje Sztucznej Inteligencji

Podstawowymi czynnikami wpływającymi na rzetelność wizualizacji generowanych przez Sztuczną Inteligencję są między innymi stopień szczegółowości przedstawienia i jego temat. Im bowiem więcej elementów, które chcielibyśmy zaprezentować, tym trudniej modelowi poruszać się w relacji token-obraz, przez co zaczyna uogólniać/generalizować przedstawienie. Z kolei więcej problemów pojawia się wraz z generacją obrazu o bardziej egzotycznej tematyce, w mniejszym stopniu reprezentowanej w bazie danych. Wtedy to model zaczyna halucynować, czyli wypełniać luki danego promptu informacjami losowymi bądź statystycznie najbardziej zbliżonymi do zdefiniowanych uprzednio wektorów znaczeniowych danego tokenu. 

W efekcie powstaje obraz, który według archeologa jest niezgodny merytorycznie z rzeczywistością. Według modelu zaś jest on z kolei najbardziej prawdopodobny w procesie generowania, czyli przełożenia promptu na pojedyncze tokeny i następnie ich spójnego zwizualizowania. W przypadku archeologii problem ten dotyczy przede wszystkim przedstawień grup społecznych/kultur mniej popularnych/reprezentowanych. W efekcie, wszystko co rzymskie (a dokładniej imperialnorzymskie) będzie zwizualizowane +/- poprawnie. Jeżeli jednak będziemy chcieli generować obrazy związane np. z peruwiańskim imperium Wari, ba, czy nawet samymi Inkami, generatywna Sztuczna Inteligencja nie na wiele się nam tutaj przyda.

Do powyższych dochodzą również kwestie związane z prawami autorskimi, licencjami, wykorzystaniem treści internetowych, cudzej własności intelektualnej oraz stylistyki, które są uniwersalne dla korzystania z dużych modeli językowych oraz generatywnej sztucznej inteligencji. 

Czemu jednak ich stosowanie w archeologii, czy ogólnie naukach humanistycznych, wydaje się aż tak drażliwe? Sprawdźmy.

Ilustracja wykonana w Midjourney. Promt: archeolog w XIX-wiecznym gabinecie, pochylony nad książkami i notatkami, otoczony zabytkami, ilustracja w stylu XIX wieku, realistyczny rysunek tuszem, ed. J.M.C.
Ilustracja wykonana w Midjourney. Promt: archeolog w XIX-wiecznym gabinecie, pochylony nad książkami i notatkami, otoczony zabytkami, ilustracja w stylu XIX wieku, realistyczny rysunek tuszem, ed. J.M.C.

Truthiness, czyli subiektywne poczucie prawdziwości 

Największy problem naszego dzisiejszego funkcjonowania w świecie wydaje się tkwić w tym, że – jak wykazały badania eksperymentalne z zakresu psychologii – większość z nas widząc jakąś opublikowaną treść – czy to obraz czy tekst – od razu zakłada, że jest ona prawdziwa. Badacze do opisania tego zjawiska często stosują termin stworzony przez amerykańskiego komika Stephena Colberta „truthiness”. W języku polskim nie ma niestety dobrego dla niego odpowiednika, ale w zasadzie można byłoby go przetłumaczyć na nieco przydługie „subiektywne poczucie prawdziwości”. Abstrahując jednak od samej nazwy. Czy wiesz, że mechanizm stojący za truthiness jest jednym z tych, które powodują, że łatwo ulegamy złudnemu poczuciu wiarygodności i dajemy się nabrać na różne manipulacje medialno-marketingowe? Yup! 

I chociaż twardo opieralibyśmy się n-tej reklamie czy nagonce medialnej, nie zmienimy niestety faktu, iż – jak w powiedzeniu – „kłamstwo powtarzane wiele razy staje się prawdą” – wyeksponowani na działanie tychże zabiegów, zaczniemy w końcu widzieć w nich sens. Do tego dojdzie po drodze jeszcze nasza zwykła, ludzka heurystyka i voilà! W dużym uproszczeniu – mamy gotowy przepis na znalezienie się w pułapce frywolnej (delikatnie mówiąc) projekcji. Projekcji, która w archeologii jest już i tak nad wyraz problematyczna… 

W takiej właśnie sytuacji znajduje się czytelnik ze Wstępu, który oglądając ilustrację do artykułu o starożytnym Egipcie, utwierdza się w przekonaniu o prawdziwości przekazu stworzonego przez Sztuczną Inteligencję. I będąc niepoprawnymi optymistami, wierzymy w to, że zada sobie serię pytań odnośnie przedstawienia i ukazanych na nim postaci. Co jednak, gdy w natłoku współczesnych wydarzeń i zalewu informacji, nie zrobi tego i zostanie jedynie z tym niezbyt fortunnym obrazem przeszłości?

Ilustracja wykonana w DaVinci. Promt: archeolog w XIX-wiecznym gabinecie, pochylony nad książkami i notatkami, otoczony zabytkami, ilustracja w stylu XIX wieku, realistyczny rysunek tuszem, ed. J.M.C.
Ilustracja wykonana w DaVinci. Promt: archeolog w XIX-wiecznym gabinecie, pochylony nad książkami i notatkami, otoczony zabytkami, ilustracja w stylu XIX wieku, realistyczny rysunek tuszem, ed. J.M.C.

Sztuczna Inteligencja w służbie przeszłości!

Tutaj właśnie jesteśmy my, redakcja Archeowieści, która po dwóch latach działań z wizualizacjami generowanymi z wykorzystaniem Sztucznej Inteligencji, we współpracy z Wydziałem Archeologii Uniwersytetu Warszawskiego oraz Wydziałem Nauk Społecznych Uniwersytetu SWPS w Warszawie przygotowuje ankietę problemową dotyczącą tego, jakie reakcje wzbudzają one w odbiorcach, czyli Was, naszych czytelnikach. 

Ankieta ruszy już 20 października (!), w związku z czym, zachęcamy gorąco do jej wypełnienia i podzielenia się informacją z innymi osobami zainteresowanymi wykorzystaniem nowych technologii w humanistyce! 

Bądźcie z nami!

Projekt „Interpretacja treści wizualnych generowanych przez sztuczną inteligencję w komunikacji naukowej archeologii: perspektywa autorów i odbiorców” jest realizowany przez Wydział Archeologii Uniwersytetu Warszawskiego we współpracy z Uniwersytetem SWPS w Warszawie i dofinansowany ze środków Inicjatywa Doskonałości Uczelnia Badawcza na Uniwersytecie Warszawskim.

Rozpowszechniaj

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *