Dzisiaj na blogu LGL naszym gościem jest Maciej Żemojcin reprezentujący PixelRace i ATM Virtual, które zajmują się wirtualną produkcją, skanowaniem 3D.

Dorota Pielak: Myślę, że wiele osób nie wie, czym jest wirtualna produkcja – czy możesz powiedzieć, co to jest, na czym polega Wasza praca, jakie ma zastosowania?

Maciej Żemojcin: Wirtualna produkcja to zestaw narzędzi do łączenia rzeczywistości fizycznej i cyfrowej w czasie rzeczywistym. Gdy mam to wytłumaczyć dziecku, które pyta mnie co robię, to mówię: biorę kamerę, jestem w grze komputerowej i bawię się tą kamerą w grze, tak żeby powstał film. Czasem też odpowiadam na to pytanie, mówiąc, że zajmują się teleportacją aktorów w dowolne miejsca na Ziemi, albo w wyobraźni.

Zajmujemy się rzeczywistością, która jest wirtualna, ale ma określone przez nas cechy fizyczne i jest z rzeczywistością fizyczną połączona, jest jej rozszerzeniem. Stąd spotkamy się czasem z nazwą XR, czyli Extended Reality. Dążymy do tego, żeby obiekty widziane przez kamerę wyglądały jak kontynuacja rzeczywistości fizycznej. To znaczy, naszym celem jest uczynić tę granicę między rzeczywistościami jak najbardziej niewidzialną. W wirtualnej produkcji gra komputerowa powinna naturalnie łączyć się z częścią aktorską i fizyczną.

DP: Jakie zastosowanie w biznesie może mieć wirtualna produkcja?

MŻ: Wirtualne studio, które posługuje się cyfrową scenografią, jest używane najczęściej w produkcji telewizyjnej i filmowej. My w ten sposób pomagamy produkować filmy kinowe, seriale i reklamy telewizyjne.

Historia tej technologii zaczęła się w 2018 roku, od czasu serialu Star Wars Mandalorian, gdzie po raz pierwszy wprowadzono wirtualną produkcję do poważnej produkcji filmowej. Wtedy pojawiły się w studiu ogromne ekrany LED, które miały kilkadziesiąt metrów długości i 6 m wysokości. Taki ekran jest naszym wirtualnym oknem, przez które oglądamy wirtualną, rozszerzoną rzeczywistość.

W największym uproszczeniu mamy trzy tzw. warstwy (layers), które składają się na finalny obraz:

  • kamera patrzy na aktorów,
  • za nimi i wokół nich znajduje się fizyczna scenografia,
  • a następnie głębiej stoją ekrany LED i to jest początek wirtualnej rzeczywistości – tzw. wirtualne okno.
IKTVA Aramco I Split Screen from ATM Virtual on Vimeo.

Z każdej pozycji kamery ta wirtualna rzeczywistość wygląda tak, jakby była rozszerzeniem rzeczywistości fizycznej.  W telewizji jest to stosowane w wersji, powiedziałbym, podstawowej. Dobrym przykładem jest studio sportowe, gdzie komentujący przenoszą się na murawę boiska. My zajmujemy się zastosowaniem filmowym, które skupia się bardziej na szczegółach i jakości, ponieważ nie jest oglądane przez publiczność na żywo, ale w kinie na dużym ekranie.

Warto jeszcze dodać, że wirtualna produkcja rozwijała się wyjątkowo szybko w 2019 i 2020. COVID uniemożliwił nam podróże, więc zmusił wszystkich filmowców do szukania innych rozwiązań. Takim rozwiązaniem była wirtualna produkcją, która jak już wspomniałem, jest swojego rodzaju teleportacją bez opuszczania studia filmowego.

kontrola rzeczywistości bez opuszczania studia filmowego

DP: Widzowie najczęściej nie zdają sobie sprawy, że scenografia filmowa powstała z zastosowaniem wirtualnej produkcji. Mandalorian był pionierem, ale czy wiele filmów obecnie powstaje teraz z zastosowaniem wirtualnej produkcji? Czy to jest powszechne zjawisko?

MŻ: Zacznę od tego, że wirtualna produkcja nie jest do wszystkiego. Podobnie jak np. telewizja nie zabiła kina i funkcjonują jedno obok drugiego. VP (Virtual Production) jest jednym z narzędzi filmowych, które powoli wchodzi do kanonu. I tu już uprzedzam pytanie, czy wirtualna produkcja zastąpi produkcję na tzw. lokacji, czyli w plenerze? – nie zastąpi. Stosujemy VP tam, gdzie faktycznie z jakiś powodów opłaca nam się ją zastosować. Opłaca – to znaczy budżetowo, ale również jakościowo i artystycznie. Uzyskujemy efekt, którego by nie było w owej „normalnej” lokacji filmowej. I tutaj spotkamy się z pojęciem ICVFX (In Camera Visual Special Effects), czyli efekty specjalne, które dzieją się w czasie rzeczywistym, które nagrywamy kamerą bezpośrednio na planie filmowym, a nie w tzw. postprodukcji, czyli dodawane po nakręceniu zdjęć.

Wirtualna produkcja daje nam wyjątkową kontrolę. Możemy np. kręcić zachód słońca cały dzień. Dobrym przykładem jest serial „Odwilż” dostępny na HBOMax, w którym akcja dzieje się w większości w nocy w Szczecinie, a my kręciliśmy go w dzień w Warszawie. 80% przejazdów samochodowych w „Odwilży” jest nakręcone w naszym studiu z zastosowaniem wirtualnej produkcji. To jest tzw DrivingStage. Dzięki temu możemy bez wychodzenia ze studia kręcić zwykle ogromnie wymagające i skomplikowane przejazdy samochodowe. Sceny te normalnie wymagają blokowania dróg dla potrzeb ekipy filmowej. My załatwiamy to wszystko w studiu na prawie statycznym samochodzie.

BOSCH Filter+ | Split Screen from ATM Virtual on Vimeo.

zaczerpnąć z natury do rzeczywistości cyfrowej

DP: Interesuje mnie, w jaki sposób powstają wirtualne scenografie, tak od zera. Czyli wyobraźmy sobie scenografię, którą jest na przykład pustynia, miasto, wnętrze. Czy te obrazy są przez Was tworzone od początku w programach do generowania 3D? Czy może czerpiecie skądś materiały, nad którymi następnie pracujecie?

MŻ: Tak zwane wirtualne lokacje, które są wygenerowane w 100% na komputerze w jakiejś mierze zawsze będą wyglądać „komputerowo”. Dlatego jesteśmy ogromnymi fanami skanowania 3D, czyli jakby zaczerpnięcia z natury do rzeczywistości cyfrowej. Można w lokacjach komputerowych wprowadzać pewne elementy chaosu, ale nasz mózg ma ogromne możliwości podświadomego rozróżniania co jest prawdziwe, a co wygenerowane. Więc można powiedzieć, że pobieramy pewne fundamenty w postaci skanów 3D lub jakiś wzorców z natury i nakładamy na nie wirtualną rzeczywistość. 

foto. własne PixelRace Maciej Żemojcin

DP: Ale czy to znaczy, że wtedy robicie zdjęcie jakiemuś elementowi rzeczywistości, która nas otacza i na jego podstawie tworzycie wizualizację scenografii w komputerze?

MŻ: W dużym przybliżeniu – tak. Posługujemy się różnymi technikami od prostej fotografii, przez tzw. fotogrametrię (czyli składanie modeli trójwymiarowych z setek zdjęć), czy skanowaniem laserowym, które pochodzi z geodezji. Coraz więcej pomaga nam też sztuczna inteligencja.

Wirtualna rzeczywistość musi mieć pewną dozę chaosu w sobie. Rzeczywistość jest nie tyle niedoskonała, co na tyle skomplikowana, że te proste algorytmy nie spełniają swojego zadania. To dobrze widać na przykładach. Wytwory przemysłowe np. meble, w komputerze wychodzą tak, że nie jesteśmy w stanie rozróżnić, czy to jest prawdziwe, czy co nie. Ale już, gdy mamy fotografię, albo jeszcze lepiej ruchomy obraz ludzkiej twarzy, to w większości przypadków rozróżniamy w ciągu ułamka sekundy, że to jest obraz wygenerowany komputerowo, albo rzeczywisty.  To jest ta złożoność natury. Dlatego staramy się budować na skanach 3D. Jakby budujemy na tym fundamencie naturalnym.

przyspieszenie 75 razy – czyli 7500%

DP: Czyli wybieracie rzeczywisty obiekt, robicie mu zdjęcie lub skan 3D lokacji i następnie przenosicie to do komputera?

MŻ: Tak – to, w co mocno wierzymy, to jest właśnie zbieranie danych z natury. Skanowanie 3D to pobieranie informacji o kształcie i kolorze rzeczywistości. Robi się to skanerami różnego rodzaju i aparatami fotograficznymi. Tych wszystkich zabawek jest trochę, ale w końcu chodzi nam o to, żeby zebrać trójwymiarowe dane.

Na to później będziemy nakładać różnego rodzaju warstwy komputerowo wygenerowane, czyli informacje o tym, jak się ten obiekt zachowa się w warunkach fizycznych. Obecne karty graficzne w komputerach specjalizują się w symulowaniu właściwości fizycznych, to tzw. karty RTX. W tym momencie to są komputery w komputerach, często ich moc obliczeniowa jest większa od głównego procesora. Niedawno zrobiliśmy taki test. Porównaliśmy kartę graficzną: a/współczesną, b/sprzed 2 lat, c/sprzed 8 lat, czyli przecież nie taką starą, bo z 2015 roku. Okazało się, że to co najnowsza karta oblicza co 12 minut, tej sprzed 2 lat zajmuje 21 minut, a karta sprzed 8 lat pokazała pasek postępu na 15 godzin! To jest gigantyczny postęp i przyspieszenie. Porównajmy go z inną dziedziną techniki – co się wydarzyło w ciągu 8 lat w np. w motoryzacji? Samochód sprzed 8 lat, czyli z 2015 roku nie będzie praktycznie wcale inny, może jakieś detale stylistyczne, może normy ekologiczne, ale będzie to relatywnie nowe i współczesne auto. W komputerowych kartach graficznych nagle mamy postęp rzędu 15 godzin do 12 minut, czyli przyspieszenie 75 razy – czy 7500%, jak kto woli. To są inne rzeczywistości obliczeniowe. Tak zwany „pasek postępu” zaczyna zanikać i powoli, żyjemy w rzeczywistości, gdzie wymagamy od komputerów, żeby było „na żywo”, już: real-time!

digital presence, czyli ogólnie teleportacja

DP: Z punktu widzenia prawa autorskiego zastanawiam się, czy Wasza finalna praca, którą widzimy już jako scenografię, jest utworem, który tworzycie od początku, czyli czy jest utworem oryginalnym. Czy też jest to może opracowanie, bo np. wykorzystujecie do stworzenia tej wirtualnej scenografii jakieś inne utwory, które już kiedyś ktoś stworzył?

MŻ: Jest na świecie rosnąca grupa ludzi, którzy pobierają dane z natury i na tej podstawie tworzą pewne gotowe elementy, takie prefabrykaty, tak zwane assety. Jeślibyśmy chcieli wszystko stworzyć od początku, jeśli chcielibyśmy zacząć od zupełnie czystej karty, to zwyczajnie takie działanie byłoby bardzo drogie i czasochłonne. Mogę dać przykład z dzisiaj. Jest klient, który zamawia od nas wirtualne lotnisko. Jeślibyśmy chcieli stworzyć od początku wirtualne lotnisko, to poszlibyśmy na lotnisko, zrobili zdjęcia i zaczęlibyśmy to modelować i tak krok po kroku. I już wiemy, że klient musiałby zapłacić za to bardzo dużo. A możemy też kupić za 1000 zł gotowe assety lotniska i dalej nad nimi pracować. Są też miejsca aukcyjne – tam wielu ludzi sprzedaje swoje assety modelowe, bo po prostu wymyśla – a teraz sobie zrobię takie lotnisko w komputerze, a może do tego taki prefabrykat. Czyli można pojechać na lotnisko, zrobić samemu zdjęcia i wymodelować na komputerze, albo zakupić taki prefabrykat, na którym dalej można pracować. Można też połączyć jedno i drugie – powiedziałbym, że wtedy to jest taki domek dla lalek. Układamy sobie wszystkie nasze mebelki, które pasują do naszej wizji, oświetlamy tak, żeby dobrze wyglądały i stosujemy w wirtualnej produkcji.

DP: Aha, czyli jeśli dobrze rozumiem, model biznesowy takiego studia jak Wasze może wyglądać tak, że z jednej strony zajmujecie się wirtualną produkcją dla klientów końcowych, którzy potrzebują scenografii, a oprócz tego produkujecie assety, prefabrykaty, dla innych twórców wirtualnej produkcji? 

MŻ: Jako PixelRace zajmujemy się opracowaniem technologii i produkcją narzędzi do czegoś co określamy jako Digital Presence, czyli ogólnie teleportacją. Jesteśmy również udziałowcami studia wirtualnej produkcji – ATM Virtual, które jest naszą częścią usługową. Jest bardzo ważne dla nas, ponieważ daje nam ciągły feedback od klienta końcowego. W ten sposób testujemy nasze produkty w realnych warunkach produkcyjnych i możemy je wciąż ulepszać.

digital twin, czyli wirtualne odwzorowanie obiektu

DP: A czym jest zarządzanie assetami? 

MŻ: Weźmy taki przykład: zeskanujmy jakiś rzeczywisty, muzealny obiekt historyczny, który ma pewne wymiary, obejmuje określony teren itd. Zebraliśmy w ten sposób gigantyczną ilość danych, wiemy, gdzie dokładnie leży każdy kamień w tym miejscu, albo wiemy co do ułamka milimetra, jak wygląda każdy eksponat. Muzeum nie ma odpowiednich kompetencji i infrastruktury, nawet do tego, żeby korzystać z wytworzonych danych. Musiałoby stworzyć firmę taką jak nasza w swoich wewnętrznych strukturach. Samo przetwarzanie np. 200 terabajtów danych bez odpowiedniego komputera jest dla takich podmiotów niemożliwe, a co dopiero ich praktyczne wykorzystanie.

Mówimy o zarządzaniu assetami 3D dla klientów, którzy chcieliby udostępniać na określonych platformach, w tym komercyjnych, swój tzw. digital twin, czyli wirtualne odwzorowanie swojego obiektu, albo jego części. Tutaj pewnie zahaczamy też o Waszą działkę. To znaczy, najpierw musimy odpowiedzieć na pytanie, czym jest asset, który klient chce skomercjalizować, udostępniać. I czy ten asset będzie udostępniany na zasadzie licencji klientom końcowym, w imieniu naszego klienta, właściciela digital twin. My obsługujemy ten asset technicznie dla odbiorców końcowych naszego klienta.

Ponieważ odbiorcą końcowym takiego assetu muzealnego może być np. uczeń w szkole, albo nauczyciel, który chciałby pokazać eksponat z muzeum albo górę w parku narodowym za pomocą narzędzi dostępnych dla uczniów w szkole. Uczeń nie obsłuży terabajtów danych na swoim smartfonie, więc ktoś musi dostarczać narzędzia i odpowiednio zarządzać tym assetem, żeby różni odbiorcy mogli z niego odpowiednio korzystać- od klienta profesjonalnego, do dziecka w szkole. Każdy korzysta z assetu mając różny poziom dostępu do tych samych danych.

foto. własne PixelRace Maciej Żemojcin

DP: Dobrze rozumiem, że poprzez stosowanie narzędzi rozumiemy też jakiś rodzaj kompilacji, coś co spowoduje, że w szkolnym komputerze będzie można to otworzyć?

MŻ: Tak, oczywiście, to jest możliwe. Przyszłościowo patrząc, to byłoby najbardziej ekscytujące, żeby wszyscy pracowali na tych samych danych. To znaczy, że gdy np. spadnie śnieg w Tatrach, to żeby na żywo można było zobaczyć, gdzie ten śnieg leży. Żeby na tym samym assecie danych pracowało dziecko, które uczy się o Tatrach i turysta, który chce podejrzeć, czy jest odpowiednia pokrywa śniegu i warunki narciarskie lub GOPR który chce wiedzieć, jakie jest zagrożenie lawinowe w danym miejscu.

Każdy pobierałby dane za pomocą różnych narzędzi na różnych poziomach, z tego samego zbioru danych, które dodatkowo byłyby generowane na żywo. To są najcenniejsze dane: takie które są generowane na żywo, albo które dają możliwość porównywania. Bo chcemy się dowiedzieć, co w danym miejscu jest teraz, albo zobaczyć jak to samo miejsce wyglądało w innej porze roku albo 50 lat temu; czy drzewa urosły od zeszłego roku?

foto. własne PixelRace Maciej Żemojcin

utrwalić przed zniszczeniem

DP: Chciałabym wrócić jeszcze do tematu, o którym trochę już wspomniałeś. Z tego co wiem, wykonujecie też skany 3D obiektów historycznych lub dziedzictwa kulturowego.

MŻ: Wykonywanie skanów obiektów historycznych, czy też takich obiektów, które mogą ulec zniszczeniu jest niesłychanie ważne. Jest to dokumentacja, pewnego rodzaju działanie konserwatorskie, czyli zachowywanie informacji o tym, jak ten obiekt wygląda. Jeśli zrobimy precyzyjny skan 3D jakiegoś obiektu, to w przypadku, gdyby uległ zniszczeniu, możemy go odtworzyć. Wykonaliśmy np. skan 3D bramy „Arbeit Macht Frei” w Muzeum Auschwitz-Birkenau.

Auschwitz KL1 3D Scan Snow from PixelRace on Vimeo.

DP: Gdy rozmawiamy o projektach związanych z archiwizowaniem obiektów historycznych, przypomina mi się film pt.  „Warszawa 1935” – ok. półgodzinny film, który można było kilka lat temu obejrzeć w kinach. To był film animowany, ale bardzo realistyczny, który pokazywał jak wyglądała Warszawa w latach 30. Dzięki temu mogliśmy zobaczyć Warszawę sprzed wojny, której już nie ma. Gdy o tym opowiadasz, zastanawiam się czy być może to było wykonane właśnie w formie wirtualnej produkcji i czy w podobny sposób Wy pracujecie?

MŻ: Nie ma Warszawy z lat 30, więc nie możemy zeskanować prawdziwej rzeczywistości.

DP: Ale być może można byłoby na podstawie setek zdjęć wygenerować taki historyczny asset 3D z przeszłości?

MŻ: Takie możliwości już się pojawiają. Niedawno pojawiły się technologie rozwijane przez firmy Google i Nvidia. PixelRace jest jednym ze wspieranych przez Nvidia startupów w programie Nvidia Inception. Stąd mamy dostęp do takich pionierskich technologii na etapie działającego prototypu.

Natomiast w komercyjnych i profesjonalnych projektach obecnie potrzebujemy ogromnej ilości zdjęć, żeby taki precyzyjny asset wygenerować. Do wygenerowania Warszawy z lat 30-tych trzeba by użyć algorytmów AI, które przy tak szczątkowych danych „domyślą się” pełnego obrazu poprzez wypełnienie luk.

DP: A jakie byłoby twoje WIELKIE MARZENIE w obszarze wirtualnej produkcji?

MŻ: Po pierwsze takim marzeniem jest dobra komunikacja między działami tradycyjnej produkcji filmowej i działem wirtualnej produkcji. Te zespoły mówią często o tych samych rzeczach, ale różnymi językami. To powoduje ogromną ilość „dziur” komunikacyjnych i nieporozumień. Bo „klasycy” myślą, że wszystko u nas jest „na już” i magicznie, a naprawdę jest to zwykle efekt długiej i systematycznej pracy.

Z tego wynika drugie marzenie, żeby udało szybciej przenosić pewne rzeczywistości do game engine’u, bo to jest największa bolączka w wirtualnej produkcji. W każdym rodzaju modelowania komputerowego jest ktoś, kto siada przed tzw. pustym canvas, czyli zaczyna od zera. Musi na tym bardzo dobrze znać się i coś stworzyć. To, że zaczynamy od pustego tzw. levelu to jest ogromny problem. Mogę to porównać do faktu, gdy 100 lat temu potrzebowaliśmy fotografa aparatem i z magnezją, który wiedział, jak posłużyć się aparatem fotograficznym, a teraz każde małe dziecko robi zdjęcia i to lepsze technicznie od tamtego dawnego fotografa.

Gdybym więc spotkał złotą rybkę, poprosiłbym ją o ulepszenie interfejsu, żeby każde studio wirtualne nie musiało skupiać się na tym, żeby wiedzieć, jak coś zrobić technicznie, ale żeby móc pracować więcej po stronie kreatywnej.

To co nas najbardziej cieszy to, że zbierzesz dane, tworzysz model, i możesz go przetwarzać. Możesz go przedstawić w scenografii zimowej, letniej i jakiej tylko sobie możesz wyobrazić. Możesz go przenieść na Marsa albo do wymyślonej przez ciebie rzeczywistości.

DP: Zatem tego Wam życzymy: żebyście mogli bardziej skupić się bardziej na pracy kreatywnej i żeby fale postępu były coraz częstsze. Dziękuję za inspirującą rozmowę!

foto. własne PixelRace Maciej Żemojcin
Udostępnij