46 slajdów · po lewej slajd, po prawej zredagowane notatki do czytania

Założeniem projektu jest stworzenie otwartego laboratorium AI. Celowo nie nazwałem go OpenAI, bo to już istniejąca firma, ale ideologicznie idea jest podobna: robimy rzeczy w sposób otwarty. Zamiast zamykać je w wewnętrznych repozytoriach laboratorium, pokazujemy je publicznie przez Discord i otwarte repozytoria, tak aby każdy mógł dołączyć, kontrybuować i działać wspólnie.

Estetyka projektu jest istotna: to przestrzeń punkowa, cyberpunkowa. Jeśli ktoś oczekuje korporacyjnych klimatów, znajdzie je raczej w korporacji Arasaka z Cyberpunka 2077. U nas dużo budujemy i eksperymentujemy, mamy bardzo otwarte podejście do ryzyka. Założenie jest takie, żeby dużo eksperymentować i dużo się nauczyć.

Zaczęło się od pomysłu, żeby stworzyć model lepszy od Bielika, ale nie chodzi wyłącznie o to. To jedna z rzeczy, które można zrobić jako laboratorium i która jest ciekawa dla społeczności, ale nie jedyna. Nie ma tu żadnej opozycji ani rywalizacji.

Istotna kwestia to nazwa. Na początku projekt nazywał się Slayer, w kontekście "Bielik Slayer" (pokonać Bielika). Szybko okazało się jednak, że z powodu praw autorskich nazwa należy do znanego zespołu muzycznego, więc trzeba ją zmienić. Na szczęście projekt działa już pod domeną fabryka.ai. Nazwa pozostaje do dyskusji, mamy do tego osobny kanał brandingowy.

W kanale brandingowym dyskutujemy o tym, jak nazwać projekt, jak ma wyglądać graficznie i jaki ma reprezentować klimat. Prawdopodobnie nazwy podprojektów i konceptów jeszcze się zmienią. Fabryka.ai to nazwa tymczasowa, choć jeśli nie znajdziemy nic lepszego, może zostać.

Z mojej perspektywy to otwarty warsztat stosowany, a nie czysto akademickie miejsce do pisania artykułów naukowych, które nie zostaną wdrożone. Zależy mi (i być może społeczności) na robieniu rzeczy, które rzeczywiście będą wykorzystywane. Celem jest, żeby ponad połowa firm używała modeli tworzonych tutaj albo powstających tu technologii programowania agentów.

Czego nam nie brakuje w Polsce, to talentu. Mamy wielu dobrze wykształconych programistów i inżynierów. Według statystyki, którą spotkałem, mniej więcej co setny Polak jest inżynierem lub programistą; wyższy współczynnik ma chyba tylko Izrael, a Indie to ok. 1 na 600. Polska ma też chyba drugie miejsce na świecie pod względem liczby laureatów Międzynarodowej Olimpiady Informatycznej. Talent więc mamy, brakuje procesu industrializacji. Wiedza jest w internecie, ale dopiero na styku biznesu i nauki powstają rzeczy stosowane. Wymaga to, żeby społeczność była świadoma, jakie problemy są do rozwiązania w biznesie, i na tej podstawie tworzyła ciekawe technologie w obszarze stosowanego AI.

Projekt powstał, zanim Fable 5 od Anthropic został odcięty. Wcześniej zauważyłem trend, że ludzie mocno dyskutują, który model zachodniej firmy jest lepszy: OpenAI, Claude czy Anthropic, a niemal nikt nie rozważa, że może nasz mógłby być lepszy. Chodzi o to, żeby mieć lokalną sprawczość i zbudować pętlę sprzężenia zwrotnego: robimy własne produkty, na danych z tych produktów uczymy lepsze modele i wewnętrznie budujemy kompetencje, dzięki czemu realnie rozwijamy polską technologię. Początkowo OpenAI też tak wyglądało: dużo publikowali, wiele rzeczy było otwartych. GPT-1 był otwarty, a przy GPT-2 uznali, że może jest zbyt niebezpieczny i trzeba go schować przed ludźmi. Była wtedy fala strachu. Dziś okazuje się, że taka niezależność technologiczna jest coraz bardziej potrzebna.

Chodzi o to, żeby nie być cyfrowym wyrobnikiem cudzych fabryk (tzw. digital sharecropper). Jeśli jedyne, co będziemy robić, to integrować wewnętrzne API zachodnich firm i dokładać roboczogodziny, to staniemy się tylko montownią, składającą gotowe komponenty. Idea to robić rzeczy niezależnie i oddolnie, tu i teraz, w oparciu o to, co mamy, zamiast czekać latami, aż jakiś instytut badawczy sfinansuje otwarty projekt. Nie twierdzę, że Slayer / fabryka.ai to pierwszy lab AI w Polsce, bo jest ich wiele, ale większość pracuje w modelu zamkniętym. Na przykład ElevenLabs robi świetne, najlepsze modele do generowania i rozpoznawania głosu, ale zamknięte: trzeba się zrekrutować, podpisać NDA i nie można łatwo publikować tego, co się stworzy. Tu model pracy jest inny.

Na Discordzie jest już 350 osób i 8 poziomów drabinki progresu. Prowadzi ona od osoby, która dopiero dowiedziała się o projekcie i biernie się rozgląda, aż po kontrybutora, który ma udział (equity) w projekcie i może dostawać granty badawcze. Założeniem jest, żeby nie budować struktury z małym rdzeniem robiących i tłumem obserwatorów dających lajki, tylko realnie upskillować dużą liczbę osób. Wielu ludzi, także senior inżynierów, chce wejść w świat AI nie tylko przez integrację API, ale przez fundamentalny frontier AI research: trenowanie własnych modeli od zera i budowę nietrywialnych systemów agentowych. To zawody przyszłości i podstawa cyfrowej niezależności. Rzeczy tworzone przez społeczność są na licencji MIT. Rozwiązuje to pytanie o pracę za darmo: działa to jak z Linuksem, gdzie Ubuntu sprzedaje consulting, by opłacić core zespół, ale nikt nie płaci za same kontrybucje. Nie robi się jednak za darmo rzeczy stricte komercyjnych dla konkretnej firmy do zamkniętego repo. Rzeczy community są open source.

Awans dostaje się za artefakty, czyli tworzone rzeczy, i dołączyć może każdy, niezależnie od specjalizacji. Potrzebne są nie tylko osoby techniczne do tworzenia i trenowania modeli, ale też ludzie do zbierania i filtrowania datasetów, prawnicy do sprawdzania legalności danych, architekci AI, a także osoby od zarządzania społecznością czy marketingu. Jest więc trak techniczny i nietechniczny. Silna jest kultura decentralizacji: nikt nie narzuca zadań z góry. Jeśli ktoś zgłasza sensowny projekt powiązany z obszarami zainteresowań grupy, dostaje autonomię i może stworzyć własne laboratorium. Drabinka zaczyna się od lurkera (od internetowego slangu, ktoś kto tylko obserwuje, bez żadnej presji). Potem jest user, który zaczął używać tych technologii i użytecznie kontrybuować, oraz operator, który bierze na siebie część systemu, zbiór ewaluacji, data pipeline lub kawałek interfejsu. Szczegóły drabinki są jeszcze do ustalenia i przedyskutowania.

Kolejny poziom to research fellow, który dostaje granty badawcze na większe jednostki pracy kończące się publikacją lub działającym oprogramowaniem, bo celem jest stosowanie tych rzeczy. Wyżej są jeszcze Maintainer i Core Team; niektóre projekty (jak SQLite z zaledwie kilkoma commiterami) mają wąskie grono. Powstaje platforma kursu, bo przy 350 osobach nie da się już mentorować każdego z osobna, więc trzeba wyłonić pierwszą kohortę, która zacznie trenować modele. Istnieją polskie modele jak Bielik i PLLuM oraz pewnie inne laboratoria. Nie chodzi jednak o trybalizm my kontra oni, tylko o rywalizację na benchmarkach, jak w środowisku open source: chińskie laby publikujące np. modele OCR licytują się co miesiąc, kolejno bijąc rekordy jakości. To zdrowa konkurencja rynkowa, która sprawia, że modele są coraz lepsze i coraz bardziej użyteczne w praktyce. To pierwsze spotkanie to miks opowieści o Slayerze i wstępu dla grupy kohortowej. Pobieżny przegląd procesu treningu: zaczynamy od modelu bazowego, robimy pomiar bazowy i przygotowujemy benchmarki, które chcemy ulepszyć. Potem zbieramy dane mające ulepszyć model, a następnie jest etap treningu, np. finetuning na parach pytanie-odpowiedź, z użyciem różnych metod i algorytmów. W zespole jest bardzo dobry doradca, który realnie się na tym zna, bo trenował modele kodingowe w Google, oraz dostęp do wielu innych bardzo kompetentnych osób, niekoniecznie stale aktywnych na Discordzie.

To jest strona Slayera na Hugging Face. Wrzuciłem przede wszystkim dataset, buduję polski DynaWorld, czyli w pełni otwarto-licencjonowany korpus, wzorowany na pracach skandynawskich.

Celem jest zbudowanie dynamicznego zbioru, dzięki któremu różne projekty mogą zaczynać pre-training modelu od zera, w oparciu o sprawdzony, sensowny zbiór danych.

Chodzi o legalność trenowania na tych danych. Jest tu dużo pracy prawniczej, żeby ogarnąć takie kwestie. To pierwszy model.

To są dane, na których można legalnie trenować. Prowadzone są dyskusje prawnicze o tym, na czym można, a na czym nie można trenować: jak wygląda trenowanie na treściach objętych copyrightem, które nie są na Creative Commons, i czy wolno to robić do celów naukowo-badawczych. To temat otwarty, dlatego w zespole jest prawnik, który pomaga te sprawy rozstrzygać.

Pierwszy model już wrzucony. Założeniem jest robić modele otwarcie: lepiej udostępnić model, na którym inni mogą trenować i eksperymentować, niż się zamykać. Wierzę w otwartość kulturową, a wzorem jest dla mnie Nous Research.

Nous Research to organizacja stojąca za modelami Hermes, o dość edgy estetyce.

Nous Research zbudowało agenta Hermes.

To jedna z najpopularniejszych aplikacji na OpenRouter, o wiele większa niż Claude. Nous Research zaczęło od finetuningu modeli w 2023 roku, a research doprowadził ich do stworzenia m.in. symulatora CLI.

Mają role-playing agenta, function calling, a nawet własnego concierge.

To nie było tak, że ktoś po prostu zrobił agenta Hermesa i nagle wystrzelił — wynikało to z tego, że mieli mocne laboratorium i wtedy się udało.

Finetuning modeli to podejście pragmatyczne, jeśli chcemy mieć działający model. Zamiast trenować od zera i wydawać miliony dolarów, można wziąć gotowy model — Mistrala, Qwena czy Gemmę — i go dofinetunować. Warto zacząć od większego modelu: np. zamiast Mistrala 7B (7 mld parametrów) wziąć model o 27 mld parametrów, który na starcie jest lepszy od Bielika w kodowaniu i wielu zadaniach agentowych, a potem dotrenować go do lepszego radzenia sobie z polskim. Martyna Kazimierczuk jest head'em tworzenia benchmarków. Budowa benchmarków to bardzo nieoczywisty i nietrywialny temat — łatwo zrobić benchmark na szybko, ale trudniej taki, który rzeczywiście mierzy to, co chcemy, ma moc dyskryminującą i nie jest nasycony. To bardziej sztuka i rzemiosło niż inżynieria.

Mamy już artefakty: model klasy GPT-2 (124 mln parametrów) wytrenowany całkowicie od zera. Nie ma wartości komercyjnej, ale pokazuje, że potrafimy trenować modele od podstaw. Mamy też Slayer GPT — finetune Qwena 27B, na który poszło około 50 różnych eksperymentów. Można nauczyć model np. języka JavaScript i wielu innych rzeczy. Budujemy otwarte laboratorium AI z czterema głównymi obszarami badań — finetuning jest jednym z nich, ale nie głównym. Warto polajkować główne repozytorium Slayer.

Warto też zafollować Slayer Labs.

Pytania możecie zadawać na bieżąco na czacie. Trenowanie modeli to trochę patrzenie na wykresy: mamy train loss, model, który się uczy, i funkcję, która ilościowo wyraża, jak powinno być, versus jak jest. Fundamentalna teoria jest prosta — to wsteczna propagacja gradientu przez kolejne warstwy modeli LLM, w istocie mnożenie macierzy i proste funkcje aktywacji. Wielkim wyzwaniem jest jednak robienie tego w dużej skali. To trudne i wymagające, ale można się tego nauczyć w dość krótkim czasie na poziomie podstawowym, żeby zrozumieć, jak to działa, i umieć dalej używać innych modeli. To nie znaczy, że każdy zrobi model nadający się produkcyjnie — zrobienie modelu, który bije inne modele, to wyjątkowo trudna rzecz. Rywalizacja head-on z big labami, które mają praktycznie nieskończony budżet na treningi i research, to trochę samobójstwo. Lepiej szukać obszarów, w których modele big labów nie radzą sobie idealnie, i tam rozwiązywać problemy — taka jest też sugestia Julka.

Mamy dostęp do H100 oraz potencjalnie 80 tysięcy dolarów do wydania na compute na AWS.

Zrobiłem około 50 różnych eksperymentów, więc zapraszam osoby zainteresowane technicznie — jest tu dużo technicznych rzeczy, przy których można podłubać.

Wykresy z treningu — krzywe treningowe. Robiąc te rzeczy, często robi się je źle, co bywa bolesne: ustawia się trening, a potem okazuje się, że coś było zepsute od początku i nie miało prawa się udać. Trenowanie modeli jest trochę jak pieczenie ciasta — trzeba mieć dobre dane, dobre materiały, odpowiednią ilość i dobry przepis. Do treningów zużyto ok. 14 tysięcy godzin H100; klaster ośmiu H100 spokojnie wystarczy na AWS. Możemy trenować coraz większe modele, ale nie chodzi o bezsensowne przepalanie compute, tylko o robienie czegoś, co ma sens. Czasami wychodzi dobrze, czasami rzeczy nie działają — i właśnie to jest wartość robienia tego w otwarty sposób: od razu widać, co nie wyszło nam i innym, i w kolejnych iteracjach można wykorzystać tę wiedzę. Dobrze skonstruowane evale pozwalają widzieć, gdzie wciąż popełniamy błędy. Warto, by team od evali był niezależny od teamu trenującego modele, żeby jedna drużyna nie podpatrywała drugiej — inaczej na produkcji okaże się, że model dobry na papierze w praktyce jest słaby.

Projekt generuje coraz więcej artefaktów, z których wiele jest dostępnych na Discordzie. Kierunki badawcze obejmują cztery obszary: modele, agentów, dane i ewaluacje. Przykład potrzeby komercyjnej: agenty typu Hermes są projektowane dla pojedynczego użytkownika, a korporacje (które bardzo lubią open source) mają inne wymagania, więc jest tu dużo do dostosowania. Robimy też małe modele od zera, z własnymi tokenizerami — taka szkółka trenowania od podstaw, zaczynając od modeli ~100 mln parametrów. Modele poniżej miliarda parametrów, wyspecjalizowane np. do ekstrakcji tekstu, mogą być bardzo użyteczne.

Kluczowy aspekt to pogodzenie komercjalizacji z częścią open source — ludziom trzeba za coś płacić, samą dobrą wolą projektu się nie utrzyma, więc potrzebny jest mechanizm finansowania. Pytanie z sali: co musielibyśmy zrobić, żeby konkurować z Mistralem? Odpowiedź: biorąc pod uwagę skalę Mistrala, ten pociąg już odjechał — możemy natomiast robić rzeczy bardzo specjalistyczne, którymi oni się nie zajmują. AI to nie tylko LLM-y.

Możemy tworzyć modele wyspecjalizowane pod wąskie zastosowania.

Chodzi o wąskie zadania AI/ML, gdzie modele ogólne radzą sobie słabiej. To też kwestia ekonomiczna: trenowanie modelu dobrego we wszystkim jest bardzo kosztowne, a modele ogólne bywają drogie w użyciu. To otwarty obszar badań — prowadzący nie ma gotowych odpowiedzi i jest tu, by wspólnie je zgłębiać. Kwestia ról i kontrybucji: można kontrybuować od razu, ale kto chce szybkiej ścieżki, mentoringu jeden na jeden i dużej uwagi — zapraszamy na kurs. Kurs jest częścią wejścia do projektu; materiały i tak będą wrzucane open source. Pomysł kursu wynika z tego, że projekt nie ma na razie finansowania od aniołów biznesu czy VC — kurs dokłada środków do projektu. To sposób na w miarę etyczne pozyskanie kapitału, bez proszenia o dotacje na coś, co prędzej czy później będzie komercyjne. Prowadzący chce uniknąć schizofrenii pokroju OpenAI (fundacja non-profit przekształcana w byt komercyjny). Można też dołączyć do Warsaw AI.

Kurs to szybka ścieżka od bycia konsumentem API do trenowania własnego modelu — w 2-3 tygodnie. Kto się wciągnie, może zostać kontrybutorem; część osób może skończyć jako researcherzy w labach, jeśli ktoś zaoferuje im wynagrodzenie, z którym Slayer nie będzie w stanie konkurować. Kurs zaczyna się właściwie od tego pierwszego spotkania. Jutro śniadanie AI z omówieniem tych rzeczy na żywo, w środę zaczynamy wrzucać materiały i od środy realnie można działać. Poboczną częścią projektu jest CodeSota.

Od grudnia trwała replikacja czegoś w rodzaju Papers with Code — z różnymi modalnościami.

Przykładowe zadania: generowanie muzyki, opisywanie muzyki, weryfikacja głosów, opisywanie obrazków, generowanie kodu, detekcja i naprawa błędów w kodzie, SVG Bench i wiele innych. Ten projekt mocno wystrzelił.

Wzrost ruchu i liczby użytkowników pokazuje, że jest rynkowe zapotrzebowanie na rozwiązania do specyficznych zadań. Przykładowo model dobrze robiący OCR (odczyt tekstu z obrazka) zamiast kierowania wszystkiego do drogich modeli frontier.

Piotr Zwiętara przedstawia projekt Gokło — dość mały model dla polskiego użytku. Idea: bardzo wydajny cyfrowy urzędnik, w kontraście do doświadczeń z krajową administracją. Wyspecjalizowany agent mógłby łatwo odpowiadać na pytania w rodzaju: ile kosztuje prawo jazdy, jak przeprowadzić rozwód cywilny, jakie dokumenty są potrzebne.

Obecne strony urzędów są bardzo mało użyteczne. To low-hanging fruit.

Jest realna szansa, żeby zrobić to perfekcyjnie. Prowadzący pokazuje działające na żywo demo.

Celem nie jest bycie pierwszym. Nie rezygnujemy z czegoś dlatego, że ktoś już to zrobił. Duża część wartości nie bierze się z niesamowitej innowacji, tylko z tego, że bierzemy model, który jest w danym momencie state of the art, podpinamy agenta i wdrażamy to np. do 10 tysięcy urzędów. Warto robić rzeczy stosowane, które rzeczywiście trafiają na produkcję.

Krytyka polskiego myślenia startupowego: fundusze nauczyły ludzi, że jeśli jakiś startup już coś robi, to nie warto inwestować, i szukają rynków bez konkurencji. Tymczasem 15 konkurencyjnych rozwiązań świadczy o tym, że rynek jest zdrowy. (Prywatne, mocne zdanie prowadzącego.)

Widzimy potencjał, żeby robić open core o komercyjnym zastosowaniu. Przykład luki: Hermes, jeden z topowych agentów, nie działa dobrze w scenariuszach multi-tenant / multi-user.

Dużą częścią naszej pracy jest publiczny ślad: zapraszamy ludzi i chętnie przyjmujemy krytykę. Jak coś Ci się nie podoba, zrób PR-a i popraw. Idea permissionless innovation: dokładamy wartość do projektów, zamiast czekać, aż ktoś rozłoży czerwony dywan; najpierw pokazujemy wartość, potem prosimy. Zapraszamy kontrybutorów do kodu, danych i ewaluacji. Prawie wszystko, co robimy, jest publiczne (poza małym wycinkiem prywatnych benchmarków, trzymanych prywatnie, żeby modele się na nich nie uczyły) — rozwijamy rzeczy open source, żeby każdy się uczył; podobnie działa Nous Research. W przeciwieństwie do zamkniętych labów (np. Mistrala), gdzie możesz co najwyżej używać API, tutaj można realnie siedzieć z ludźmi, którzy trenują modele. Zapraszamy też naukowców i świat akademicki — jesteśmy rebelami, ale szanujemy dorobek naukowy i sami chcemy publikować. Firmy mogą przychodzić i dostawać rozwiązania open source (analogia: Open Mercato braci Krawczak — robią otwarty system ERP, a monetyzują konsulting). Więcej na Discordzie.

CTA: zeskanuj kod QR i dołącz do Discorda. Kto chce finansowo wesprzeć rozwój projektu, może kupić szkolenie (700 zł) — to forma komercjalizacji dająca od razu wartość: godziny materiałów plus mentoring 1:1 z prowadzącym lub zespołem. Kolejne kroki: kontakt indywidualny dziś i jutro, w środę mailing z rozpiską i szczegółami; szkolenie startuje w środę. Uczestnictwo w laboratorium nie wymaga żadnych pieniędzy — działa też odwrotnie: kto przyjdzie na Discorda z ciekawym pomysłem, dostaje od Slayera wsparcie merytoryczne oraz zasoby (godziny na kartach graficznych, API, know-how).
Gość: Igor (NVIDIA) — wspiera lokalne inicjatywy AI w Europie Środkowo-Wschodniej i adopcję oprogramowania NVIDIA. NVIDIA poza kartami graficznymi tworzy dużo oprogramowania, o którym mało kto wie. Sposób, w jaki wielkie korporacje układają dziś stos AI, to "five-layer cake": energia, chipy, infrastruktura (hyperscalerzy), modele i aplikacje. Problem modeli w językach innych niż angielski: dużych labów (OpenAI, Anthropic) skupiają się na angielskim i mają wielokrotnie więcej GPU; danych w innych językach jest znacznie mniej, są nieprzefiltrowane i pełne niuansów. Żeby zrobić dobry polski model (jak Bielik) potrzeba kart, ludzi i dużej ilości wyczyszczonych, wykurowanych danych.
NVIDIA pokazuje, jak budować takie modele — od udostępniania datasetów po modele konkurencyjne (nie z najnowszymi Opusami czy GPT, ale z Qwenami i DeepSeekami). Modele Nemotron są open source, a razem z nimi udostępniane są zbiory treningowe oraz recipes i cookbooki. Cel: builderzy i większe laby nie mają już argumentu, by ich model był gorszy. Luka między modelami zamkniętymi a open source coraz bardziej się zamyka — otwarte modele bywają równie dobre za ułamek wielkości, co napędza popyt na rozwiązania on-prem.
Historia inicjatywy: Nemotrony trenowane od 2024 r.; zaczęło się od dodania reasoningu (chain of thought) do Llamy. Przy Nemotron 2 zmieniono architekturę na Mamba MoE — w odróżnieniu od transformerów Mamba skaluje compute liniowo przy długim kontekście (transformer kwadratowo), co umożliwia np. 1 mln kontekstu. Większość builderów (Qwen, DeepSeek, Nemotron, GLM) przechodzi na Mamba MoE. Nowe Nemotrony to jedne z pierwszych otwartych modeli rywalizujących z największymi, z pełnym wglądem w to, jak były trenowane.
Narzędzie Personas: generuje syntetyczne datasety odwzorowujące populacje (USA, Japonia, Indie, Korea, Singapur). NVIDIA rozważa stworzenie takiego zbioru z zespołem Bielika, który ma dużo danych i doświadczenia. NVIDIA współpracuje z kilkoma europejskimi labami budującymi LLM-y w lokalnych językach (m.in. Bielik). Trudność: wartość lokalnego LLM jest nieoczywista dla przeciętnego użytkownika, bo może za 20 dolarów użyć OpenAI, który mówi po polsku koślawo, ale taniej i użytecznie. Uwaga: lokalne modele są mniejsze i często trenowane "żeby zostały wytrenowane", a nie pod konkretny use case — w Slayerze jest szansa eksperymentować i drastycznie optymalizować modele (80 tys. w kredytach to sporo).
Kacper dodaje: nie chodzi o robienie modelu dla samego modelu, tylko o zbudowanie ekipy ludzi pracujących w otwarty sposób — otwartej jednostki badawczej generującej artefakty i publikacje. To trochę "hello world": zaczynamy od rzeczy edukacyjnych, potem płynnie przechodzimy do finetuningu na trace'ach agentowych pod agentowe use case'y. Firmy zgłaszają zainteresowanie dedykowanymi finetuningami pod enterprise, a w Polsce jest dużo seniorów i programistów chcących się uczyć — łączymy jedno z drugim.
Gość: Julek (Juliusz) — trenuje duże transformery w RTB House (adtech); wcześniej Huawei (LLM-y, voice assistant), Google (Gemini Code Assist), wykłada NLP na UW. W RTB House trenują na TPU (Google), które są ok. 3x tańsze per compute niż GPU; dzięki dobrym modelom do vibe-codingu przeniesienie kodu na Jax nie jest trudne. TPU łączą się w topologię typu torus (kostka), więc komunikacja między nimi jest tańsza sprzętowo niż w GPU (które potrzebują drogich NVSwitchy); są dobrze dostępne, zwłaszcza w USA — warto rozważyć dla maksimum compute'u za dolara.
Dwa źródła nauki polecane przez Julka: (1) Discord — sam uczył się NLP ~8-10 lat temu na Discordzie LAION (non-profit lab researcherów, głównie z USA), czytając dyskusje o retrievalu, Mambie itd. (uwaga: Mamba to architektura sprzed ok. 4 lat i długo była raczej zabawką — dlatego warto konsultować z innymi, czy coś ma sens). (2) Kaggle — hostuje zawody AI (np. AI Mathematical Olympiad); topowe zespoły piszą write-upy z opisem rozwiązania, z których można się uczyć. Żeby być najlepszym, trzeba wzorować się na najlepszych. Wiele jest do zrobienia w datasetach i scaffoldingu — zwycięzcy AI Math Olympiad zebrali zadania matematyczne z forów, czego nikt wcześniej nie zrobił. Można wybrać problem, spróbować być najlepszym i zdobyć rozpoznawalność. Julek chce wspierać projekt, m.in. jako alternatywę, gdyby zamknięte modele (Claude, ChatGPT) kiedyś odcięły dostęp.

Ekran końcowy z linkami: slayer.fabryka.ai i link do Discorda. Ostatni moment na Q&A.
Pytanie: Jakie eksperymenty mają komercyjny sens? Odpowiedź: Trenowanie modelu dobrego w wąskiej dziedzinie (matematyka, nietypowe zadania) może mieć sens, bo duże laby nie schodzą tak głęboko, a przewaga często wynika z unikalnego datasetu, którego nikt inny nie ma. Unikalne dane bywają źródłem unikalnej przewagi. Wiele w AI to żmudne patrzenie na dane i tagowanie — nie wymaga wybitnego IQ, tylko zróżnicowanego talentu (analogia do fizyki: teoretycy vs. ktoś programujący FPGA do zbierania danych z sensora w CERN-ie). Nawet Noam Shazeer (współautor transformera) pisał, że jakaś metoda działa, a on nie umie wyjaśnić dlaczego. Kaggle ma tu duży potencjał — warto robić zespoły startujące w zawodach, żeby mieć obiektywną weryfikację.
Szkolenie "AI from scratch" prowadzone przez Discord (jest specjalna rola dla pierwszej ekipy; będzie kolejna edycja). Start w środę: harmonogram, materiały, format kohortowy — office hours 1-2x w tygodniu, materiały do samodzielnej pracy i sprawdzarka (wewnętrzny mały Kaggle), wzajemne challenge'owanie własnych modeli. Kto nie dostał roli, niech pisze na Discordzie.
Pytanie: Jak dbamy o jakość i pochodzenie danych? Odpowiedź: Jakość modeli wynika z jakościowych danych. Prowadzący zaczął od zebrania pierwszego otwartego datasetu na Hugging Face — datasety Bielika nie są tak dokładnie opisane ani gotowe do trenowania bez dłubania. Zrobił też klasyfikator, który za pomocą embeddingów wykrywa treści AI-generated (podobnie jak firma Pangram) — da się wykrywać AI Slop i filtrować słabe treści. Uwaga: Opus 4.8 generuje lepsze treści niż przeciętna osoba; slop bierze się z użycia surowego ChatGPT lub małych skwantyzowanych modeli, a dobrze poprowadzony agent daje sensowny output. Często ważniejsze niż to, czy coś jest AI-generated, jest to, czy jest prawdziwe, wartościowe i użyteczne. Mając dostęp do compute'u można odpalać 100 pomysłów w sweepie zamiast ręcznie implementować każdą hipotezę — trochę to wasteful, ale warto, by ludzie uczyli się otwarcie eksperymentować z szalonymi pomysłami.
Rozmowa będzie kontynuowana na Discordzie. Misja: zbudować w Polsce otwarty AI Lab. Sukcesem będzie, jeśli ludzie z tego labu trafią do frontier labów — robiąc rzeczy publicznie zdobywa się dużo lepszą ekspozycję niż pod NDA, a Slayer będzie też marketingowo promował swoich ludzi.