Kategoria: Miniblog

nec Hercules contra plures

Przy lekturze książki Superforecasting zauważyem, że zespoły dobrych forecasterów radzą sobie lepiej niż każdy z nich z osobna. Czy to tworząc zespół czy agregując wyniki dobrych forecasterów, dostajemy wyniki lepsze niż przeciętne.

Ma to intuicyjnie sens – lepszy agent i więcej informacji, zagregowane. Czy zatem zestaw wybitnych forecasterów jest w stanie przebić Polymarket? Czy zestaw wybitnych, ale sztucznych forecasterów jest w stanie przebić Polymarket?

Zacznijmy od prostego eksperymentu z codzienną predykcją. One-shot, kilku agentów stworzonych przeze mnie i kilka zdarzeń wytypowanych przez moich znajomych: https://www.becomeforecaster.com/llm-events

Każdy agent ma swój prompt, swój model i dostęp do wyszukiwarki internetowej. Codziennie aktualizuje swoje przekonania.

To badanie ma wielkie znaczenie; jeśli agenci są w stanie pobić Polymarket teraz, to znaczy, że rozszerzając im dostęp do danych i tworząc rywalizujące, organicznie rosnące zespoły, będziemy w stanie wykręcić niemal doskonałe predykcje.

Jeśli eksperyment będzie obiecujący, to kolejny etap to rywalizacja zespołów forecasterskich, rankingi, i tak dalej. Niech się biją.

Istnieją pewne ryzyka. Już w pierwszym dniu agenci opierają swoją ocenę o dość powierzchowny research. Mogą zatem tępo kopiować przewidywania z Polymarketu.

To i tak lepsze niż czytanie newsów!

2026-06
Medyczny ekstremistan

Cała awantura wokół lekarzy szczypie nas po oczach. Nie dlatego, żebyśmy żałowali im dużych pieniędzy, tylko, że te pieniądze są zbyt duże jak na grę, w którą grają.

W świecie wysokich kompetencji, tam, gdzie uczymy się, dostajemy uściski dłoni i certyfikaty (dyplomiki) spodziewamy się, że nagroda będzie proporcjonalna do wkładu. I zaczynamy się drapać po głowie, kiedy okazuje się, że doba ma 24 godziny, a 72-latka jest jednocześnie dyrektorką szpitala i aktywnie udzielającym się lekarzem… Za półtora miliona złotych?

W tych światach, w tych rodzajach gier, w publicznym dyskursie, akceptowalny sufit, czyt. prawa strona krzywej Gaussa kończy się na 2-3 tysiącach euro miesięcznie. Tyle nota bene zarabia na przykład minister obrony w tym przyfrontowym kraju. Po drugie, a może po pierwsze, czy na pewno mamy ten wkład na odpowiednim poziomie? Czy wysokofunkcjonujący, najwyżej funkcjonujący geniusz może skutecznie zarządzać szpitalem oraz diagnozować pacjentów oraz mieć szczęśliwe życie prywatne, oraz… Ktoś nieuchronnie płaci ten koszt, aż podskórnie czujesz, że to Ty i ja.

Nie ma sensu normalizować sytuacji przez przesuwanie lekarzy do ekstremistanu (tzw. prywatyzacja służby zdrowia), ale czemu brakuje woli politycznej by unormować świat gaussowski – tego jeszcze nie rozumiem.

2026-06
Genealogia rozwiązana

Genbaza – https://metryki.genbaza.pl pozwala mi i żonie sprawdzić dzieje przodków i dokopać się kolejne pokolenia wstecz.

Największy problem z Genbazą jest taki, że dane są otwarte, ale nie są dostępne; tzn nie możemy ich łatwo przeszukiwać pełnym tekstem. Ten fenomen dostępnych, ale nie-dostępnych danych jest bardzo popularny we wszystkich rodzajach danych publicznych, otwartych. Urzędy, zwłaszcza parę lat temu, udostępniały dane, ale były to PDFy w formie skanu. Spotkałem się z tym po raz pierwszy projektując Transporteusza.

Obecnie ten problem może zostać rozwiązany przez LLM czytające dane z obrazków. Próbując odczytać dane z Genbazy, po trzech plikach przesłanych do Gemini zdałem sobie sprawę, że w zasadzie powinniśmy przetworzyć wszystko, nawet w niedokładny sposób. Wziąć wszystkie niemieckie księgi z Quaschin, rosyjskie ze Szczeglic i strona po stronie przetrawić przy pomocy LLM. Takie dane następnie można ustrukturyzować jako JSON.

Kto za to zapłaci? Prawdopodobnie nikt, bo jeśli wszystko pójdzie zgodnie z planem, AI zje każdy skrawek obrazka, jaki stanie jej na drodze: moja predykcja tutaj: https://www.becomeforecaster.com/u/skorytnicki/a5d2e70a-ec60-46ab-a61a-0f774ef3f06d . Ciekawe, czy moglibyśmy to samo osiągnąć, gdyby to użytkownik mógł podać na Genbazie swój klucz API i odczytać stronę raz i na zawsze dla każdego kolejnego odwiedzającego. Ta piękna crowdsourcingowa koncepcja dała początek systemowi CAPTCHA (Luis von Ahn). Tam odczytywanie starych książek miało pomóc w ich digitalizacji. Obecnie możemy zapłacić maszynie, by wykonała tę pracę, redukując się tylko do dysponenta jej uwagi.

Jeśli odczytanie jednego obrazka kosztuje centa, to 10 milionów dokumentów na Genbazie kosztuje nas 100 000 USD. Sto tysięcy dolarów brzmi jak dużo, ale łatwiej to ująć w kawalerkach; rozwiązanie polskiej genealogii kosztuje nas obecnie mniej niż jedną kawalerkę w Gdańsku, może ćwierć do pół miliona złotych i trochę cierpliwości. Polacy lekką ręką wydają więcej na puste mieszkanie na Costa del Sol, na samochód i inne zbytki.

2026-06
Pochwała lenistwa

Czemu, jeśli pracowalibyśmy 4 godziny dziennie, to poświęcalibyśmy czas na twórczość bez komercji i na naukę bez akademickości? Podoba mi się ta piękna myśl Russella. Główny argument idzie mniej więcej tak: dystrybucja pracy jest nieoptymalna; jedni pracują za dużo, drudzy żyją w nędzy, a klasa próżniacza czerpie frukta.

Obecnie mamy rozwiązanie, które nazywa się HR Tech i pozwala rozsądnie alokować zasoby, minimalizować przestoje i dostosowywać siłę roboczą do potrzeb rynku. I tak nie pracujemy 4 godzin dziennie, bo nagle poczuliśmy potrzebę posiadania ładnej appki albo zjedzenia smash burgera.

W rozważaniach Russella istnieje pewna asymetria. Czas pracy miałby być ściśle i naukowo reglamentowany, podczas gdy czas wolny to piękna epifania wolna od jakichkolwiek limitów. U Piepera czas wolny jest wartościowy, gdy jest właściwie zorganizowany. Russel jest głównie antypracowy, a Pieper głównie proodpoczynkowy. Ta intuicja zorganizowanego, rytualnego czasu wolnego przemawia do mnie, choć nie cierpiałbym jej w praktyce. W USA czy w Azji, na północy czy na południu, idealny narkotyk telefonu zjada całkowicie czas wolny. Pisze o tym też Russel – czemu czas wolny w miastach to czas pasywny, spędzony na meczach i telewizji? Innymi słowy: jak zapewnić by czas wolny był czasem aktywnym, a nie pasywnym? Jak przesunąć proporcje w stronę czasu aktywnego?

(Aktywny czas to spędzony na czymkolwiek twórczym, czas spędzony z rodziną lub znajomymi lub poświęcony na rytuał).

2026-06
Czy można nauczyć się języka czytając książkę?

Nie można, ale wiele książek zawiera korpus słownictwa niezbędny by opanować podstawy komunikacji. Jeśli mamy w książce 5000 unikalnych słów, to jest to książka w sam raz by dogadać się na ulicy. O ile nie jest to poradnik naprawy Volkswagena Golfa II. Pierwsze rozdziały będą przychodzić nam z bólem, ale dalej będzie łatwiej i łatwiej.

Nie wpadłem pierwszy na ten pomysł. Istnieje cała, fascynująca dziedzina lingwistyki kwantytatywnej, ewentualnie korpusowej, która pozwala nam zmierzyć tekst i wnioskować na tej podstawie.

Czyli istnieje książka (lub inny korpus tekstów) idealna, której tekst pokrywa się niemal stuprocentowo z listą najczęściej używanych słów i zwrotów. Jest też książka najbardziej oddalona od tego wzoru, albo taka, która subiektywnie dobrze pomaga w nauce języka, na przykład w celu turystycznym lub biznesowym. Zmierzenie tego nie powinno być szczególnie trudne. Mój strzał na dobre książki do nauki języka to na przykład Pinokio albo Mały Książę.

2026-06
Mieliśmy 100 lat forecastingu, a świat schodzi na psy

Tytuł nawiązuje do książki „We've Had a Hundred Years of Psychotherapy and the World's Getting Worse”, która wywarła na mnie duże wrażenie. Jedna rzecz to radykalna krytyka psychoterapii, która święci swoje triumfy jako metoda i jako styl życia, a inna to forma tej krytyki.

Czy forecasting czyni mój świat lepszym?

Po 6 miesiącach regularnego badania swojej trafności na becomeforecaster.com, łatwiej jest mi powiedzieć dlaczego nie jestem dobrym wróżbitą, ale większość wniosków dotyczy czegoś zupełnie innego. Przede wszystkim znaczna część predykcji dot. życia prywatnego nie ma najmniejszego znaczenia w dłuższej perspektywie. Te dotyczące projektów są zbyt optymistyczne. Opierają się na długu, którego nie zaciągam i nie spłacam, stąd nigdy nie mogę się cieszyć z jego rezultatów. Sposób formułowania hipotez jest istotniejszy niż sama hipoteza, co można ująć sprawniej – grając w głupie gry, możesz wygrać głupie nagrody.

Tak samo jak psychoterapia może zwiększyć samoświadomość bez poprawy jakości życia, tak ćwiczenie forecastingu może poprawić kalibrację bez poprawy decyzji.

Może.

2026-06
Książki – Maj 2026

Kilka książek z maja 2026. Zajmowałem się badaniem tematu Schmergrube, ale poza tym, trafiło się trochę fikcji…
(więcej…)

2026-06
Guru model

W książce Superforecating autorzy zauważają, że technologie, a pisali to na 8 lat przed popularnymi LLMami, są coraz lepszymi systemami predykcyjnymi niż ludzie.

Ciężko z tym dyskutować, ale jednocześnie cytowany Ferrucci twierdzi, że przyniesie to zmierzch „modelu guru”, w którym autorytet objaśnia nam rzeczywistość a my możemy używać głosu autorytetu jako głosu w dyskusji.

To oczywiście nieprawda, bo czym bardziej niewyjaśnialna rzeczywistość, tym większe zapotrzebowanie na magiczne wyjaśnienia, na prymat narracji nad faktami. Wszystkie nowoczesne media zmierzają do wzmocnienia modelu guru (influencera), który tłumaczy rzeczywistość. Praktycznym rozwiązaniem jest albo oddelegowanie decyzji do maszyny (rynki predykcyjne, LLM) albo poleganie na własnej ocenie.

W tym sensie mamy inflację miniguru albo, pewnie zgodnie z duchem cytowanej książki mniej guru dużego kalibru.

2026-06
Teoria ograniczeń
Iga Świątek odpada z Roland Garros, jako główny powód wymienia zarządzanie stresem – ale nie wymienia swojej psycholog.

Samą dyskusję na temat psycholog Świątek zostawiam bez komentarza, ale to bardzo ciekawe w jaki sposób funkcjonuje psycholog sportu na tym wysokim poziomie. Warto by było zrobić taki sam reportaż jak WP ostatnio i umówić się do psychologa, sprawdzić na żywym organizmie. W zespole Abramowicz działa kilka psycholożek, które mogłyby mi doradzić.

I w tym wypadku ChatGPT twierdzi, że psycholog zarządza ograniczeniami i skupia się na globalnej wydajności, na replikowalności. To instynktownie przypomina mi Adama Dwa Równe Skoki Małysza i tak dalej.

Tak dowiedziałem się o teorii ograniczeń, która zresztą pojawiała się w moim życiu nieświadomie wcześniej. Głównie w kontekście funneli sprzedażowych, lejków marketingowych. Grzechem jest zwyczajowo optymalizowanie czegoś, co jest na samym końcu, gdy mamy olbrzymi bloker gdzieś wcześniej w procesie. To się spina z teorią ograniczeń (theory o constraints). Zarządzanie naukowe to fantastyczna działka, o której krytycznie pisałem na blogu wcześniej.

Teoria ograniczeń Goldratta mówi, że trzeba skupić się na wąskich gardłach:
Ciągłe doskonalenie procesów wytwarzania przy pomocy metody TOC, wymaga we wdrożeniu wykorzystania następujących zasad:
1. zidentyfikowania ograniczeń występujących w procesie,
2. przyjęcia zasad realizacji procesu z uwzględnieniem występujących ograniczeń,
3. redukcji lub likwidacji występujących ograniczeń,
4. zaostrzenia parametrów na stanowiskach, na których występują „wąskie gardła”.
Jeśli psycholog ma zająć się eliminacją wąskiego gardła i to on jest tym gardłem… Quis custodiet ipsos custodes?
2026-06