Jak zautomatyzowałem analizę 2-godzinnych webinarów do 5 minut

Śledzę rynki finansowe. Część mojej edukacji to webinary ekspertów giełdowych - omówienia rynku, analizy techniczne, sygnały transakcyjne. Każdy webinar trwa 1.5-2 godziny. Oglądam 3-4 tygodniowo. To 5-6 godzin samego oglądania.

Problem w tym, że z tych 2 godzin potrzebuję 10 minut treści: które spółki były omawiane, jakie sygnały, jakie poziomy wejścia. Reszta to kontekst, dygresje, powtórzenia.

Zbudowałem system, który robi to za mnie. Email z linkiem do nagrania wpada do skrzynki, ja nic nie robię, a po 30 minutach dostaję raport z konkretnymi danymi. Zero ręcznej pracy.

Jak to działa

System składa się z dwóch pipeline'ów w n8n, połączonych folderem na dysku.

EMAIL -> DOWNLOAD -> TRANSKRYPCJA -> ANALIZA AI -> RAPORT -> EMAIL

Pipeline 1: email do pliku

n8n co 5 minut sprawdza skrzynkę Gmail. Gdy wykryje email z linkiem do nagrania:

Parsuje treść emaila - wyciąga link Webex i hasło dostępu
Uruchamia yt-dlp przez SSH na hoście (Docker nie ma bezpośredniego dostępu do GPU)
Pobiera nagranie MP4 do folderu na dysku

To 4 node'y w n8n: Gmail Trigger, HTML Parser, SSH Command (yt-dlp), Move File.

Pipeline 2: plik do raportu

Drugi pipeline monitoruje folder. Gdy pojawia się nowy plik MP4:

Uruchamia faster-whisper (transkrypcja speech-to-text, lokalnie na GPU)
Wysyła transkrypcję do Claude z promptem strukturyzującym
Claude wyciąga: spółki, kierunki (kupno/sprzedaż), poziomy, stop lossy, komentarze
Generuje raport w markdown
Wysyła mi email z raportem

Transkrypcja trwa 15-20 minut dla 1.5h nagrania (GTX 1650 4GB, model small). Analiza przez Claude - 30 sekund.

Co zawiera raport

Tabela spółek z sygnałami, kierunkiem, poziomami wejścia i stop lossami. Komentarze eksperta przy każdej pozycji. Lista wszystkich wspomnianych instrumentów. Zamiast 2 godzin oglądania dostaję 2 strony konkretu.

Stack

Narzędzie	Rola
n8n (self-hosted, Docker)	Orkiestracja obu pipeline'ów
Gmail API + OAuth2	Monitoring skrzynki, parsowanie emaili
yt-dlp	Pobieranie nagrań z Webex (z hasłem)
faster-whisper	Transkrypcja audio, lokalnie na GPU
Claude AI (Sonnet)	Analiza transkrypcji, ekstrakcja danych
Gmail SMTP	Wysyłka raportów

Całość działa na jednej maszynie z GPU. Koszt infrastruktury: prąd. n8n jest self-hosted, whisper jest lokalny, Claude to jedyny koszt per-request (ok. 21k tokenów na transkrypcję, kilka centów).

Dlaczego n8n a nie Zapier/Make

Trzy powody:

1. Self-hosting. Pipeline wymaga dostępu do GPU (whisper) i lokalnego filesystem (pliki MP4). Zapier i Make działają w chmurze - nie mają dostępu do mojego komputera.

2. SSH nodes. Muszę uruchamiać komendy systemowe (yt-dlp, whisper). n8n pozwala na to przez SSH. W Zapier musiałbym stawiać osobne API.

3. Brak limitu operacji. Zapier liczy każdy krok jako osobną operację. Ten pipeline ma kilkanaście kroków - przy 3-4 webinarach tygodniowo szybko wychodzę z darmowego planu.

Co poszło nie tak

Sortowanie plików. Pierwszy pipeline zapisywał pliki, drugi je czytał. Problem: ls nie sortuje po czasie modyfikacji domyślnie. Pipeline 2 łapał stary plik zamiast nowego. Fix: ls -1t (sortowanie po czasie, najnowszy pierwszy).

Docker vs GPU. n8n działa w kontenerze Docker. faster-whisper potrzebuje GPU. Kontener nie ma bezpośredniego dostępu do GPU hosta. Rozwiązanie: SSH z kontenera do hosta - n8n odpala transkrypcję przez SSH, whisper działa na hoście.

Czas transkrypcji. 15-20 minut na 1.5h nagranie. Początkowo pipeline szedł dalej zanim transkrypcja się skończyła - czytał niekompletny plik. Fix: synchroniczne wykonanie SSH (czekaj na zakończenie komendy).

Liczby

Metryka	Przed	Po
Czas na webinar	1.5-2h	10 min (czytanie raportu)
Tygodniowo (3-4 webinary)	5-6h	30-40 min
Miesięcznie	20-24h	2-3h
Rocznie	ok. 260h	ok. 30h

Oszczędność: 230 godzin rocznie. Prawie 6 tygodni roboczych.

Dla kogo to rozwiązanie

Każdy kto przetwarza dużo materiałów audio/wideo i potrzebuje z nich konkretnych danych:

Analitycy przetwarzający nagrania konferencji
Zespoły sprzedażowe analizujące rozmowy z klientami
Działy HR przetwarzające wywiady rekrutacyjne
Dziennikarze wyciągający cytaty z wywiadów
Badacze analizujący materiały z focus group

Pipeline jest modułowy. Zmiana promptu dla Claude zmienia to, co system wyciąga z nagrania. Ten sam szkielet, inne zastosowanie. Buduję takie pipeline'y dla firm - więcej na stronie automatyzacja procesów.