Śledzę rynki finansowe. Część mojej edukacji to webinary ekspertów giełdowych - omówienia rynku, analizy techniczne, sygnały transakcyjne. Każdy webinar trwa 1.5-2 godziny. Oglądam 3-4 tygodniowo. To 5-6 godzin samego oglądania.
Problem w tym, że z tych 2 godzin potrzebuję 10 minut treści: które spółki były omawiane, jakie sygnały, jakie poziomy wejścia. Reszta to kontekst, dygresje, powtórzenia.
Zbudowałem system, który robi to za mnie. Email z linkiem do nagrania wpada do skrzynki, ja nic nie robię, a po 30 minutach dostaję raport z konkretnymi danymi. Zero ręcznej pracy.
Jak to działa
System składa się z dwóch pipeline'ów w n8n, połączonych folderem na dysku.
EMAIL -> DOWNLOAD -> TRANSKRYPCJA -> ANALIZA AI -> RAPORT -> EMAIL
Pipeline 1: email do pliku
n8n co 5 minut sprawdza skrzynkę Gmail. Gdy wykryje email z linkiem do nagrania:
- Parsuje treść emaila - wyciąga link Webex i hasło dostępu
- Uruchamia yt-dlp przez SSH na hoście (Docker nie ma bezpośredniego dostępu do GPU)
- Pobiera nagranie MP4 do folderu na dysku
To 4 node'y w n8n: Gmail Trigger, HTML Parser, SSH Command (yt-dlp), Move File.
Pipeline 2: plik do raportu
Drugi pipeline monitoruje folder. Gdy pojawia się nowy plik MP4:
- Uruchamia faster-whisper (transkrypcja speech-to-text, lokalnie na GPU)
- Wysyła transkrypcję do Claude z promptem strukturyzującym
- Claude wyciąga: spółki, kierunki (kupno/sprzedaż), poziomy, stop lossy, komentarze
- Generuje raport w markdown
- Wysyła mi email z raportem
Transkrypcja trwa 15-20 minut dla 1.5h nagrania (GTX 1650 4GB, model small). Analiza przez Claude - 30 sekund.
Co zawiera raport
Tabela spółek z sygnałami, kierunkiem, poziomami wejścia i stop lossami. Komentarze eksperta przy każdej pozycji. Lista wszystkich wspomnianych instrumentów. Zamiast 2 godzin oglądania dostaję 2 strony konkretu.
Stack
| Narzędzie | Rola |
|---|---|
| n8n (self-hosted, Docker) | Orkiestracja obu pipeline'ów |
| Gmail API + OAuth2 | Monitoring skrzynki, parsowanie emaili |
| yt-dlp | Pobieranie nagrań z Webex (z hasłem) |
| faster-whisper | Transkrypcja audio, lokalnie na GPU |
| Claude AI (Sonnet) | Analiza transkrypcji, ekstrakcja danych |
| Gmail SMTP | Wysyłka raportów |
Całość działa na jednej maszynie z GPU. Koszt infrastruktury: prąd. n8n jest self-hosted, whisper jest lokalny, Claude to jedyny koszt per-request (ok. 21k tokenów na transkrypcję, kilka centów).
Dlaczego n8n a nie Zapier/Make
Trzy powody:
1. Self-hosting. Pipeline wymaga dostępu do GPU (whisper) i lokalnego filesystem (pliki MP4). Zapier i Make działają w chmurze - nie mają dostępu do mojego komputera.
2. SSH nodes. Muszę uruchamiać komendy systemowe (yt-dlp, whisper). n8n pozwala na to przez SSH. W Zapier musiałbym stawiać osobne API.
3. Brak limitu operacji. Zapier liczy każdy krok jako osobną operację. Ten pipeline ma kilkanaście kroków - przy 3-4 webinarach tygodniowo szybko wychodzę z darmowego planu.
Co poszło nie tak
Sortowanie plików. Pierwszy pipeline zapisywał pliki, drugi je czytał. Problem: ls nie sortuje po czasie modyfikacji domyślnie. Pipeline 2 łapał stary plik zamiast nowego. Fix: ls -1t (sortowanie po czasie, najnowszy pierwszy).
Docker vs GPU. n8n działa w kontenerze Docker. faster-whisper potrzebuje GPU. Kontener nie ma bezpośredniego dostępu do GPU hosta. Rozwiązanie: SSH z kontenera do hosta - n8n odpala transkrypcję przez SSH, whisper działa na hoście.
Czas transkrypcji. 15-20 minut na 1.5h nagranie. Początkowo pipeline szedł dalej zanim transkrypcja się skończyła - czytał niekompletny plik. Fix: synchroniczne wykonanie SSH (czekaj na zakończenie komendy).
Liczby
| Metryka | Przed | Po |
|---|---|---|
| Czas na webinar | 1.5-2h | 10 min (czytanie raportu) |
| Tygodniowo (3-4 webinary) | 5-6h | 30-40 min |
| Miesięcznie | 20-24h | 2-3h |
| Rocznie | ok. 260h | ok. 30h |
Oszczędność: 230 godzin rocznie. Prawie 6 tygodni roboczych.
Dla kogo to rozwiązanie
Każdy kto przetwarza dużo materiałów audio/wideo i potrzebuje z nich konkretnych danych:
- Analitycy przetwarzający nagrania konferencji
- Zespoły sprzedażowe analizujące rozmowy z klientami
- Działy HR przetwarzające wywiady rekrutacyjne
- Dziennikarze wyciągający cytaty z wywiadów
- Badacze analizujący materiały z focus group
Pipeline jest modułowy. Zmiana promptu dla Claude zmienia to, co system wyciąga z nagrania. Ten sam szkielet, inne zastosowanie. Buduję takie pipeline'y dla firm - więcej na stronie automatyzacja procesów.