Przejdź do treści

Jak zautomatyzowałem analizę 2-godzinnych webinarów do 5 minut

Pipeline: nagranie wideo przez Whisper i Claude AI do strukturalnego raportu

Śledzę rynki finansowe. Część mojej edukacji to webinary ekspertów giełdowych - omówienia rynku, analizy techniczne, sygnały transakcyjne. Każdy webinar trwa 1.5-2 godziny. Oglądam 3-4 tygodniowo. To 5-6 godzin samego oglądania.

Problem w tym, że z tych 2 godzin potrzebuję 10 minut treści: które spółki były omawiane, jakie sygnały, jakie poziomy wejścia. Reszta to kontekst, dygresje, powtórzenia.

Zbudowałem system, który robi to za mnie. Email z linkiem do nagrania wpada do skrzynki, ja nic nie robię, a po 30 minutach dostaję raport z konkretnymi danymi. Zero ręcznej pracy.

Jak to działa

System składa się z dwóch pipeline'ów w n8n, połączonych folderem na dysku.

EMAIL -> DOWNLOAD -> TRANSKRYPCJA -> ANALIZA AI -> RAPORT -> EMAIL

Pipeline 1: email do pliku

n8n co 5 minut sprawdza skrzynkę Gmail. Gdy wykryje email z linkiem do nagrania:

  1. Parsuje treść emaila - wyciąga link Webex i hasło dostępu
  2. Uruchamia yt-dlp przez SSH na hoście (Docker nie ma bezpośredniego dostępu do GPU)
  3. Pobiera nagranie MP4 do folderu na dysku

To 4 node'y w n8n: Gmail Trigger, HTML Parser, SSH Command (yt-dlp), Move File.

Pipeline 2: plik do raportu

Drugi pipeline monitoruje folder. Gdy pojawia się nowy plik MP4:

  1. Uruchamia faster-whisper (transkrypcja speech-to-text, lokalnie na GPU)
  2. Wysyła transkrypcję do Claude z promptem strukturyzującym
  3. Claude wyciąga: spółki, kierunki (kupno/sprzedaż), poziomy, stop lossy, komentarze
  4. Generuje raport w markdown
  5. Wysyła mi email z raportem

Transkrypcja trwa 15-20 minut dla 1.5h nagrania (GTX 1650 4GB, model small). Analiza przez Claude - 30 sekund.

Co zawiera raport

Tabela spółek z sygnałami, kierunkiem, poziomami wejścia i stop lossami. Komentarze eksperta przy każdej pozycji. Lista wszystkich wspomnianych instrumentów. Zamiast 2 godzin oglądania dostaję 2 strony konkretu.

Stack

Narzędzie Rola
n8n (self-hosted, Docker) Orkiestracja obu pipeline'ów
Gmail API + OAuth2 Monitoring skrzynki, parsowanie emaili
yt-dlp Pobieranie nagrań z Webex (z hasłem)
faster-whisper Transkrypcja audio, lokalnie na GPU
Claude AI (Sonnet) Analiza transkrypcji, ekstrakcja danych
Gmail SMTP Wysyłka raportów

Całość działa na jednej maszynie z GPU. Koszt infrastruktury: prąd. n8n jest self-hosted, whisper jest lokalny, Claude to jedyny koszt per-request (ok. 21k tokenów na transkrypcję, kilka centów).

Dlaczego n8n a nie Zapier/Make

Trzy powody:

1. Self-hosting. Pipeline wymaga dostępu do GPU (whisper) i lokalnego filesystem (pliki MP4). Zapier i Make działają w chmurze - nie mają dostępu do mojego komputera.

2. SSH nodes. Muszę uruchamiać komendy systemowe (yt-dlp, whisper). n8n pozwala na to przez SSH. W Zapier musiałbym stawiać osobne API.

3. Brak limitu operacji. Zapier liczy każdy krok jako osobną operację. Ten pipeline ma kilkanaście kroków - przy 3-4 webinarach tygodniowo szybko wychodzę z darmowego planu.

Co poszło nie tak

Sortowanie plików. Pierwszy pipeline zapisywał pliki, drugi je czytał. Problem: ls nie sortuje po czasie modyfikacji domyślnie. Pipeline 2 łapał stary plik zamiast nowego. Fix: ls -1t (sortowanie po czasie, najnowszy pierwszy).

Docker vs GPU. n8n działa w kontenerze Docker. faster-whisper potrzebuje GPU. Kontener nie ma bezpośredniego dostępu do GPU hosta. Rozwiązanie: SSH z kontenera do hosta - n8n odpala transkrypcję przez SSH, whisper działa na hoście.

Czas transkrypcji. 15-20 minut na 1.5h nagranie. Początkowo pipeline szedł dalej zanim transkrypcja się skończyła - czytał niekompletny plik. Fix: synchroniczne wykonanie SSH (czekaj na zakończenie komendy).

Liczby

Metryka Przed Po
Czas na webinar 1.5-2h 10 min (czytanie raportu)
Tygodniowo (3-4 webinary) 5-6h 30-40 min
Miesięcznie 20-24h 2-3h
Rocznie ok. 260h ok. 30h

Oszczędność: 230 godzin rocznie. Prawie 6 tygodni roboczych.

Dla kogo to rozwiązanie

Każdy kto przetwarza dużo materiałów audio/wideo i potrzebuje z nich konkretnych danych:

  • Analitycy przetwarzający nagrania konferencji
  • Zespoły sprzedażowe analizujące rozmowy z klientami
  • Działy HR przetwarzające wywiady rekrutacyjne
  • Dziennikarze wyciągający cytaty z wywiadów
  • Badacze analizujący materiały z focus group

Pipeline jest modułowy. Zmiana promptu dla Claude zmienia to, co system wyciąga z nagrania. Ten sam szkielet, inne zastosowanie. Buduję takie pipeline'y dla firm - więcej na stronie automatyzacja procesów.


KC
Kamil Czurak

Pomagam firmom wdrażać AI, które działa - od chatbotów po automatyzacje i agentów. 7 lat jako programista, z czego ostatnie 2 w AI.

Więcej o mnie →

Chcesz podobne rozwiązanie?

Wybierz termin w kalendarzu - 30 minut, zero zobowiązań.

Umów konsultację