Settings & PipelineTech-Stack, Pipeline-Übersicht und Konfiguration.
Scraping-Pipeline
1 · Crawler
2 · Detector
3 · Cleaner
4 · Structurer
5 · Enricher
6 · OCR
7 · Storage
Tech-Stack
Frontend
Next.js 14 14.xReact App Router, SSR/CSR
React Query 5.xServer State, Polling, Cache
TypeScriptTypsicherheit
Backend
NestJS 10.xHTTP Server, Dependency Injection
Prisma 7.xORM, Query Builder
better-sqlite3SQLite Driver (sync, kein Network I/O)
Scraping
PlaywrightBrowser-Rendering für SPAs (Chromium headless)
AxiosHTTP-Client für statische Seiten
CheerioHTML-Parser (jQuery-kompatibel)
francSpracherkennung (500+ Sprachen)
robots-parserrobots.txt Parser
Optional
MinerU SidecarPython-Service für komplexe Layouts (Port 3765)
OCR-Status
Tesseract OCR
OCR aktivieren
per Scraper · ocrEnabled Flag
Instanz
API Base URL
http://localhost:3001/api/v1
Datenbank
SQLite · apps/api-nest/prisma/scrapeengine.db
Scraper
Jobs gesamt
Records gesamt
Erfolgsrate
Projekt
ScrapeEngine
Team
Jakob Kampmann · goava.ai