RAG Pipeline

RAG Hybrid Chatbot

Hybrid-RAG-Chatbot mit Vector Search (Qdrant) + Knowledge Graph (NetworkX) und adaptivem Query-Routing. Dokumente hochladen (PDF, Markdown, TXT), Fragen stellen, zitierte Antworten erhalten. Corrective RAG (CRAG) filtert irrelevante Chunks, lokale Embeddings ohne externe API, Claude via OpenRouter für die Generierung.

61 Tests
4 Query-Routen
384d Embedding-Dim
8 Module

Architektur

Pipeline

Dokument-Upload

PDF/MD/TXT wird extrahiert, chunked (~500 Tokens) und lokal embedded.

Adaptive Query-Klassifikation

Fragen werden in 4 Routen klassifiziert: simple, standard, complex, relational.

Hybrid Retrieval + CRAG

Vector-Suche und/oder Graph-Traversal mit anschließender Relevanzprüfung.

Antwort-Generierung

Claude generiert zitierte Antworten basierend auf gefilterten Chunks.

Tech Stack

Technologien

RAG & Search
QdrantNetworkXfastembed (ONNX)CRAG
Backend
Python 3.12FastAPIPyMuPDF
LLM & Deploy
Claude Sonnet (OpenRouter)Docker Compose

Qualitätssicherung

Test-Ergebnisse

61
Tests Gesamt
61
Bestanden
0
Fehlgeschlagen
100%
Coverage

Engineering Decisions

Architektur-Entscheidungen

Entscheidung

Hybrid Vector + Graph statt nur Vector

Reine Vector-Suche verliert Beziehungen zwischen Entitäten. Der Knowledge Graph (NetworkX) erfasst explizite Relationen und ermöglicht relationale Abfragen, die Vector-Suche allein nicht beantworten kann.

Entscheidung

Lokale Embeddings mit fastembed

ONNX-basierte multilingual Embeddings (MiniLM-L12-v2) laufen lokal ohne API-Key. Das spart Kosten, eliminiert externe Abhängigkeiten und ist DSGVO-freundlich.

Entscheidung

Corrective RAG (CRAG)

Post-Retrieval Relevanzprüfung filtert irrelevante Chunks bevor sie an das LLM gehen. Das verbessert Antwortqualität und reduziert Halluzinationen bei verrauschten Ergebnissen.