RAG Pipeline

RAG Hybrid Chatbot

Hybrid-RAG-Chatbot mit Vector Search (Qdrant) + Knowledge Graph (NetworkX) und adaptivem Query-Routing. Dokumente hochladen (PDF, Markdown, TXT), Fragen stellen, zitierte Antworten erhalten. Corrective RAG (CRAG) filtert irrelevante Chunks, lokale Embeddings ohne externe API, Claude via OpenRouter für die Generierung.

GitHub Repository → Architektur ansehen

61 Tests

4 Query-Routen

384d Embedding-Dim

8 Module

📄 Upload Pipeline

PDF/MD/TXT → Chunk → Embed → Qdrant

└──► Entity → KG (NX)

🔍 Query Pipeline

Question → Classifier (4 Routes)

├─ simple → Direct LLM

├─ standard → Vector + CRAG → LLM

├─ complex → Multi-Query + Graph → LLM

└─ relational→ Graph Traversal → LLM

→ Response + Sources + Graph Entities

Architektur

Pipeline

Dokument-Upload

PDF/MD/TXT wird extrahiert, chunked (~500 Tokens) und lokal embedded.

Adaptive Query-Klassifikation

Fragen werden in 4 Routen klassifiziert: simple, standard, complex, relational.

Hybrid Retrieval + CRAG

Vector-Suche und/oder Graph-Traversal mit anschließender Relevanzprüfung.

Antwort-Generierung

Claude generiert zitierte Antworten basierend auf gefilterten Chunks.

Tech Stack

Technologien

RAG & Search

QdrantNetworkXfastembed (ONNX)CRAG

Backend

Python 3.12FastAPIPyMuPDF

LLM & Deploy

Claude Sonnet (OpenRouter)Docker Compose

Qualitätssicherung

Test-Ergebnisse

Tests Gesamt

Bestanden

Fehlgeschlagen

100%

Coverage

$ pytest tests/ -v

tests/test_document_processor.py ...... 9 passed

tests/test_vector_store.py ........... 7 passed

tests/test_knowledge_graph.py ........ 14 passed

tests/test_entity_extractor.py ....... 5 passed

tests/test_query_classifier.py ....... 6 passed

tests/test_relevance_checker.py ...... 5 passed

tests/test_api.py .................... 14 passed

tests/test_main.py ................... 1 passed

======================== 61 passed in 3.21s =========================

Engineering Decisions

Architektur-Entscheidungen

Entscheidung

Hybrid Vector + Graph statt nur Vector

Reine Vector-Suche verliert Beziehungen zwischen Entitäten. Der Knowledge Graph (NetworkX) erfasst explizite Relationen und ermöglicht relationale Abfragen, die Vector-Suche allein nicht beantworten kann.

Entscheidung

Lokale Embeddings mit fastembed

ONNX-basierte multilingual Embeddings (MiniLM-L12-v2) laufen lokal ohne API-Key. Das spart Kosten, eliminiert externe Abhängigkeiten und ist DSGVO-freundlich.

Entscheidung

Corrective RAG (CRAG)

Post-Retrieval Relevanzprüfung filtert irrelevante Chunks bevor sie an das LLM gehen. Das verbessert Antwortqualität und reduziert Halluzinationen bei verrauschten Ergebnissen.