Retrieval Augmented Generation

Ein Zwischenbericht aus der Praxis

Unser Kunde verfügt über eine grosse Anzahl an PDF-Dokumenten: Merkblätter, Wegleitungen, Reglemente, Richtlinien, Gesetze und Standards. Diese Dokumente sind verbindlich – sowohl für interne Mitarbeitende als auch für externe Partner – aber so umfangreich, dass oft nur ExpertInnen wissen, welche Informationen für eine gegebene Fragestellung relevant sind und wo diese zu finden sind. Genau hier setzt ein aktuelles Kundenprojekt von mp technology an.

Ausgangslage und Zielsetzung

Unser Kunde wünschte sich einen AI Chatbot, der:

fundierte, nachvollziehbare Antworten liefert
konkret auf relevante Dokumente und Kapitel verweist
sowohl von internen Mitarbeitenden als auch von Externen genutzt werden kann

Die Herausforderung: Die zugrunde liegenden PDF-Dokumente sind nicht einheitlich aufgebaut, bestehen aber grösstenteils aus hoch strukturierten Texten mit klaren Gliederungen und Tabellen.

Semantisches Chunking statt einfacher Textzerlegung

Damit Inhalte für Retrieval-Augmented Generation (RAG) nutzbar sind, müssen sie in kleinere Einheiten – sogenannte Chunks – aufgeteilt werden. Anstelle von rein längenbasiertem oder generischem hierarchischem Chunking mit Overlaps setzen wir auf ein custom semantisches Chunking, das die ursprüngliche Dokumentstruktur möglichst vollständig erhält.

Konkret werden die Inhalte als Baumstruktur mit bis zu vier Ebenen modelliert:

Dokument
Kapitel
Unterkapitel
Unterunterkapitel

Jeder Chunk kennt seinen strukturellen Kontext. Dieser kann bei der Beantwortung von Fragen gezielt mitverwendet werden. Da jeder Chunk ein in sich geschlossenes Thema behandelt, funktioniert die Vector Similarity Search auf Embeddings deutlich treffsicherer als bei überlappenden Textfragmenten.

Zusätzlich sind die Dokumente in Themenbereiche gegliedert – ein Dokument kann dabei mehreren Themen gleichzeitig zugeordnet sein und die Suche auf spezifische Themenbereiche beschränkt werden.

Demo Screenshot. Hierfür wurden öffentliche Dokumente der bfu (Beratungsstelle für Unfallverhütung) anstelle der Dokumente unseres Kunden verwendet.

Transparenz in der Ingestion ist entscheidend

In der Entwicklung hat sich sehr schnell gezeigt – Ohne Transparenz im PDF-Konvertierungs- und Chunking-Prozess ist Qualität nicht kontrollierbar.

Nur wenn sichtbar ist,

wo Struktur verloren geht
ob Tabellen korrekt interpretiert werden
ob Gliederungen richtig erkannt werden

lassen sich systematische Schwächen identifizieren.

Fehler, die bereits bei der Ingestion entstehen, führen später zwangsläufig zu falschen oder unvollständigen Antworten im Chatbot.

PDF-Konvertierung: Kein Werkzeug ist perfekt

Keine Konverter-Library ist heute in allen Fällen zuverlässig – insbesondere bei tabellarisch strukturierten Texten. In der Pilotphase haben wir unter anderem Docling, eine Open-Source-Komponente von IBM, evaluiert. Erste Ergebnisse waren vielversprechend, bei genauerer Analyse zeigten sich jedoch deutliche Schwächen bei Tabellen.

Aktuell setzen wir auf Marker via Datalab API, das in unserem Szenario robustere Resultate liefert. Gleichzeitig bleibt klar: Auch diese Lösung ist nicht perfekt.

Deshalb ist unser Ansatz zweistufig:

systematische Mängel automatisiert korrigieren
punktuelle Fehler manuell bereinigen

Erst danach wird ein Dokument in den kuratierten Korpus übernommen – in der qualitativ bestmöglichen Form.

Modularität als strategische Entscheidung

Ob Dokument-Konverter, Embedding-Modell, Reranker oder LLM:
Der Markt entwickelt sich rasant. Es ist absehbar, dass in wenigen Monaten neue, bessere Komponenten verfügbar sein werden.

Unsere Architektur ist deshalb konsequent modular aufgebaut. Einzelne Bausteine können mit überschaubarem Aufwand ersetzt werden, ohne das Gesamtsystem neu denken zu müssen.

Technologie-Stack

Die aktuelle Lösung basiert auf einem bewährten Open-Source-Stack:

FastAPI
LangGraph
PostgreSQL mit pgvector
Redis für Caching und State-Management

Fazit

Eine leistungsfähige RAG-Lösung beginnt nicht beim AI Chatbot, sondern bei der sauberen Aufbereitung der Wissensbasis. Struktur, Transparenz und Kuration sind entscheidend, um verlässliche Antworten liefern zu können.

Dieser Zwischenbericht zeigt: Der Aufwand lohnt sich – und bildet die Grundlage für ein System, das mit den Anforderungen wächst.

Retrieval Augmented Generation

Ein Zwischenbericht aus der Praxis

Ausgangslage und Zielsetzung

Semantisches Chunking statt einfacher Textzerlegung

Transparenz in der Ingestion ist entscheidend

PDF-Konvertierung: Kein Werkzeug ist perfekt

Modularität als strategische Entscheidung

Technologie-Stack

Fazit

Weitere News

Innovation im LED Leuchtenbau

Erweiterung Leadership Team

Launch smile.car in Österreich

Kontakt

Services

Kunden

Über uns