Bernhard Lehner

August 7, 2025

Wie CARAT große Datenmengen aus PDF-Kataloge mit Semadox effizient in strukturierte Daten verwandelt

Semadox automatisiert für CARAT die Datenextraktion aus PDF-Preislisten – maßgeschneidertes Framework liest umfangreiche Verkaufskataloge aus.

Erfahren Sie mehr zur Steigerung Ihrer Produktivität. In einem gemeinsamen Gespräch geben wir Ihnen konkrete Einblicke zur kompletten Automatisierung Ihrer Dateneingänge.

Semadox hat sich in den letzten Jahren einen Namen als einer der besten Technologieanbieter für PDF-Extraktionssoftware im Businessbereich gemacht. Für CARAT – einem Anbieter von Küchenplanungs-Software (MHK Group) –hat das Team nun ein Framework entwickelt, um umfangreiche Produktkataloge automatisiert auszulesen. Die Aufgabenstellung für Semadox: PDF-Verkaufshandbücher (Preislisten) eines Küchenherstellers in einem automatisierten Workflow fehlerfrei in ein strukturiertes Datenformat zu überführen.

Herausforderung: Produktkataloge digital nutzbar machen

Viele Unternehmen erhalten Produktdaten von Lieferanten in Form vonPDF-Katalogen oder Preislisten. Diese enthalten hunderte Seiten mit Artikeln,Preisen und Merkmalen – wertvolle Daten, die jedoch ohne Weiteres nichtmaschinenlesbar sind. So stand auch CARAT vor der Aufgabe, diePDF-Küchenkataloge eines Herstellers automatisiert in strukturierte Daten zu überführen. Die eingehenden Daten lagen nur als PDF-Verkaufshandbücher(Preislisten) der letzten drei Jahre vor, erwartet wurde jedoch ein digitalerDatensatz in einem bestimmten Format.

Bisher: unverhältnismäßiger, manueller Aufwand

Der Prozess der Datenverarbeitung bisher war anachronistisch: In manueller Arbeit wurden die Informationen abgetippt und händisch in Excel übertragen – ein langsamer, fehleranfälliger Prozess. Ganz zu schweigen von den Kosten, die leicht in den sechsstelligen Eurobetrag erreichen.

Darüber hinaus existiert in der Küchenbranche ein Standardformat(DCC-IDM Küche/Bad 3.0.1) für Produkt- und Preisdaten. Langfristig sollten dieKatalogdaten in solch einem standardisierten Format vorliegen, um nahtlos in die bestehenden Systeme von CARAT integriert und weiterverarbeitet werden zukönnen.

Die Kernfrage lautete also: Wie können wir PDF-Kataloge so auslesen, dass am Ende strukturierte, weiterverarbeitbare Daten bereitstehen?

Die Lösung: Das Semadox-Framework für automatische Katalog-Datenextraktion

Das Semadox-Framework kombiniert modernste KI-Methoden zur Dokumentenanalyse mit flexiblen Parsern, um selbst unstrukturierte oder variierende Layouts in den PDFs korrekt zu interpretieren.

Konkret bedeutet das: Das System liest jede Seite des Katalog-PDFs aus, erkennt Überschriften, Artikelbeschreibungen,Tabellenstrukturen und Preise. Diese werden dann den definierten Datenfeldern zugeordnet (z.B. Artikelnummer, Bezeichnung, Preis, Kategorie, etc.).

Dank Machine-Learning-Komponenten passt sich die Lösung an unterschiedliche Formatierungen oder Jahrgangsunterschiede an. So konnten wir beispielsweise zwischenverschiedenen Katalog-Jahrgängen unterscheiden und die jeweils neuen, geänderten oder entfallenen Produkte identifizieren. Die extrahierten Produktdaten werden schließlich im gewünschten Zielformat ausgegeben – vorerst Excel-Dateien nach Vorgabe von CARAT, perspektivisch aber auch in JSON oder sogar im genannten Branchenstandard XML, um zukünftigen Anforderungen gerecht zu werden.

Mit diesem Projekt konnten wir eindrucksvoll zeigen, welchen Mehrwert die automatisierte Katalogauslese mit Semadox-Technologie bringt:

- Enorme Zeitersparnis: Anstatt wochenlanger manueller Dateneingabe erfolgt die Verarbeitung großer PDF-Kataloge nun innerhalb von Stunden oder sogar Minuten. Das CARAT-Team konnte die Katalogdaten deutlich schneller verfügbar machen.

- Hohe Datenqualität: Die automatisierte Extraktion eliminiertTippfehler und Auslassungen. Alle Produktinformationen werden vollständig und konsistent erfasst – ein verlässlicher, strukturierter Datensatz statt unübersichtlicher PDF-Seiten.

- Format nach Wunsch: Das Framework ist flexibel hinsichtlich desAusgabeformats. Ob Excel-Datei für den sofortigen Gebrauch oder JSON/XML für die Integration in andere Systeme –Semadox liefert die Daten im benötigtenFormat 5

- Differenzanalyse möglich: Ein zusätzlicher Nutzen ergibt sich durch den nun möglichen Vergleich verschiedener Katalogstände. Da alle Daten digital vorliegen, lassen sich neue, geänderte oder entfallene Artikel zwischenJahrgängen auf Knopfdruck ermitteln.

Für Semadox öffnet dieser Use Case ebenfalls neue Türen. VieleBranchen – vom Möbelhandel bis zur Industrie – kämpfen mit PDF-Datenbergen wieProduktkatalogen, technischen Datenblättern oder Preislisten. UnsereKI-basierte Lösung hat gezeigt, dass hier enormes Potenzial zur Effizienzsteigerung besteht.

 

Wir freuen uns darauf, ähnlichen Herausforderungen auch bei anderen Kunden zu begegnen und die digitale Transformation von dokumentenzentrierten Prozessen voranzutreiben.

Haben auch Sie unstrukturierte Dokumente, aus denen Sie wertvolle Daten gewinnen möchten? Sprechen Sie mit uns – wir finden gemeinsam eine Lösung!

Bildquelle: CARAT

Steigern Sie Ihre Produktivität noch heute mit einer unverbindlichen Erstberatung.

Ausgewählte Partner & Referenzen

Lesen Sie unsere letzten Blogeinträge

Wie Sie mit Automatisierung den Erfolg Ihres Unternehmens steigern

Bernhard Lehner

August 10, 2025

Compacer + Semadox: Wenn 100 % digitale Prozesse wirklich 100 % bedeuten

Bernhard Lehner

August 7, 2025

Wie CARAT große Datenmengen aus PDF-Kataloge mit Semadox effizient in strukturierte Daten verwandelt

Bernhard Lehner

November 27, 2024

Semadox & linQsupply®: Level up you business processes!

Vereinbaren Sie Ihren Beratungstermin

Steigern Sie Ihre Produktivität
 mit einer unverbindlichen Erstberatung

In einem gemeinsamen Gespräch geben wir Ihnen konkrete Einblicke und Möglichkeiten zur kompletten Automatisierung Ihrer Dateneingänge