Semantik: Kritischer Erfolgsfaktor für Datenanalysen mit KI

«Welche Kundengruppen generieren den höchsten Umsatz?». Agentenbasierte KI ermöglicht schon heute natürlichsprachliche Datenanalysen wie in diesem Beispiel verdeutlicht. Nebst der Verfügbarkeit und Qualität der zur Beantwortung solcher Fragen benötigten Daten ist deren Semantik für die Nutzung durch KI-Agenten erfolgskritisch. Dieser Beitrag erläutert die Problematik und zeigt Lösungsansätze auf.

Chat with your Data: Sind die Unternehmensdaten bereit dafür?

Woher weiss der KI-Agent, welche Daten mit den Kundinnen und Kunden oder mit dem Umsatz zu tun haben und wo er sie findet? In realen Datenmodellen sind Tabellen und Attribute selten so dokumentiert, dass ihre technische Bezeichnung eindeutig den fachlichen Begriff erkennen lässt. Oft fehlt der nötige Fachkontext zu den Daten. Und wer kennt es nicht: derselbe Begriff – etwa Umsatz oder Kunde – wird in verschiedenen Fachbereichen und Anwendungen eines Unternehmens unterschiedlich verwendet.

Verschiedene Hürden erschweren die verlässliche Nutzung strukturierter Unternehmensdaten durch KI:

  • Datensilos: Daten liegen in technischen, fachlichen oder organisatorischen Inseln, was das Auffinden erschwert.
  • Datenredundanz: Mehrfach abgelegte Daten aus derselben Quelle führen zu unterschiedlichen Versionen und Qualitätsstufen, oft ohne klare Verantwortlichkeiten.
  • Mangelnde Datenqualität: Fehlt Data Ownership, fühlt sich niemand für die Qualität der Daten zuständig.
  • Fehlender Fachkontext: Bedeutungen sind über verschiedene Systeme verteilt – etwa in EA-Repositories, Modellierungs-Tools, Wikis oder Kennzahlenkatalogen – aber für unterschiedliche Zwecke angelegt, selten durchgängig konsistent und nicht mit den Nutzdaten verknüpft.
  • Sprache: Dialekte, Fachsprache, Synonyme oder branchenspezifische Abkürzungen können Sprachmodelle aus dem Tritt bringen.

Natürlichsprachliche Schnittstellen halten zunehmend Einzug in Business Intelligence Lösungen und in Unternehmensprozessen. Sie machen Datenanalysen auch für weniger versierte Nutzerinnen und Nutzer zugänglich. Doch KI legt schonungslos offen, wenn Datengrundlagen qualitativ ungenügend, unklar oder widersprüchlich sind – falls wir die Fehler überhaupt bemerken.

Semantik als  fachliche Bedeutung und Beschreibung der Daten ist ein kritischer Erfolgsfaktor: Erst sie befähigt KI, wirklich zu verstehen, was Begriffe bedeuten. Ohne Semantik erkennt ein KI-Modell zwar Wörter, doch es weiss nicht, was sie aussagen oder wie es darauf reagieren soll. Semantische Modelle stellen zudem den Zusammenhang zwischen Sprache und Daten her – sie verknüpfen die Begriffe der Anfrage mit dem richtigen Kontext.

Gemeinsame Hausaufgaben für das Datenmanagement und die Enterprise Architecture

Folgende Entwicklungen und Lösungsansätze zeigen Wege aus dieser Situation:

  • Data Mesh: Kern des Ansatzes ist das Datenprodukt, für das klare Verantwortung (Data Ownership) gilt. Damit wächst die Datenqualität und Silos werden überwunden, weil Datenprodukte grundsätzlich zum Teilen geschaffen sind und über Organisationsgrenzen hinweg aufeinander aufbauen.
  • Data Contracts: Sie geben Unternehmen die Kontrolle über die Semantik ihrer Daten zurück und ermöglichen so die Nutzung von Daten, die reich an fachlichem Kontext sind.
  • Data Catalogs: Sie schaffen Transparenz über Datenressourcen, Herkunft und Governance. Mit Fokus auf Metadaten ermöglichen sie, KI-taugliche Datenlandschaften zu strukturieren und zu verwalten.
  • Semantic Layer: Diese semantische Ebene wird zunehmend zum Herzstück moderner Datenplattformen – besonders für KI-Agenten und Sprachmodelle. Sie fungiert als Übersetzer zwischen menschlicher Absicht und technischer Datenstruktur. Standardisierungsinitiativen für den Austausch semantischer Informationen unterstreichen ihre Bedeutung .
  • Transfer Learning: Mit dieser Technik des maschinellen Lernen lassen sich vortrainierte Modelle auf eine branchenspezifische Begriffswelt adaptieren.

Fazit:
Der Wandel von klassischen BI-Tools zu integrierten Daten- und Analytics-Plattformen ist in vollem Gange. Die Verbindung von KI mit strukturierten Daten legt Schwächen in deren Semantik offen. Neuere oder wiederbelebte Konzepte wie Data Mesh, Data Contract, Data Catalog und Semantic Layer sowie Transfer Learning tragen dazu bei, Daten für KI verständlich zu machen. Doch die Einführung ist kein Sprint, sondern ein gemeinsamer Marathon vor allem für das Datenmanagement und die Enterprise Architecture: Nur wenn beide Disziplinen gemeinsam die Herausforderung meistern, greifen die architektonischen Lösungsansätze und die Prozesse des Datenmanagements langfristig, so dass das volle Potenzial intelligenter Datenanalysen ausgeschöpft werden kann.

Weiterführende Links zum Thema:

Dieser Blog-Beitrag wurde mit Unterstützung von KI erstellt.

Beitrag teilen

Jürg Frühauf

Der Autor ist bei den Schweizerischen Bundesbahnen SBB als Produktmanager für die Data & Analytics Plattform verantwortlich und kennt die mit dem Thema verbundenen Herausforderungen in einer komplexen Umgebung aus der Praxis.

Alle Beiträge ansehen von Jürg Frühauf →

Schreibe einen Kommentar