«Welche Kundengruppen generieren den höchsten Umsatz?». Agentenbasierte KI ermöglicht schon heute natürlichsprachliche Datenanalysen wie in diesem Beispiel verdeutlicht. Nebst der Verfügbarkeit und Qualität der zur Beantwortung solcher Fragen benötigten Daten ist deren Semantik für die Nutzung durch KI-Agenten erfolgskritisch. Dieser Beitrag erläutert die Problematik und zeigt Lösungsansätze auf.
Chat with your Data: Sind die Unternehmensdaten bereit dafür?
Woher weiss der KI-Agent, welche Daten mit den Kundinnen und Kunden oder mit dem Umsatz zu tun haben und wo er sie findet? In realen Datenmodellen sind Tabellen und Attribute selten so dokumentiert, dass ihre technische Bezeichnung eindeutig den fachlichen Begriff erkennen lässt. Oft fehlt der nötige Fachkontext zu den Daten. Und wer kennt es nicht: derselbe Begriff – etwa Umsatz oder Kunde – wird in verschiedenen Fachbereichen eines Unternehmens unterschiedlich verwendet.
Natürlichsprachliche Schnittstellen halten zunehmend Einzug in Business Intelligence Lösungen und Unternehmensprozesse. Sie machen Datenanalysen auch für weniger versierte Nutzerinnen und Nutzer zugänglich. Doch KI legt schonungslos offen, wenn Datengrundlagen unklar oder widersprüchlich sind – falls wir die Fehler überhaupt bemerken.
Semantik als fachliche Bedeutung und Beschreibung der Daten ist deshalb der kritische Erfolgsfaktor: Erst sie befähigt KI, wirklich zu verstehen, was Begriffe bedeuten. Ohne Semantik erkennt ein KI-Modell zwar Wörter, doch es weiss nicht, was sie aussagen oder wie es darauf reagieren soll. Semantische Modelle stellen zudem den Zusammenhang zwischen Sprache und Daten her – sie verknüpfen die Begriffe der Anfrage mit dem richtigen Kontext.
Mehrere Hürden erschweren jedoch die verlässliche Nutzung strukturierter Unternehmensdaten durch KI:
- Datensilos: Daten liegen in technischen, fachlichen oder organisatorischen Inseln, was das Auffinden erschwert.
- Datenredundanz: Mehrfach abgelegte Daten aus derselben Quelle führen zu unterschiedlichen Versionen und Qualitätsstufen, oft ohne klare Verantwortlichkeiten.
- Mangelnde Datenqualität: Fehlt Data Ownership, fühlt sich niemand zuständig.
- Fehlender Fachkontext: Bedeutungen sind über verschiedene Systeme verteilt – etwa in EA-Repositories, Modellierungs-Tools, Wikis oder Kennzahlenkatalogen – aber für unterschiedliche Zwecke angelegt, selten durchgängig konsistent und nicht mit den Nutzdaten verknüpft.
Sprache: Dialekte, Fachsprache, Synonyme oder branchenspezifische Abkürzungen können Sprachmodelle aus dem Tritt bringen.
Hausaufgaben für das Datenmanagement
Folgende Entwicklungen zeigen Wege aus dieser Situation:
- Data Mesh: Kern des Ansatzes ist das Datenprodukt, für das klare Verantwortung (Data Ownership) gilt. Damit wächst die Datenqualität, und Silos werden überwunden, weil Datenprodukte grundsätzlich zum Teilen geschaffen sind und über Organisationsgrenzen hinweg aufeinander aufbauen.
- Data Contracts: Sie geben Unternehmen die Kontrolle über die Semantik ihrer Daten zurück und ermöglichen so die Nutzung von Daten, die reich an fachlichem Kontext sind.
- Data Catalogs: Sie schaffen Transparenz über Datenressourcen, Herkunft und Governance. Mit Fokus auf Metadaten ermöglichen sie, KI-taugliche Datenlandschaften zu strukturieren und zu verwalten.
- Semantic Layer: Diese semantische Ebene wird zunehmend zum Herzstück moderner Datenplattformen – besonders für KI-Agenten und Sprachmodelle. Sie fungiert als Übersetzer zwischen menschlicher Absicht und technischer Datenstruktur. Standardisierungsinitiativen für den Austausch semantischer Informationen unterstreichen ihre Bedeutung .
- Transfer Learning: Mit dieser Technik des maschinellen Lernen lassen sich vortrainierte Modelle auf eine branchenspezifische Begriffswelt adaptieren.
Fazit:
Der Wandel von klassischen BI-Tools zu integrierten Daten- und Analytics-Plattformen ist in vollem Gange. Die Verbindung von KI mit strukturierten Daten legt Schwächen in deren Semantik offen. Neuere oder wiederbelebte Konzepte wie Data Mesh, Data Contract, Data Catalog und Semantic Layer sowie Transfer Learning tragen dazu bei, Daten für KI verständlich zu machen. Doch die Einführung ist kein Sprint, sondern ein Marathon vor allem für das Datenmanagement: Nur wer seine Daten langfristig semantisch anreichert und konsequent pflegt, wird das volle Potenzial intelligenter Analysen ausschöpfen können.
Weiterführende Links zum Thema:
Dieser Blog-Beitrag wurde mit Unterstützung von KI erstellt.
