Data Mining

dt.: Datenuntersuchung

Themengebiet:

Allgemeine Informatik

Bedeutung:
Im Frühjahr 1996 im Zusammenhang mit Data Warehouse aufgekommener Begriff, der unter sich verschiedene Techniken (Mustererkennung, statistische Auswertungen, Zeitreihenanalysen, Datenmodellierung, neuronale Netze) summiert, mit denen aus umfangreichen, sehr detaillierten und verteilten Datenbeständen bislang unerkannte Informationen, Muster und Zusammenhänge zwischen den einzelnen Daten extrahiert werden können. Die übliche Vorgehensweise in Data Warehouses ist, dass der Verwender Hypothesen über Zusammenhänge von Daten aufstellt und diese auf den Datenbeständen testet, d.h., das System verhält sich passiv. Zur Entwicklung der Hypothesen und zur Analyse der Datenbestände bedarf es häufig statistischen Fachwissens und der Kenntnis einer Datenbankabfragesprache sowie insbesondere Erfahrung, damit man gezielt bestimmte Vermutungen über die Struktur der Datenbestände aufstellen kann. Data Mining hingegen entlastet den Nutzer und sucht selbständig nach diesen Strukturen und Zusammenhängen, so dass verborgenes Wissen aufgespürt werden kann. Typischerweise steht am Ende des Mining-Prozesses ein bestimmtes Daten- und Zusammenhangsmodell, das zunächst geeignet geprüft werden muss. Das Ergebnis der Prüfung bestimmt, ob der Mining-Prozess mit veränderten Parametern und Suchkriterien erneut gestartet werden muss, so dass es zu einem iterativen Vorgehen kommen kann. Anwendungsbeispiele: Ermittlung von Kundenprofilen aus Bestell-, Adress-, Zahlungs- und Reklamationsdateien oder die Marktsegmentbestimmung. Data Mining unterstützt als Tool den Anwender aktiv bei den Analysen von Datenbeständen mit verschiedenen Verfahren bei der gezielten Aufstellung und beim Test von Hypothesen. Tools zum Data Mining können Datenbestände gezielt auf statistische Häufungen, wiederkehrende Muster und Beziehungen zwischen verschiedenen Daten untersuchen und damit bislang unvermutete Zusammenhänge aufdecken. Dabei werden insbesondere folgende Suchstrategien unterschieden:
- Datenzusammenhang (Association): Es besteht eine starke Korrelation zwischen zwei Ereignissen, d.h., die Wahrscheinlichkeit ist groß, dass wenn A eintritt, gleichzeitig auch B eintritt. Beispiel: Ein Fernseher wird oft mit einem Videorecorder verkauft.
- Zeitabhängigkeit (Sequences): Es besteht ein Zusammenhang zwischen Ereignissen, die aber zeitlich aufeinanderfolgen. Beispiel: Dem Kauf eines Kinderwagens folgt nach einem Jahr oft der Kauf eines Buggys.
- Gruppenzuordnung (Classification, Clustering): Bestimmte Datensätze sind einander in mehreren Punkten ähnlich und können daher gleichen Gruppen (Clustern, Marktsegmenten, Zielgruppen) zugeordnet werden. Abweichungen sind in engen Grenzen zugelassen.
- Datenprognose (Forecasting): Historische Daten werden analysiert und nach bestimmten Gesetzmäßigkeiten fortgeschrieben. Als zugrundeliegende Technik werden dabei häufig neuronale Netze oder nichtlineare Optimierungsverfahren eingesetzt.

Zum Begriff:
Korrekturen/Ergänzungen schreiben
Letzte Änderung: 05.09.2003