Was ist Data Mining?

Der Prozess, der einem Unternehmen erlaubt, nützliche Daten zum Beschreiben oder Prognostizieren zu extrahieren und von den mit der Zeit durch Techniken und Tools erfassten Daten zu profitieren.

Data Mining

Data Mining ist der Prozess zur Identifikation von Informationen in einem Datenset und wird auch als Wissensentdeckung in Datenbanken (Knowledge Discovery in Databases, KDD) bezeichnet. Sie können zwei Ergebnisse durch Data Mining erzielen: Ihre Daten beschreiben oder Prognosen anhand Ihrer Daten treffen.

Der erste und wohl komplizierteste Schritt beim Data Mining besteht darin, ein Geschäftsziel festzulegen. Dieser Schritt ist auch der kritischste. Wenn Sie nicht wissen, wonach Sie suchen, ist es schwierig, die Arten, Algorithmen und Modelle in Bezug auf Machine Learning auszuwählen, die Ihnen die benötigten Informationen liefern.

Data Mining kann im Vertriebs- und Marketingbereich nützlich sein, weil ein Unternehmen dadurch seine Kunden besser verstehen und sein Marketing entsprechend anpassen kann. Schulen und Universitäten können es nutzen, um ihre Schüler besser zu verstehen, und zwar auf Basis von Informationen wie der in einem virtuellen Klassenzimmer verbrachten Zeit, der Anzahl der Tastenanschläge, der gleichzeitig belegten Kurse oder der Klassen mit den besten Testergebnissen.

Auch Unternehmen können Data Mining verwenden, um Vorgänge zu optimieren, indem sie unter anderem Einblick in Herstellung, Montage, Fehler und Ausfälle erhalten. Es hilft auch bei der Betrugserkennung. Banken können mithilfe von Data Mining nach Betrugsmustern oder sogar nach dem Geschäft suchen, das kompromittiert wurde.

Im zweiten Schritt bereiten Sie Ihre Daten vor. Wenn Sie Ihr Ziel kennen, können Ihre Data Scientists den entsprechenden Datensatz bestimmen, sodass Ihr Unternehmen von den resultierenden Informationen profitieren kann. Data Scientists müssen in diesem zweiten Schritt die Daten, Duplikate, fehlenden Informationen und Ausreißer bereinigen. Andernfalls könnten die genannten Punkte verhindern, dass Ihre Data-Mining-Algorithmen und -Tools Ihnen die benötigten Ergebnisse liefern.

Im dritten Schritt wird das Modell erstellt und nach Mustern gesucht. An dieser Stelle kommen die folgenden Techniken und Tools ins Spiel. Data Mining könnte Deep-Learning-Algorithmen mit überwachten oder nicht überwachten Lernmethoden verwenden.

Im vierten und letzten Schritt werten Sie die durch Data Mining generierten Ergebnisse aus, um Änderungen vorzunehmen oder Maßnahmen zu ergreifen, die für Ihr Unternehmen nützlich sind.

Data Mining – Techniken

Data Scientists und Unternehmen können durch Data-Mining-Techniken große Datenmengen besser nutzen. Zu den Techniken gehören Folgende:

  • Die Mustererkennung ist eine grundlegende Technik zur Identifikation von Mustern, etwa der erhöhten Umsätze mit Schneeschaufeln im Fall eines bevorstehenden Sturms, sofern die Dinge, die Sie suchen, nicht so offensichtlich sind.
  • Durch Klassifizierung, eine weitere Technik, können Daten in verschiedene Kategorien eingeteilt und klassifiziert werden. Beispielsweise können Sie Bankkunden anhand ihres bisherigen finanziellen Hintergrunds als Kreditkartenkunden mit niedrigem, mittlerem oder hohem Risiko klassifizieren.
  • Die Zuordnung ist eine weitere Methode in Bezug auf die Mustererkennung. Sie sucht nach Variablen, die in bestimmten Momenten verknüpften sind. Ein Beispiel wäre die Erkenntnis, dass ein Kunde, wenn er Nudeln in seinen Einkaufswagen legt, als Nächstes eine Soße auswählt, oder dass er nach der Soße Parmesan auswählt.
  • Das Erkennen von Ausreißern ist eine weitere Data-Mining-Methode, die nach Ausnahmen oder Anomalien sucht. Ein Beispiel hierfür wäre ein massiver Umsatzanstieg durch weibliche Kundinnen in einem typischen Männergeschäft im Juni, der sich darauf zurückführen lässt, dass Frauen ein oder zwei Wochen vor dem Vatertag Geschenke für die Väter kaufen.
  • Clustering ist eine weitere Technik, die der Klassifizierungstechnik ähnelt. Hierbei werden Daten aufgrund ihrer Ähnlichkeit gruppiert. Kunden könnten nach Einkaufshäufigkeit oder verfügbarem Einkommen verknüpft werden.
  • Bei der Regression handelt es sich um die Fähigkeit, einen Wert anhand bisheriger Werte zu prognostizieren. Die Regression ermittelt einen zeitraumbasierten Durchschnitt, da Werte wie der Immobilienpreis verglichen mit dem aktuellen Durchschnittspreis zeitweise ein wenig steigen oder fallen.
  • Die Prognose ist eine Data-Mining-Technik, durch die Unternehmen Werte prognostizieren können.

     

Data Mining – Tools

Data-Mining-Tools sind entscheidend dafür, die Auswirkung von Data Mining auf die Produktivität des Unternehmens zu verbessern. Einige der aktuell besten Tools sind:

  • MonkeyLearn
  • RapidMiner Studio
  • Sisense for Cloud Data Teams
  • Alteryx Designer
  • Qlik Sense
  • Orange

 

MonkeyLearn ist ein Textanalysetool. Damit können Sie Stimmungen wie negative Online-Rezensionen erkennen oder die Kennzeichnungs- und Weiterleitungsprozesse für Ihre Tickets automatisieren.

RapidMiner Studio ist eine Open-Source-Plattform mit einer Drag-and-Drop-Oberfläche, auf der Nicht-Programmierer ihren jeweiligen Anwendungsfall anpassen können. Die Plattform kann zur Betrugserkennung oder Kundenfluktuation verwendet werden. Für Programmierer gibt es R- und Python-Erweiterungen zur Anpassung von Data Mining. Obendrein gibt es eine hervorragende Support-Community.

Mit Sisense for Cloud Data Teams können Teams unabhängig vom technischen Niveau ihrer Mitglieder intelligente Informationen aus ihren Daten extrahieren.

Bei Alteryx Designer kann ein Data Analyst seine Daten mithilfe eines Tools vorbereiten, zusammenführen und analysieren.  

Qlik Sense ist ein Softwaretool zur Visualisierung mit „ansprechenden Tabellen und Diagrammen“. Es ermöglicht die Analyse mehrerer Datenquellen mit Drag-and-Drop-Funktionalität.

Ressourcen