Was ist Data Mining?

Was ist Data Mining?

Jede Sekunde wird eine gro√üe Datenmenge generiert, und es ist notwendig, die Unterschiede zu kennen Data Mining-Tools Dies kann verwendet werden, um diese riesigen Datenmengen zu verarbeiten und interessante Data Mining- und Visualisierungsalgorithmen in k√ľrzester Zeit anzuwenden.

Data Mining Es handelt sich um eine Reihe von Methoden, mit denen Daten aus verschiedenen Dimensionen und Perspektiven analysiert, bisher unbekannte verborgene Muster gefunden, Daten klassifiziert und gruppiert sowie identifizierte Beziehungen zusammengefasst werden.

Mithilfe von Data Mining k√∂nnen Unternehmen beispielsweise ihre besten Kunden identifizieren. Unternehmen k√∂nnen Data Mining-Techniken verwenden, um den vorherigen Kauf eines bestimmten Kunden zu analysieren und vorherzusagen, was ein Kunde in Zukunft kaufen k√∂nnte. Sie k√∂nnen auch Eink√§ufe hervorheben, die f√ľr den Kunden ungew√∂hnlich sind und auf Betrug hinweisen k√∂nnen.

Unternehmen können Ineffizienzen in Produktionsprozessen, potenzielle Produktfehler oder Schwachstellen in der Lieferkette feststellen.

Geschichte des Data Mining

Eine der ersten Ver√∂ffentlichungen, in denen der Begriff “Data Mining” verwendet wurde, wurde 1983 von Michael C. Lovell ver√∂ffentlicht. Zu dieser Zeit standen Lovell und viele andere √Ėkonomen der Praxis eher negativ gegen√ľber und waren der Ansicht, dass Statistiken zu falschen Schlussfolgerungen f√ľhren k√∂nnten, wenn wurde nicht √ľber die Kenntnisse dieses Themas informiert.

In den neunziger Jahren wurde die Idee, Wert aus Daten durch Identifizierung von Mustern zu extrahieren, jedoch viel popul√§rer. Datenbankanbieter und Data Warehouses verwenden das Schlagwort, um f√ľr ihre Software zu werben. Unternehmen haben begonnen, die potenziellen Vorteile dieser Praxis zu erkennen.

1996 startete eine Gruppe von Unternehmen, darunter Teradata und NCR, ein Projekt zur Standardisierung und Formalisierung ihrer Data-Mining-Methodik. Seine Arbeit f√ľhrte zur Schaffung eines Data-Mining-Prozesses nach Industriestandard (CRISP-DM). Dieser offene Standard unterteilt den Data Mining-Prozess in sechs Phasen:

  1. Das Geschäft verstehen
  2. Verstehe die Daten
  3. Datenaufbereitung
  4. Modellieren
  5. Bewertung
  6. Implementierung

Unternehmen wie IBM fördern das CRISP-DM-Modell bis heute. 2015 veröffentlichte IBM eine aktualisierte Version, die das Basismodell erweiterte.

In den fr√ľhen 2000er Jahren erkannten Internetunternehmen die Leistungsf√§higkeit des Data Mining, und die Praxis hat wirklich begonnen. W√§hrend der Begriff “Data Mining” von anderen Schlagworten wie “Datenanalyse”, “Big Data” und “maschinelles Lernen” √ľberschattet wurde, bleibt der Prozess ein wesentlicher Bestandteil der Gesch√§ftspraktiken. In der Tat kann gesagt werden, dass Data Mining de facto ein Teil der modernen Unternehmensf√ľhrung geworden ist.

Arten von Data Mining

Datenwissenschaftler und Analysten verwenden eine Vielzahl von Data Mining-Techniken, um ihre Ziele zu erreichen. Einige der häufigsten sind:

  • Gruppierung Es geht darum, Gruppen mit √§hnlichen Merkmalen zu finden. Beispielsweise verwenden Vermarkter h√§ufig Clustering, um Gruppen und Untergruppen in ihren Zielm√§rkten zu identifizieren. Clustering ist n√ľtzlich, wenn Sie die √Ąhnlichkeiten in Ihren Daten nicht kennen.
  • Einstufung Klassifizieren Sie Elemente (oder Einzelpersonen) anhand eines zuvor erlernten Modells in Kategorien. Die Klassifizierung erfolgt h√§ufig nach der Gruppierung (obwohl Sie auch ein Datenklassifizierungssystem trainieren k√∂nnen, das auf Kategorien basiert, die vom Wissenschaftler oder Datenanalysten definiert wurden). Durch die Gruppierung werden potenzielle Gruppen in einem vorhandenen Dataset identifiziert, und durch die Klassifizierung werden die neuen Daten in die entsprechende Gruppe eingeordnet. Computer-Vision-Systeme verwenden auch Klassifizierungssysteme, um Objekte in Bildern zu identifizieren.
  • Verband Identifizieren Sie Daten, die h√§ufig nahe beieinander liegen. Diese Technik treibt die meisten Empfehlungs-Engines an, z. B. wenn Amazon vorschl√§gt, dass Ihnen beim Kauf eines Artikels m√∂glicherweise auch ein anderer Artikel gef√§llt.
  • Anomalieerkennung Suchen Sie nach Daten, die nicht dem √ľblichen Muster entsprechen. Diese Techniken sind sehr n√ľtzlich, um Betrug aufzudecken.
  • Regression Es ist ein fortschrittlicheres statistisches Tool, das in der pr√§diktiven Analyse √ľblich ist. Es kann Entwicklern von sozialen Netzwerken und mobilen Anwendungen helfen, die Teilnahme zu erh√∂hen, und es kann auch helfen, zuk√ľnftige Verk√§ufe vorherzusagen und das Risiko zu minimieren. Regression und Klassifizierung k√∂nnen auch zusammen in einem Baummodell verwendet werden, was in vielen verschiedenen Situationen n√ľtzlich ist.
  • Text Mining analysieren, wie oft Menschen bestimmte W√∂rter verwenden. Es kann n√ľtzlich sein, um Gef√ľhle oder Pers√∂nlichkeit zu analysieren sowie Ver√∂ffentlichungen in sozialen Netzwerken f√ľr Marketingzwecke zu analysieren oder m√∂gliche Lecks von Mitarbeiterdaten zu erkennen.
  • Zusammenfassung Platziert eine Gruppe von Daten kompakter und verst√§ndlicher. Sie k√∂nnen beispielsweise Zusammenfassungen verwenden, um Diagramme zu erstellen oder Durchschnittswerte f√ľr einen bestimmten Datensatz zu berechnen. Es ist eine der bekanntesten und verf√ľgbaren Formen des Data Mining.

Data Mining-Tools

Unternehmen verf√ľgen √ľber eine Vielzahl von Data Mining-Toolss propriet√§re und Open Source Software. Diese Tools umfassen Data Warehouses, ELT-Tools, Datenbereinigungstools, Dashboards, Analysetools, Textanalysetools, Business Intelligence-Tools und mehr.