Was ist Data Mining?

Was ist Data Mining?

Jede Sekunde wird eine große Datenmenge generiert, und es ist notwendig, die Unterschiede zu kennen Data Mining-Tools Dies kann verwendet werden, um diese riesigen Datenmengen zu verarbeiten und interessante Data Mining- und Visualisierungsalgorithmen in kürzester Zeit anzuwenden.

Data Mining Es handelt sich um eine Reihe von Methoden, mit denen Daten aus verschiedenen Dimensionen und Perspektiven analysiert, bisher unbekannte verborgene Muster gefunden, Daten klassifiziert und gruppiert sowie identifizierte Beziehungen zusammengefasst werden.

Mithilfe von Data Mining können Unternehmen beispielsweise ihre besten Kunden identifizieren. Unternehmen können Data Mining-Techniken verwenden, um den vorherigen Kauf eines bestimmten Kunden zu analysieren und vorherzusagen, was ein Kunde in Zukunft kaufen könnte. Sie können auch Einkäufe hervorheben, die für den Kunden ungewöhnlich sind und auf Betrug hinweisen können.

Unternehmen können Ineffizienzen in Produktionsprozessen, potenzielle Produktfehler oder Schwachstellen in der Lieferkette feststellen.

Geschichte des Data Mining

Eine der ersten Veröffentlichungen, in denen der Begriff “Data Mining” verwendet wurde, wurde 1983 von Michael C. Lovell veröffentlicht. Zu dieser Zeit standen Lovell und viele andere Ökonomen der Praxis eher negativ gegenüber und waren der Ansicht, dass Statistiken zu falschen Schlussfolgerungen führen könnten, wenn wurde nicht über die Kenntnisse dieses Themas informiert.

In den neunziger Jahren wurde die Idee, Wert aus Daten durch Identifizierung von Mustern zu extrahieren, jedoch viel populärer. Datenbankanbieter und Data Warehouses verwenden das Schlagwort, um für ihre Software zu werben. Unternehmen haben begonnen, die potenziellen Vorteile dieser Praxis zu erkennen.

1996 startete eine Gruppe von Unternehmen, darunter Teradata und NCR, ein Projekt zur Standardisierung und Formalisierung ihrer Data-Mining-Methodik. Seine Arbeit führte zur Schaffung eines Data-Mining-Prozesses nach Industriestandard (CRISP-DM). Dieser offene Standard unterteilt den Data Mining-Prozess in sechs Phasen:

  1. Das Geschäft verstehen
  2. Verstehe die Daten
  3. Datenaufbereitung
  4. Modellieren
  5. Bewertung
  6. Implementierung

Unternehmen wie IBM fördern das CRISP-DM-Modell bis heute. 2015 veröffentlichte IBM eine aktualisierte Version, die das Basismodell erweiterte.

In den frühen 2000er Jahren erkannten Internetunternehmen die Leistungsfähigkeit des Data Mining, und die Praxis hat wirklich begonnen. Während der Begriff “Data Mining” von anderen Schlagworten wie “Datenanalyse”, “Big Data” und “maschinelles Lernen” überschattet wurde, bleibt der Prozess ein wesentlicher Bestandteil der Geschäftspraktiken. In der Tat kann gesagt werden, dass Data Mining de facto ein Teil der modernen Unternehmensführung geworden ist.

Arten von Data Mining

Datenwissenschaftler und Analysten verwenden eine Vielzahl von Data Mining-Techniken, um ihre Ziele zu erreichen. Einige der häufigsten sind:

  • Gruppierung Es geht darum, Gruppen mit ähnlichen Merkmalen zu finden. Beispielsweise verwenden Vermarkter häufig Clustering, um Gruppen und Untergruppen in ihren Zielmärkten zu identifizieren. Clustering ist nützlich, wenn Sie die Ähnlichkeiten in Ihren Daten nicht kennen.
  • Einstufung Klassifizieren Sie Elemente (oder Einzelpersonen) anhand eines zuvor erlernten Modells in Kategorien. Die Klassifizierung erfolgt häufig nach der Gruppierung (obwohl Sie auch ein Datenklassifizierungssystem trainieren können, das auf Kategorien basiert, die vom Wissenschaftler oder Datenanalysten definiert wurden). Durch die Gruppierung werden potenzielle Gruppen in einem vorhandenen Dataset identifiziert, und durch die Klassifizierung werden die neuen Daten in die entsprechende Gruppe eingeordnet. Computer-Vision-Systeme verwenden auch Klassifizierungssysteme, um Objekte in Bildern zu identifizieren.
  • Verband Identifizieren Sie Daten, die häufig nahe beieinander liegen. Diese Technik treibt die meisten Empfehlungs-Engines an, z. B. wenn Amazon vorschlägt, dass Ihnen beim Kauf eines Artikels möglicherweise auch ein anderer Artikel gefällt.
  • Anomalieerkennung Suchen Sie nach Daten, die nicht dem üblichen Muster entsprechen. Diese Techniken sind sehr nützlich, um Betrug aufzudecken.
  • Regression Es ist ein fortschrittlicheres statistisches Tool, das in der prädiktiven Analyse üblich ist. Es kann Entwicklern von sozialen Netzwerken und mobilen Anwendungen helfen, die Teilnahme zu erhöhen, und es kann auch helfen, zukünftige Verkäufe vorherzusagen und das Risiko zu minimieren. Regression und Klassifizierung können auch zusammen in einem Baummodell verwendet werden, was in vielen verschiedenen Situationen nützlich ist.
  • Text Mining analysieren, wie oft Menschen bestimmte Wörter verwenden. Es kann nützlich sein, um Gefühle oder Persönlichkeit zu analysieren sowie Veröffentlichungen in sozialen Netzwerken für Marketingzwecke zu analysieren oder mögliche Lecks von Mitarbeiterdaten zu erkennen.
  • Zusammenfassung Platziert eine Gruppe von Daten kompakter und verständlicher. Sie können beispielsweise Zusammenfassungen verwenden, um Diagramme zu erstellen oder Durchschnittswerte für einen bestimmten Datensatz zu berechnen. Es ist eine der bekanntesten und verfügbaren Formen des Data Mining.

Data Mining-Tools

Unternehmen verfügen über eine Vielzahl von Data Mining-Toolss proprietäre und Open Source Software. Diese Tools umfassen Data Warehouses, ELT-Tools, Datenbereinigungstools, Dashboards, Analysetools, Textanalysetools, Business Intelligence-Tools und mehr.