telefonnu

Rückruf

 

anfrage

Ansprechpartner BI

Fachlicher Ansprechpartner:

Markus Schwienbacher (Dipl.-Inf. Univ)
Senior Manager
Fachbereichsleiter Business Intelligence

Tel.: (09 11) 98 89 - 0

Kundenbetreuung - Vertrieb:

Ralf Heumann
Leitung Key Account Management

Tel.: (09 11) 98 89 - 180

Postanschrift:

it innovations GmbH
Thomas-Mann-Str. 59
90471 Nürnberg

Diese E-Mail Adresse ist gegen Spam Bots geschützt, Sie müssen Javascript aktivieren, damit Sie sie sehen können

 

Trainer Login






Passwort vergessen?
Noch kein Benutzerkonto?
Registrieren
Data Mining

 

Unter Data Mining ("Datenschürfung") versteht man die automatisiere Analyse von Datenbeständen mit Hilfe von statistischer Methoden (Algorithmen) um Trends, Muster und Beziehungen zu erkennen.

Mit Data Mining oder dem Entdecken von Wissen, wie es gelegentlich bezeichnet wird, können Sie im Unternehmen gespeicherte Daten nutzen und nach Mustern untersuchen. Mit diesen Mustern ist es möglich, den Profit zu steigern, Kosten zu sparen, Produkte zu optimieren und die Kundenzufriedenheit zu erhöhen.

 

Die Datenbank wird zur Goldmine

Data Mining-Lösungen eignen sich hervorragend für das Sichten Hunderter vergleichbarer und potenziell hilfreicher Dimensionen der Analyse und miteinander verbundener Kombinationen. Alle Data Mining-Algorithmen verfügen über integrierte Mechanismen zum Untersuchen einer großen Anzahl potenzieller, in Daten erkennbarer Muster und zum Reduzieren der Ergebnisse auf einfache Zusammenfassungsberichte.
Die OLAP und Data Mining-Ansätze ergänzen sich und führen bei gemeinsamer Bereitstellung zu Synergieeffekten. Die häufigsten Data Mining-Techniken sind Entscheidungsbäume (Decision Trees), neuronale Netze, Clusteranalyse und Regression.

 

Als Teil der Data Mining-Infrastruktur hat Microsoft die Spezifikation OLE DB für Data Mining erstellt, eine Erweiterung von OLE DB für OLAP. Sie definiert die Data Mining-Infrastruktur und COM-Schnittstellen, durch die Data Mining-Modelle und Algorithmen für Kunden sichtbar werden. OLE DB für Data Mining dient auch als Standard, den externe Produkthersteller verwenden können, um ihre Data Mining-Funktionalität in der Microsoft-Umgebung bereitzustellen. Dieser Standard wird bereits von einigen Drittherstellern von Tools und Anwendungen genutzt, insbesondere von den Mitgliedern der Microsoft Data Warehousing Alliance, darunter die drei Data Mining-Anbieter: Angoss Software, DBMiner Technology und Megaputer Intelligence.


Der Entwicklungsansatz für Data Mining

Eine Data Mining-Abfrage unterscheidet sich von einer traditionellen Abfrage ebenso, wie sich das dahinter stehende Modell von einer traditionellen Datenbanktabelle unterscheidet. In einer Data Mining-Abfrage geben Sie die zu untersuchende Frage an (z. B. Bruttoumsatz oder Wahrscheinlichkeit von Reaktionen auf ein zielgruppenorientiertes Marketingangebot), und bekommen die Abfrageergebnisse in Form eines Strukturmodells, das die Frage beantwortet, zurück.

Das Microsoft-Entwicklungsteam erstellte mehrere Abfrage-Assistenten, um den Erstellungs- und Interaktionsprozess mit dem Data Mining-Modell so zu vereinfachen, dass Endbenutzer die Abfragesyntax nicht beherrschen müssen.

Drei Hauptstrategien standen bei der Entwicklung der SQL Server 2000 Analysis Services im Mittelpunkt: Einfache Bedienung durch den Anwender, OLAP- und Data Mining-Integration sowie universeller Datenzugriff (Universal Data Access, UDA). Das Team implementierte die „Selbstbedienungsstrategie" in erster Linie über Aufgaben-Assistenten, die den Benutzer durch die einzelnen Schritte beim Entwickeln und Verwenden von Data Mining-Modellen leiten. Für die Integration von OLAP- und Data Mining-Metaphern werden Abfrageergebnisse über eine Oberfläche an den Benutzer übermittelt, die bei OLAP- und Data Mining-basierten Abfragen identisch ist.Durch die hinzugefügten Data Mining-Funktionen in SQL Server 2000 konnte die Leistungsfähigkeit des SQL Servers funktional deutlich erweitert werden. Ein Data Mining-Modell kann aus relationalen Quellen (Standardtabellen) oder dimensionalen Quellen (Cube-Strukturen) entwickelt werden. Der Analysis-Manager enthält mehrere Assistenten, die die Interaktion mit Data Mining-Modellen vereinfachen.

 

Aufbau des Data Mining-Prozesses

Bei den Ausgangsdaten für Data Mining handelt es sich um eine Sammlung von Tabellen. In einem typischen Analyseszenario werden beispielsweise Kundenreaktionen auf frühere Angebote dazu verwendet, ein Data Mining-Modell zu trainieren. Mithilfe dieses Modells können dann die Eigenschaften von Kunden ermittelt werden, die mit der größten Wahrscheinlichkeit auf neue Angebote reagieren würden. Bei Data Mining verwenden Sie zunächst den Trainingsprozess, um Muster in zurückliegendem Verhalten zu erkennen, und verwenden diese Muster wiederum, um das zukünftige Verhalten vorherzusagen. Data Mining erstellt diese Vorhersage über einen Verknüpfungsvorgang, den Sie über die Data Transformation Services (DTS) implementieren können. DTS stellt ein einfaches Abfragetool zur Verfügung, das das Erstellen eines Vorhersagepakets ermöglicht. Dieses Paket enthält das trainierte Data Mining-Modell und verweist auf eine untrainierte Datenquelle, von der Sie vorhersagbare Ergebnisse erhalten möchten. Wenn Sie z. B. eine Datenquelle trainiert haben, so dass diese nach einem Muster für die Vorhersage wahrscheinlicher Kundenreaktionen auf eine Konferenzeinladung sucht, können Sie DTS dazu verwenden, das vorhergesagte Muster auf eine neue Datenquelle anzuwenden. Sie könnten z. B. abfragen, wie viele Kunden im neuen Datensatz wahrscheinlich auf die Einladung reagieren würden. Die DTS-Mechanismen führen zu wertvollen Synergieeffekten zwischen Data Mining, BI und Datawarehousing in der Microsoft-Umgebung.

dataminingvorhersage

Abb. Data Mining – Vorhersage mittels verschiedener Merkmale


Die Datensammlung, aus der eine Einheit jeweils besteht (z. B. ein Kunde), wird als Fall bezeichnet. Die Menge aller zugehörigen Fälle (Kunden, Angebote, Konferenzen) wird als Fallmenge bezeichnet. OLE DB für Data Mining verwendet verschachtelte Tabellen – in anderen Tabellen gespeicherte Tabellen –, die vom Datenstrukturierungsdienst definiert werden. Sie können Produktkäufe z. B. innerhalb eines Kundenfalles speichern.

Eine wichtige Eigenschaft der Data Mining-Funktionalität im SQL Server 2000 ist die einfache Bereitstellung. Mit DTS können die Ergebnisse bereits trainierter Modelle einfach für neue Datenquellen übernommen werden. Die Strategie besteht darin, Data Mining-Produkte den klassischen Datenverarbeitungsprodukten anzunähern, so dass Daten dabei bearbeitet, untersucht und extrahiert werden können, wie bei jeder Tabelle in einer normalen Datenbank. Bei diesem Ansatz wurde erkannt, dass Data Mining, so wie es von Organisationen in der Regel durchgeführt wird, außerhalb der relationalen Standarddatenbank arbeitet. Dabei wird eine neue Datenbank erstellt, was zu Redundanzen führt, möglicherweise Fehler und Zeitverluste nach sich zieht und dem Zweck der Datenbank widerspricht. Eines der Hauptziele bei der Entwicklung von SQL Server 2000 war es, die Data Mining-Funktion direkt in die Datenbank einzubetten. Bei diesem direktem Data Mining (wie der direkte Zugriff auf die systemeigene Datenbank bezeichnet wird) entsteht keine zeitliche Verzögerung, die unweigerlich mit dem Erstellen einer speziellen Datentabelle verbunden wäre.

 

Von den Analysis Services unterstützte Data Mining-Aufgaben
Es gibt drei wesentliche Aufgabenbereiche für Data Mining: Ergebnismodelle, Clustermodelle und Affinitätsmodelle. Ergebnismodelle (von Microsoft als Klassifizierung bezeichnet) helfen beim Vorhersagen oder Klassifizieren eines Ergebnisses anhand eines oder mehrerer Felder bzw. Variablen im Datensatz. Clustermodelle, auch als Segmentierung bezeichnet, werden zum Gruppieren übereinstimmender Fälle anhand gemeinsamer Werte in vielen Feldern eines Datensatzes verwendet. Affinitätsmodelle, mit denen Zugehörigkeit, Reihenfolge und Abweichung analysiert werden kann, und Abhängigkeitsmodelle stellen normalerweise das Verhältnis oder die Reihenfolge zwischen zwei Feldern dar. Die Analysis Services im SQL Server 2000 stellen zwei Grundalgorithmen für Data Mining zur Verfügung, die Klassifizierung und Clustererstellung unterstützen: Entscheidungsbäume (Decision Trees) und Clusteranalysen.

Entscheidungsbäume

Entscheidungsbäume sind eine häufig eingesetzte und stabile Technik für Vorhersagemodelle, in denen ein zu trainierendes Ergebnisfeld vorhanden ist. Entscheidungsbäume sind einfach zu handhaben, führen zu einer sehr übersichtlichen grafischen Anzeige und funktionieren sehr gut mit kategorisierten und kontinuierlichen Daten. Ein Beispiel: Sie möchten die Reaktion auf eine Einladung zu einer Konferenz messen. An Daten stehen zur Verfügung: Position, Geschlecht, Mitarbeiteranzahl des Unternehmens, Umsatzhöhe und die Antwort auf die Einladung (Zu- oder Absage).

Bereits bei einem kleinen Datensatz wäre es sehr schwierig, allein anhand visueller Prüfung festzustellen, welche Attribute im Datensatz gegebenenfalls darauf schließen lassen, dass eine (positive) Antwort der eingeladenen Personen wahrscheinlich ist. Stellen Sie sich z. B. vor, Sie versuchten zu ermitteln, von welchen Kriterien die Wahrscheinlichkeit der Zusagen beeinflusst wird, wenn die Datenbank mehr als 10.000 Datensätze enthält: Ist es die Position im Unternehmen? Das Geschlecht? Die Anzahl der Mitarbeiter oder die Höhe des Umsatzes? Es ist schwierig, ein vorhersagbares Verhältnis zwischen zwei Variablen zu erkennen. Es ist jedoch unmöglich, die Kombinationen vorhersagbarer Verhältnisse zu erkennen, die eine Klassifizierung für eine Vorhersage vom Typ der Zusagewahrscheinlichkeit ermöglichen würde. 

 

Segmentierung (Clusteranalyse)

Als Segmentierung wird das Anordnen von Fällen in Gruppen oder Clustern anhand gemeinsamer Übereinstimmungen mit einem Attributsatz bezeichnet. In Entscheidungsbäumen werden ebenfalls Segmente erkannt, jedoch anhand einer bestimmten Ergebnisvariablen, z. B. der Konferenzteilnahme, ermittelt. Daher bilden die Werte, die als numerische Codes oder Zeichenfolgenwerte angezeigt werden, in einer Verzweigung des Entscheidungsbaumes ein Cluster. In diesem Cluster (einem Blatt des Entscheidungsbaumes) verfügen die Fälle über eine gemeinsame Übereinstimmung bezüglich der Attribute der Verzweigung, die den Entscheidungsbaum bildet. Das Beispiel oben hat geziegt, dass die kleineren Kunden mit hohem Einkommen in der Analyse ein Segment bilden, das von allen Segmenten im Entscheidungsbaum die niedrigste Antwortrate aufweist. Der Entscheidungsbaum bildet eine Verzweigung, die die im Blatt (Cluster) vorhandenen gemeinsamen Übereinstimmungen darstellt und die Wahl zeigt, die zwischen zwei Ergebnissen getroffen wurde – in diesem Beispiel Zu- oder Absage. Wenn keine Ergebnisvariable vorhanden ist oder wenn Sie sehen möchten, wie sich die Beobachtungen von gemeinsamen Werten in mehreren Ergebnisvariablen in Gruppen einordnen lassen, sollten Sie sich für die Technik der Clusteranalyse entscheiden. Bei der Clusteranalyse werden Gruppen mit Fällen gebildet, die hinsichtlich mehrerer gemeinsamer Attribute – z. B. Größe, Gewicht, Alter – so homogen wie möglich sind, jedoch im Vergleich zu anderen homogenen Clustern größtmögliche Unterschiede aufweisen. Eine Clusteranalyse kann z. B. alle großen, schweren, jüngeren „Fälle" in einem Cluster und alle kleinen, leichten, älteren Fälle in einem anderen Cluster zusammenfassen. Auch Fälle mit übereinstimmenden Erwerbs- oder Anlagemustern bilden einfach erkennbare Marktsegmente, für die unterschiedliche Produkte zielgruppenorientiert angeboten werden können. Für die personalisierte Interaktion bedeutet dies, dass unterschiedliche Cluster wichtige Hinweise liefern können, die unterschiedliche Vorgehensweisen nahe legen.Mit der Zeit haben sich mehrere unterschiedliche Techniken für das Durchführen von Clusteranalysen entwickelt. Der Ansatz der Analysis Services verwendet das so genannte „Nearest Neighbor-Verfahren", bei dem Datensätze aufgrund geringer Distanzen bestimmten Clustern zugewiesen werden. (Autor: R. Müller, sqlnews)

 

Data Mining mit dem SQL Server 2005

Ausführliche Informationen über Data Mining mit SQL Server 2005

 

Unser Angebot für Sie: Unser Vorgehensmodell

Unsere Leistungen umfassen die gesamte Kette von der Projektierung bis zur Abnahme und Schulung, oder den von Ihnen daraus gewünschten Teilbereich. Unser Vorgehensmodell beinhaltet folgende Schritte:

  • Business verstehen:
    Unternehmensziele kennen bzw. definieren, Geschäftsprozesse beschreiben und optimieren, Ressourcen einschätzen, Projektplan erstellen
  • Daten verstehen:
    Ausgangsdaten definieren, sammeln und beschreiben, Daten im Hinblick auf fehlende und/oder fehlerhafte Werte erkunden, Datenqualität verifizieren
  • Datenquellen vorbereiten:
    Daten auswählen und säubern, Daten konstruieren und zusammenfassen, Daten transformieren und formatieren
  • Lösung modellieren:
    Modellierungsverfahren im Hinblick auf die Zielsetzung auswählen, Testumgebung entwerfen und Modell bauen, Lösung(en) generieren.
  • Lösung evaluieren:
    Ergebnisse evaluieren, bei Bedarf Prozess überarbeiten Lösung anwenden: Verfahren in bestehende Prozesse integrieren, Überwachung und Wartung planen, Abschlußbericht erstellen.


Training

Für die effiziente Nutzung Ihrer Anwendungen müssen Ihre Mitarbeiter fit sein. Wir schulen und trainieren Projektmitglieder und Endanwender projektbegleitend. Eine Auswahl unserer Trainings in diesem Bereich: