Home arrow Business Intelligence arrow Produkte arrow BI mit Microsoft SQL Server arrow Data Mining mit Analysis Services  

 beratung

 

 

telefonnu

 

 

termin_vereinbaren  

 

 

 anfrage_button  

 

 

lastminuteangebote
 
 

Ansprechpartner BI

Fachlicher Ansprechpartner:

Markus Schwienbacher (Dipl.-Inf. Univ)
Senior Manager
Fachbereichsleiter Business Intelligence

Tel.: (09 11) 98 89 - 0

Kundenbetreuung - Vertrieb:

Ralf Heumann
Leitung Key Account Management

Tel.: (09 11) 98 89 - 180

Postanschrift:

it innovations GmbH
Thomas-Mann-Str. 59
90471 Nürnberg

Diese E-Mail Adresse ist gegen Spam Bots geschützt, Sie müssen Javascript aktivieren, damit Sie sie sehen können

 

Trainer Login






Passwort vergessen?
Noch kein Benutzerkonto?
Registrieren

Data Mining-Algorithmen des SQL Servers 2005

Jedes Data Mining-Werkzeug, einschließlich Microsoft SQL Server 2005 Analysis Services, verwendet eine Vielzahl von Algorithmen. Natürlich ist Analysis Services erweiterbar. Algorithmen von Dritten fügen sich nahtlos in das Analysis Services Data Mining-Framework ein. Abhängig von den Daten und dem gewünschten Ziel werden verschiedene Algorithmen bevorzugt, und jeder Algorithmus kann für verschiedenste Probleme verwendet werden. Data Mining-Werkzeuge lösen viele verschiedene Probleme.

Eine grobe Einteilung von Unternehmensproblemen wird in der folgenden Tabelle aufgeführt:

 

Analyseproblem Beispiele Microsoft-Algorithmen
Klassifizierung: Einteilen von Fällen in vordefinierte Klassen wie "Gut" kontra "Schlecht"

· Analyse der Kreditwürdigkeit

· Abwanderungsanalyse

· Kundenbindung

· Decision Trees

· Naïve Bayes

 

· Neural Nets

 

Segmentierung: Entwickeln einer Taxonomie zum Gruppieren ähnlicher Fälle

· Kundenprofilanalyse

· Mailing-Kampagne

 

· Clustering

 

 

· Sequence Clustering

 

Zuordnung: Fortgeschrittenes Zählen von Korrelationen

· Warenkorbanalyse

· Fortgeschrittene Datenuntersuchung

 

· Decision Trees

 

 

· Association Rules

 

Zeitreihenvorhersage: Zukunftsvorhersage

· Umsatzvorhersage

· Aktienkursvorhersage

 

· Time Series

 

Vorhersage: Vorhersage für den Wert eines neuen Falls (z.B. neuer Kunde) basierend auf den Werten ähnlicher bestehender Fälle (bestehende Kunden)

· Angabe von Versicherungsprämien

· Vorhersage für das Kundeneinkommen

· Vorhersage der Temperatur

 

· Alle

 

Abweichungsanalyse: Entdecken von Unterschieden zwischen Fällen oder Segmenten

· Aufdecken von Kreditkartenbetrug

· Netzwerkeinbruchanalyse

· Alle

SQL Server 2005 wird mit den meisten gebräuchlichen Data Mining-Algorithmen ausgeliefert:

  • Microsoft Decision Trees ist häufig der Ausgangspunkt für Datenuntersuchung. Es handelt sich hier vor allen Dingen einen Klassifizierungs-Algorithmus, der sehr gut zur Entwicklung von Vorhersagemodellen für diskrete und kontinuierliche Attribute geeignet ist. Wenn der Algorithmus ein Modell erstellt wird untersucht, wie jedes in einen Datensatz eingegebene Attribut das Ergebnis des vorhergesagten Attributs beeinflusst. Das Ziel ist es, eine Kombination von eingegebenen Attributen und deren Status zu finden, die es erlaubt, das Ergebnis des vorhergesagten Attributs zu prognostizieren.

 

  • Microsoft Naïve Bayes erstellt schnell Mining-Modelle, die zur Klassifizierung und Vorhersage dienen. Es werden Wahrscheinlichkeiten für jeden möglichen Status des eingegebenen Attributs anhand jedes Status des vorhersagbaren Attributs errechnet. Der Algorithmus unterstützt nur diskrete (nicht kontinuierliche) Attribute und betrachtet alle eingegeben Attribute als unabhängig für das vorgegebene vorhersagbare Attribut ein. Da der Naïve Bayes-Algorithmus sehr schnell rechnet, wird er gerne für die erste Datenuntersuchungsphase verwendet, sowie für Klassifizierung und Vorhersage.

 

  • Microsoft Clustering verwendet iterative Techniken, um Auszüge aus einem Datensatz in Cluster zu fassen, die ähnliche Eigenschaften besitzen. Mit diesen Clustern können Daten auf Beziehungen hin untersucht werden. Ebenso können anhand des Cluster-Modells Vorhersagen erstellt werden.

 

  • Microsoft Association basiert auf einem a priori-Algorithmus, und bietet effektive Unterstützung zum Auffinden von Mehrfachkorrelationen innerhalb großer Datensätze. Der Association-Algorithmus durchsucht die Transaktionen innerhalb einer Datenbank, um herauszufinden, welche Elemente in den Transaktionen eines einzelnen Benutzers am wahrscheinlichsten gemeinsam auftreten. Zusammenhängende Elemente werden in Itemsets gruppiert, und es werden Regeln generiert, die zur Vorhersage dienen. Microsoft Association wird am häufigsten für Warenkorbanalysen verwendet. Jede relationale oder OLAP-Analyse, die häufig "distinct counts" ausführt, ist ein geeigneter Kandidat für eine Association-Analyse. Der Microsoft Association-Algorithmus reagiert empfindlich auf die Wahl der Algorithmus-Parameter, deshalb empfiehlt sich bei kleineren Problemen Microsoft Decision Trees als der bessere Algorithmus für Warenkorbanalysen.

 

  • Microsoft Sequence Clustering kombiniert Sequenzanalyse und Clustering für das Untersuchen von Daten und Vorhersagen. Das Sequence Clustering-Modell beachtet die Reihenfolge, in der Ereignisse auftreten. Zusätzlich berücksichtigt der Clustering-Algorithmus andere Attribute bei der Clusterbildung, was die Entwicklung eines Modells ermöglicht, das sequenzielle und nicht sequenzielle Informationen korreliert. Der Sequence Clustering-Algorithmus kann für Clickstreamanalysen verwendet werden, die den Verkehrsfluss auf einer Website analysieren; so kann herausgefunden werden, welche Seiten am engsten mit dem Verkauf eines Produkts verbunden sind, und es kann vorhergesagt werden, welche Seiten als nächste besucht werden.

 

  • Microsoft Time Series erstellt Modelle für die Vorhersage einer oder mehrerer kontinuierlicher Variablen, wie etwa Aktienkurse. Der Time Series-Algorithmus basiert seine Vorhersage allein auf den Trends, die aus den Trainingsdaten während der Entwurfsphase des Modells abgeleitet wurden. Microsoft Time Series verwendet eine AutoRegression Trees-Technik, ist sehr einfach zu handhaben und generiert extrem genaue Modelle. Ein gesamter Zweig in der statistischen Analyse ist ausschließlich Time Series gewidmet. Die meisten anderen Data Mining-Produkte bieten viele Techniken wie ARMA, ARIMA, und Box-Jenkins, unter denen der Statistiker die für das Modell passenste heraussuchen muss. Microsoft hat sich für eine Herangehensweise entschieden, die Time Series-Analyse einem breiten Publikum zugänglich macht, und das mit exzellenten und genauen Ergebnissen.

 

    • Microsoft Neural Net, wie auch Decision Trees und Naïve Bayes, wird hauptsächlich für das Untersuchen von Daten, die Klassifizierung und Vorhersage verwendet. Neural Net ist eine Technik der künstlichen Intelligenz, die alle möglichen Datenbeziehungen untersucht. Da es sich um eine sehr gründlich arbeitende Technik handelt, ist das der langsamste der drei Klassifizierungs-Algorithmen.