|
Jedes Data
Mining-Werkzeug, einschließlich Microsoft SQL Server 2005 Analysis
Services, verwendet eine Vielzahl von Algorithmen. Natürlich ist
Analysis Services erweiterbar. Algorithmen von Dritten fügen sich
nahtlos in das Analysis Services Data Mining-Framework ein. Abhängig
von den Daten und dem gewünschten Ziel werden verschiedene Algorithmen
bevorzugt, und jeder Algorithmus kann für verschiedenste Probleme
verwendet werden. Data Mining-Werkzeuge lösen viele verschiedene
Probleme.
Eine grobe Einteilung von Unternehmensproblemen wird in der folgenden Tabelle aufgeführt:
| Analyseproblem |
Beispiele |
Microsoft-Algorithmen |
| Klassifizierung: Einteilen von Fällen in vordefinierte Klassen wie "Gut" kontra "Schlecht" |
· Analyse der Kreditwürdigkeit
· Abwanderungsanalyse
· Kundenbindung
|
· Decision Trees
· Naïve Bayes
· Neural Nets
|
| Segmentierung: Entwickeln einer Taxonomie zum Gruppieren ähnlicher Fälle |
· Kundenprofilanalyse
· Mailing-Kampagne
|
· Clustering
· Sequence Clustering
|
| Zuordnung: Fortgeschrittenes Zählen von Korrelationen |
· Warenkorbanalyse
· Fortgeschrittene Datenuntersuchung
|
· Decision Trees
· Association Rules
|
| Zeitreihenvorhersage: Zukunftsvorhersage |
· Umsatzvorhersage
· Aktienkursvorhersage
|
· Time Series
|
| Vorhersage:
Vorhersage für den Wert eines neuen Falls (z.B. neuer Kunde) basierend
auf den Werten ähnlicher bestehender Fälle (bestehende Kunden) |
· Angabe von Versicherungsprämien
· Vorhersage für das Kundeneinkommen
· Vorhersage der Temperatur
|
· Alle
|
| Abweichungsanalyse: Entdecken von Unterschieden zwischen Fällen oder Segmenten |
· Aufdecken von Kreditkartenbetrug
· Netzwerkeinbruchanalyse
|
· Alle |
SQL Server 2005 wird mit den meisten gebräuchlichen Data Mining-Algorithmen ausgeliefert:
- Microsoft Decision Trees
ist häufig der Ausgangspunkt für Datenuntersuchung. Es handelt sich
hier vor allen Dingen einen Klassifizierungs-Algorithmus, der sehr gut
zur Entwicklung von Vorhersagemodellen für diskrete und kontinuierliche
Attribute geeignet ist. Wenn der Algorithmus ein Modell erstellt wird
untersucht, wie jedes in einen Datensatz eingegebene Attribut das
Ergebnis des vorhergesagten Attributs beeinflusst. Das Ziel ist es,
eine Kombination von eingegebenen Attributen und deren Status zu
finden, die es erlaubt, das Ergebnis des vorhergesagten Attributs zu
prognostizieren.
- Microsoft Naïve Bayes
erstellt schnell Mining-Modelle, die zur Klassifizierung und Vorhersage
dienen. Es werden Wahrscheinlichkeiten für jeden möglichen Status des
eingegebenen Attributs anhand jedes Status des vorhersagbaren Attributs
errechnet. Der Algorithmus unterstützt nur diskrete (nicht
kontinuierliche) Attribute und betrachtet alle eingegeben Attribute als
unabhängig für das vorgegebene vorhersagbare Attribut ein. Da der Naïve
Bayes-Algorithmus sehr schnell rechnet, wird er gerne für die erste
Datenuntersuchungsphase verwendet, sowie für Klassifizierung und
Vorhersage.
- Microsoft Clustering
verwendet iterative Techniken, um Auszüge aus einem Datensatz in
Cluster zu fassen, die ähnliche Eigenschaften besitzen. Mit diesen
Clustern können Daten auf Beziehungen hin untersucht werden. Ebenso
können anhand des Cluster-Modells Vorhersagen erstellt werden.
- Microsoft Association basiert auf einem a priori-Algorithmus,
und bietet effektive Unterstützung zum Auffinden von
Mehrfachkorrelationen innerhalb großer Datensätze. Der
Association-Algorithmus durchsucht die Transaktionen innerhalb einer
Datenbank, um herauszufinden, welche Elemente in den Transaktionen
eines einzelnen Benutzers am wahrscheinlichsten gemeinsam auftreten.
Zusammenhängende Elemente werden in Itemsets gruppiert, und es werden
Regeln generiert, die zur Vorhersage dienen. Microsoft Association wird
am häufigsten für Warenkorbanalysen verwendet. Jede relationale oder
OLAP-Analyse, die häufig "distinct counts" ausführt, ist ein geeigneter
Kandidat für eine Association-Analyse. Der Microsoft
Association-Algorithmus reagiert empfindlich auf die Wahl der
Algorithmus-Parameter, deshalb empfiehlt sich bei kleineren Problemen
Microsoft Decision Trees als der bessere Algorithmus für
Warenkorbanalysen.
- Microsoft Sequence Clustering
kombiniert Sequenzanalyse und Clustering für das Untersuchen von Daten
und Vorhersagen. Das Sequence Clustering-Modell beachtet die
Reihenfolge, in der Ereignisse auftreten. Zusätzlich berücksichtigt der
Clustering-Algorithmus andere Attribute bei der Clusterbildung, was die
Entwicklung eines Modells ermöglicht, das sequenzielle und nicht
sequenzielle Informationen korreliert. Der Sequence
Clustering-Algorithmus kann für Clickstreamanalysen verwendet werden,
die den Verkehrsfluss auf einer Website analysieren; so kann
herausgefunden werden, welche Seiten am engsten mit dem Verkauf eines
Produkts verbunden sind, und es kann vorhergesagt werden, welche Seiten
als nächste besucht werden.
- Microsoft Time Series
erstellt Modelle für die Vorhersage einer oder mehrerer
kontinuierlicher Variablen, wie etwa Aktienkurse. Der Time
Series-Algorithmus basiert seine Vorhersage allein auf den Trends, die
aus den Trainingsdaten während der Entwurfsphase des Modells abgeleitet
wurden. Microsoft Time Series verwendet eine AutoRegression
Trees-Technik, ist sehr einfach zu handhaben und generiert extrem
genaue Modelle. Ein gesamter Zweig in der statistischen Analyse ist
ausschließlich Time Series gewidmet. Die meisten anderen Data
Mining-Produkte bieten viele Techniken wie ARMA, ARIMA, und
Box-Jenkins, unter denen der Statistiker die für das Modell passenste
heraussuchen muss. Microsoft hat sich für eine Herangehensweise
entschieden, die Time Series-Analyse einem breiten Publikum zugänglich
macht, und das mit exzellenten und genauen Ergebnissen.
- Microsoft Neural Net,
wie auch Decision Trees und Naïve Bayes, wird hauptsächlich für das
Untersuchen von Daten, die Klassifizierung und Vorhersage verwendet.
Neural Net ist eine Technik der künstlichen Intelligenz, die alle
möglichen Datenbeziehungen untersucht. Da es sich um eine sehr
gründlich arbeitende Technik handelt, ist das der langsamste der drei
Klassifizierungs-Algorithmen.
|