Jens Ole Weinhold
Von den Daten zu nützlichen Informationen.
Eine Rezension zu:
Ian H. Witten / Eibe Frank
Data Mining
Praktische Werkzeuge und Techniken für das maschinelle Lernen
Carl Hanser Verlag, München Wien 2002, 386 S., 49,90 €
ISBN 3-446-21533-6
http://www.hanser.de
Das hier vorliegende Buch ist die Übersetzung der erfolgreichen englischen Originalausgabe "Data Mining - Practical Machine Learning Tools and Techniques with Java
Implementations" aus dem Jahre 2000, das aus einem Forschungsprojekt über maschinelles Lernen am Fachbereich Informatik der University of Waikato in Neuseeland entstanden
ist.
Trotz der universitären Herkunft - Ian H. Witten ist Professor und Eibe Frank Dozent an oben genannter Universität - zeichnet es sich durch ein hohes Maß an Ausgewogenheit
von Theorie und Praxis aus und bietet auch bezüglich der Breite in der Auswahl der Themen und der Tiefe in der Präsentation eine hervorragende Mischung.
Neben theoretisch fundierten Grundlagen und einer Fülle anschaulicher Beispiele erhält der Leser zudem eine große Bandbreite von Lösungsansätzen, die in praxisorientierten
Algorithmen und deren Implementierungen münden.
Die Zielgruppe dieses Buches ist weit gestreut: neben den Praktikern im IT-Sektor (z.B. Programmierer und Berater, aber auch Manager und Anwender), die sich auf dem Gebiet
des Data Minig weiterbilden möchten, profitieren auch technisch orientierte Studenten davon. Das Werk (resp. die engl. Originalausgabe) wird bereits als Lehrbuch in mehreren
aktuellen Veranstaltungen zum Thema Data Mining an deutschen Universitäten verwendet.
Das Buch ist leicht zu lesen und die vom Leser erwarteten Vorkenntnisse sind gering. Nur in wenigen Abschnitten werden mathematische Spezialkenntnisse für das Verständnis
vorausgesetzt. Diese Abschnitte sind dann aber auch deutlich sichtbar mit einem hellgrauen Balken am Rand markiert und für den Leser mit tiefergehendem Interesse an
technischen oder theoretischen Details gedacht.
Die Methoden des maschinellen Lernens - der technischen Basis des Data Mining - werden in diesem Buch in aufeinanderfolgenden Detailstufen beschrieben. So erfährt der Leser
auf der obersten Ebene in den Kapiteln eins bis drei zunächst anhand von Beispielen, was maschinelles Lernen überhaupt ist und welche Anwendungsgebiete dafür in Frage kommen
(Kapitel 1). Er wird zudem über verschiedene Ein- und Ausgabeformen, die Wissensrepräsentation, unterrichtet (Kapitel 2 und 3).
Mit Kapitel vier erklimmt der Leser dann die nächst höhere Stufe und lernt - in vereinfachter Form - grundlegende Methoden des maschinellen Lernens kennen. Dazu gehören hier
insbesondere die Ableitung elementarer Regeln, die statistische Modellierung, der Aufbau von Entscheidungsbäumen, Abdeckungs-Algorithmen, Erzeugen von Assoziationsregeln,
Lineare Modelle und instanzbasiertes Lernen.
Das fünfte Kapitel ist von den anderen Kapiteln unabhängig lesbar und beschäftigt sich mit der Auswertung gewonnener Ergebnisse. Thematisiert werden hier die
Leistungsvorhersage (Kreuzvalidierung, Leave-one-out, Bootstrap), die Vorhersage von Wahrscheinlichkeiten (Quadratische Verlustfunktion, Informatorische Verlustfunktion),
die Bewertung des Aufwands (Steigerungsdiagramme, ROC-Kurven) sowie die Auswertung numerischer Vorhersagen und das MDL-Prinzip.
Mit dem sechsten Kapitel ist der Leser schließlich in den detailliertesten Bereich vorgedrungen, der sich mit den Implementierungsproblemen der verschiedenen Algorithmen des
maschinellen Lernens beschäftigt. Der Leser lernt hier sowohl die Konzepte als auch die technischen Details von industriell einsetzbaren Algorithmen des maschinellen Lernens
kennen.
Wie man die Erfolgschancen bei Data Mining-Problemen aus der realen Welt erhöht, erfährt man in Kapitel sieben. Hier wird ausführlich auf die Aufbereitung der Eingaben
(Attributauswahl, Attributdiskretisierung, Datensäuberung) und auf anspruchsvollere Techniken zur Verfeinerung und Kombination der Ausgabe (u.a. Bagging, Boosting, Stacking)
verschiedener Lerntechniken eingegangen.
Das Kapitel acht widmet sich ausschließlich Weka (Waikato Environment for Knowledge Analysis). Weka ist eine vollständige Java-Implementierung auf industriellem Niveau der
meisten in diesem Buch beschriebenen Techniken und ist im Internet frei zugänglich. Mit dieser Software können die Konzepte - auch an realen Problemen - sofort praktisch
ausprobiert werden, was den Erkenntnisgewinn in hervorragender Weise unterstützt. Leider liegt dem Buch aber keine Begleit-CD mit diesem Softwarepaket bei. Dieses ist aber
eventuell darauf zurückzuführen, dass Weka einem dynamischen Wachstum unterliegt und ständig um Funktionalität erweitert wird.
Mit einem Ausblick im neunten Kapitel in die Themen Visualisierung, Einbinden von Domänenwissen, Text Mining sowie Mining im WWW endet das Buch.
Referenzen und zahlreiche weiterführende Literatur befinden sich durchgängig am Ende eines jeden Kapitels und lassen keine Wünsche offen. Das Stichwortverzeichnis hingegen
hätte ein wenig ausführlicher ausfallen dürfen.
Fazit: Wer in die faszinierende Welt des Data Mining eintauchen möchte, der trifft mit diesem Buch die richtige Entscheidung und erhält eine ausgezeichnete und auf
angemessenem Niveau dargebotene Einführung in die Welt dieser noch jungen Disziplin.
|