Jurawelt

Artikel 5412
Jens Ole Weinhold

Von den Daten zu nützlichen Informationen.

Eine Rezension zu:

Ian H. Witten / Eibe Frank

Data Mining

Praktische Werkzeuge und Techniken für das maschinelle Lernen

Carl Hanser Verlag, München Wien 2002, 386 S., 49,90 €
ISBN 3-446-21533-6

http://www.hanser.de


Das hier vorliegende Buch ist die Übersetzung der erfolgreichen englischen Originalausgabe "Data Mining - Practical Machine Learning Tools and Techniques with Java Implementations" aus dem Jahre 2000, das aus einem Forschungsprojekt über maschinelles Lernen am Fachbereich Informatik der University of Waikato in Neuseeland entstanden ist.

Trotz der universitären Herkunft - Ian H. Witten ist Professor und Eibe Frank Dozent an oben genannter Universität - zeichnet es sich durch ein hohes Maß an Ausgewogenheit von Theorie und Praxis aus und bietet auch bezüglich der Breite in der Auswahl der Themen und der Tiefe in der Präsentation eine hervorragende Mischung.

Neben theoretisch fundierten Grundlagen und einer Fülle anschaulicher Beispiele erhält der Leser zudem eine große Bandbreite von Lösungsansätzen, die in praxisorientierten Algorithmen und deren Implementierungen münden.

Die Zielgruppe dieses Buches ist weit gestreut: neben den Praktikern im IT-Sektor (z.B. Programmierer und Berater, aber auch Manager und Anwender), die sich auf dem Gebiet des Data Minig weiterbilden möchten, profitieren auch technisch orientierte Studenten davon. Das Werk (resp. die engl. Originalausgabe) wird bereits als Lehrbuch in mehreren aktuellen Veranstaltungen zum Thema Data Mining an deutschen Universitäten verwendet.

Das Buch ist leicht zu lesen und die vom Leser erwarteten Vorkenntnisse sind gering. Nur in wenigen Abschnitten werden mathematische Spezialkenntnisse für das Verständnis vorausgesetzt. Diese Abschnitte sind dann aber auch deutlich sichtbar mit einem hellgrauen Balken am Rand markiert und für den Leser mit tiefergehendem Interesse an technischen oder theoretischen Details gedacht.

Die Methoden des maschinellen Lernens - der technischen Basis des Data Mining - werden in diesem Buch in aufeinanderfolgenden Detailstufen beschrieben. So erfährt der Leser auf der obersten Ebene in den Kapiteln eins bis drei zunächst anhand von Beispielen, was maschinelles Lernen überhaupt ist und welche Anwendungsgebiete dafür in Frage kommen (Kapitel 1). Er wird zudem über verschiedene Ein- und Ausgabeformen, die Wissensrepräsentation, unterrichtet (Kapitel 2 und 3).

Mit Kapitel vier erklimmt der Leser dann die nächst höhere Stufe und lernt - in vereinfachter Form - grundlegende Methoden des maschinellen Lernens kennen. Dazu gehören hier insbesondere die Ableitung elementarer Regeln, die statistische Modellierung, der Aufbau von Entscheidungsbäumen, Abdeckungs-Algorithmen, Erzeugen von Assoziationsregeln, Lineare Modelle und instanzbasiertes Lernen.

Das fünfte Kapitel ist von den anderen Kapiteln unabhängig lesbar und beschäftigt sich mit der Auswertung gewonnener Ergebnisse. Thematisiert werden hier die Leistungsvorhersage (Kreuzvalidierung, Leave-one-out, Bootstrap), die Vorhersage von Wahrscheinlichkeiten (Quadratische Verlustfunktion, Informatorische Verlustfunktion), die Bewertung des Aufwands (Steigerungsdiagramme, ROC-Kurven) sowie die Auswertung numerischer Vorhersagen und das MDL-Prinzip.

Mit dem sechsten Kapitel ist der Leser schließlich in den detailliertesten Bereich vorgedrungen, der sich mit den Implementierungsproblemen der verschiedenen Algorithmen des maschinellen Lernens beschäftigt. Der Leser lernt hier sowohl die Konzepte als auch die technischen Details von industriell einsetzbaren Algorithmen des maschinellen Lernens kennen.

Wie man die Erfolgschancen bei Data Mining-Problemen aus der realen Welt erhöht, erfährt man in Kapitel sieben. Hier wird ausführlich auf die Aufbereitung der Eingaben (Attributauswahl, Attributdiskretisierung, Datensäuberung) und auf anspruchsvollere Techniken zur Verfeinerung und Kombination der Ausgabe (u.a. Bagging, Boosting, Stacking) verschiedener Lerntechniken eingegangen.

Das Kapitel acht widmet sich ausschließlich Weka (Waikato Environment for Knowledge Analysis). Weka ist eine vollständige Java-Implementierung auf industriellem Niveau der meisten in diesem Buch beschriebenen Techniken und ist im Internet frei zugänglich. Mit dieser Software können die Konzepte - auch an realen Problemen - sofort praktisch ausprobiert werden, was den Erkenntnisgewinn in hervorragender Weise unterstützt. Leider liegt dem Buch aber keine Begleit-CD mit diesem Softwarepaket bei. Dieses ist aber eventuell darauf zurückzuführen, dass Weka einem dynamischen Wachstum unterliegt und ständig um Funktionalität erweitert wird.

Mit einem Ausblick im neunten Kapitel in die Themen Visualisierung, Einbinden von Domänenwissen, Text Mining sowie Mining im WWW endet das Buch.

Referenzen und zahlreiche weiterführende Literatur befinden sich durchgängig am Ende eines jeden Kapitels und lassen keine Wünsche offen. Das Stichwortverzeichnis hingegen hätte ein wenig ausführlicher ausfallen dürfen.

Fazit: Wer in die faszinierende Welt des Data Mining eintauchen möchte, der trifft mit diesem Buch die richtige Entscheidung und erhält eine ausgezeichnete und auf angemessenem Niveau dargebotene Einführung in die Welt dieser noch jungen Disziplin.
CareerVenture jura spring am 27. April 2009 in Frankfurt
"Strafrechtliche Bewertung vom Phishing und Pharming Angriffen" von David Schneider
Wahlstation in Singapore
Nachrichten zum Internetrecht





Copyright © 2000-2008 Jurawelt