Jurawelt

Artikel 8194
Alexander Levenetz

Ich rede mit meinem Computer – kein Fall für den Psychiater

Eine Rezension zu:

"Dragon NaturallySpeaking 7 – Preffered Edition" von ScanSoft Inc.

Für PCs mit Windows 98 SE, ME, NT 4.0 (mit SP6 oder höher), 2000 oder XP

Erscheinungsjahr 2003
Preis: € 179,-

www.scansoft.de


Es gibt schon seit Jahren Spracherkennungs-Software zu kaufen, mit der dem User ermöglicht werden soll, zum einen seinen Computer wenigstens in Teilen per Sprache zu steuern und zum anderen insbesondere es ihm zu ermöglichen, direkt durch Diktat einen Text im Computer zu erstellen. Lange Jahre war es so, daß man beim Versuch, ein solches Produkt zu kaufen, vom Verkäufer zu hören bekamen: "Was wollen Sie denn damit? Das bringt doch gar nix! Zeit- und Geldverschwendung, da schreib ja ich schneller..." – und meistens hatte der Verkäufer damit leider auch recht. Das lag allerdings weniger daran, daß die Hersteller sich keine Mühen gegeben hätten, sondern vielmehr daran, daß die menschliche Sprache ein für den Computer sehr komplexes Konstrukt darstellt. Man versuche sich nur mal vorzustellen, wie wohl das bisher Geschriebene in Nullen und Einsen auszudrücken wäre! Eben, wie soll das gehen... Aber – erstaunlicherweise – es geht! Früher mehr schlecht als recht, heute jedoch schon auf einem Niveau, welches sinnvolles Arbeiten durchweg ermöglicht.

Solch ein Produkt der neuesten Generation ist auch die hier getestete Version 7 der bekannten Sprachsoftware Dragon NaturallySpeaking von ScanSoft. Die Preferred-Edition ist eine gegenüber der Standardedition nicht zuletzt im Wortschatz erheblich erweiterte Version, wenn auch dafür fast doppelt so teuer. Ohne die Standardversion getestet zu haben, wage ich zu behaupten, daß das Geld für die Preferred-Edition im Vergleich gut angelegt ist, denn gerade am Wortschatz wird sich die Tauglichkeit festmachen lassen: Was bringt mir eine Sprachsoftware, wenn sie die noch so deutlich ausgesprochenen Worte auch nach dem x-ten Training nicht versteht, weil sie schlicht nicht in der Datenbank enthalten sind? Sicher, man kann vereinzelt Worte hinzufügen, doch muß sich das schon aus Praktikabilitätsgründen auf ein Minimum beschränken, sonst wird das Programm praktisch nutzlos.

Links oben das Erkennungsfenster

Allerdings bringt auch die größte Wortschatzdatenbank nichts, wenn das Programm den Anwender nicht versteht, sei es, weil er oder sie Griechisch redet oder – was wohl näher liegt – sich das Programm erst auf die Aussprache des Anwenders einstellen muß. Letzteres ist auch bei der getesteten Version vonnöten. NaturallySpeaking bietet jedoch einen gut erklärten und einfachen Assistenten, der den Anwender nach der Installation durch die notwendigen Mindest-Anpassungen führt. Diese sind nach erstaunlich kurzer Zeit – ca. 5 Minuten – abgeschlossen. Dabei wurde unter anderem auch ein Nutzer angelegt, was letztlich bedeutet, daß eben auch mehrere Personen in einer Installation ihr eigenes Profil haben und diktieren können, wenn der jeweilige User vorher ausgewählt wurde. Auch kann man so für eine Person das Diktieren in verschiedenen Sprachen ermöglichen, etwa Englisch und Deutsch. Theoretisch kann man jetzt munter drauflos diktieren, allerdings wird sich das Ergebnis noch kaum sinnvoll verwenden lassen. Denn man muß schon noch zusätzliches Training durchführen. Dazu ruft man über das einfach und übersichtlich gehaltene Menü der Dragon-Leiste (oder, wenn man diese – etwa aus Platzgründen – ausgeblendet hat, über das Mikrofon-Symbol in der Taskleiste) zunächst den Erkennungscenter als zentrale "Problembehebungs- und Erkennungsverbesserungs-Stelle" auf. Hier wählt man einfach "Zusätzliches Training ausführen" und bekommt mehrere Texte zur Auswahl, die man dann für das Training entsprechend vorzulesen hat. Die jeweilige ungefähre Dauer wird am Anfang angezeigt und variiert, je nach Text, zwischen zehn und dreißig Minuten. Nach Abschluß folgt eine Erkennungsphase, die je nach Textumfang und Rechnerausstattung bis zu einer Stunde dauern kann (dabei ja aber im Hintergrund ablaufen kann, so daß nebenher weitergearbeitet werden kann).

Nicht zu unterschätzen ist auch die Möglichkeit, bereits existierende Texte oder Emails zu scannen, um sich so dem Schreibstil des jeweiligen Users anzupassen. Die Scanfunktion für Emails hält der Rezensent für sehr interessant und alles andere als überflüssig. Denn gerade Emails schreibt er am häufigsten. Doch ist der dort verwendete Stil häufig ein anderer als in förmlichen Briefen oder sonstigen Dokumenten. Leider war beim Rezensenten diese Funktion nicht anwendbar, da das verwendete Email-Programm (The Bat!) leider nicht unterstützt wurde. Outlook Express aber z.B. wird unterstützt. Hier wäre es zu wünschen, daß die Liste der unterstützten Programme erweitert wird, zumal etwa The Bat! (um nur eins zu nennen) nun gerade im professionellen Bereich (allerdings zugegebenermaßen außerhalb des klassischen Office-Bereichs) nicht gerade selten anzutreffen ist.

Funktioniert das Programm nun auch noch so gut, es wird doch immer wieder Fehler machen. Hier kommt jetzt die Notwendigkeit einer einfachen und schnellen Korrigierbarkeit ins Spiel. Dragon NaturallySpeaking 7 ermöglicht dies in quasi perfekter Weise. Denn das Programm versteht nicht nur das als Diktat Gesprochene, sondern eben auch Befehle. Kann ich zum einen meinen Text per Sprachbefehle formatieren (fett, zentriert, eingerückt usw.), so kann ich sie zum anderen auch inhaltlich korrigieren oder ganze Sätze löschen. Man sagt einfach "Streich das" und es wird der zuletzt im Zusammenhang gesprochene Satz gelöscht (unter Umständen kann das ein ganzer Absatz sein, also Vorsicht!). Zur Korrektur sagt man einfach "Korrigier [Wort]", wenn es ein Einzelwort ist oder "Korrigier das", wenn man etwa einen Halbsatz diktiert hat und sich in diesem ein Fehler befindet. Dann öffnet sich ein kleines Fenster mit einer durchnumerierten Liste von Vorschlägen, wie eine Korrektur erfolgen könnte. Man sagt dann etwa "Nimm vier" und der vierte Vorschlag ersetzt den fehlerbehafteten (Halb-)Satz oder das Wort. Das erstaunliche daran ist, daß sich in ca. 98% der Fälle das Richtige in der Liste befindet. Man braucht also nichts von Hand nacharbeiten – das nenne ich Fehlerkorrektur, wie sie einfacher nicht sein könnte! Zudem hat dies den Effekt, daß das Programm aus den Fehlern lernt, um sie hoffentlich in der Zukunft zu vermeiden – was aber nicht immer funktioniert; eine gewisse Sturheit kann man dem Programm manchmal nicht absprechen (wobei der Rezensent hier ein bißchen schmunzeln muß)...

Unten die Dragon Menü-Leiste - fast beliebig platzierbar

Einschränken muß ich die Leichtigkeit der Fehlerkorrektur allerdings insofern, als dies so nur in Office-Anwendungen, dem vom Programm mitgelieferten Dragon-Pad und einigen weiteren Programmen (siehe ScanSoft-Homepage) uneingeschränkt unterstützt wird. Im vom Rezensenten verwendeten Email-Programm etwa (das wie gesagt kein Office-Produkt ist) konnte zwar problemlos diktiert werden und auch die Befehle wie "Korrigier das" wurden erkannt und es kam daraufhin die Korrektur-Liste, jedoch wurde die Auswahl dann an willkürlicher Stelle im Text eingefügt und war damit unbrauchbar. Ob dies nun schlimm ist oder nicht, sei dahingestellt. Jedes Programm hat seine Grenzen und bei der Vielzahl der möglichen Anwendungsprogramme unter Windows kann man nicht verlangen, daß alles unterstützt wird. Wichtig ist meines Erachtens vielmehr, daß die gängigen Programme (gerade) der Office-Reihe vollumfänglich unterstützt werden, denn dies sind diejenigen Anwendungen, die im Büroalltag am häufigsten verwendet werden.

Apropos verwenden: Dragon NaturallySpeaking 7 bietet auch die Möglichkeit, Programme per Sprache zu steuern. "Klick Datei" etwa öffnet das Menü "Datei" in z.B. Word. "Zurück zu Outlook" geht zum geöffneten Outlook-Fenster, wenn man z.B. gerade in Word ist. Man kann innerhalb der Fenster scrollen, diese minimieren, maximieren oder schließen. Die Formatiermöglichkeit von Text wurde schon oben genannt. Grundsätzlich kann man auch Programme per Sprachbefehl öffnen. "Öffne Excel" bringt allerdings alles mögliche, nur nicht Excel.;-) Und wer sich dann abends um 21 Uhr im Büro einsam fühlt, der kann sich sogar seine Dokumente vorlesen lassen. So nützlich das sicherlich grundsätzlich sein kann, so nervig wird es jedoch schon bald, dieser Computerstimme zuzuhören. Das aber dürfte wirklich reine Geschmackssache sein. In der Zukunft dürfte sich auch die Sprachausgabe der menschlichen Stimme noch erheblich anpassen. Der Fortschritt der Technik auf diesem Gebiet ist wirklich erstaunlich.

Beschrieben wurden hier nur Funktionen, die vom Rezensenten getestet werden konnten. So soll es etwa laut Hersteller-Angaben weiter möglich sein, in digitale Aufnahmegeräte oder Pocket-PCszu diktieren und dieses Diktat dann nachher am Rechner über Dragon NaturallySpeaking in Text umsetzen zu lassen. Mangels Diktiergerät oder Pocket-PC konnte dies nicht getestet werden. Dies dürfte allerdings eine nicht uninteressante Funktion gerade für eine Kanzlei sein. Und angesichts des übrigen Programm-Verhaltens bin ich mir sicher, daß auch diese Funktion gut funktionieren wird.

Womit ich speziell noch auf den juristischen Kontext zu sprechen kommen will. Es gibt eine Legal-Edition der Software. Zum Preis ist auf der Homepage nichts zu erfahren. Der Rezensent wird versuchen, von ScanSoft auch hierzu eine Version zum Testen zu erhalten. Denn im Bereich der juristischen Fachtermini gerät der Wortschatz der Preferred-Edition (naturgemäß) an seine Grenzen, auch wenn es doch erstaunlich ist, wieviel das Programm hier schon versteht. Das mag allerdings auch daran gelegen haben, daß juristische Texte gescannt wurden, s.o. Angesichts der Tatsache, daß das Programm selbstverständlich auch neue Wörter lernen kann, der Wortschatz (jedenfalls durch Scannen) auch so schon recht groß ist und die Legal-Edition sicherlich nicht unerheblich teurer sein wird, bleibt abzuwarten, ob und warum es sich lohnt, die Legal-Edition zu kaufen.

Zu den Systemvoraussetzungen: Grundsätzlich gilt für jede Sprachsoftware, daß der Rechner nie zu schnell sein und nie zu viel Arbeitsspeicher haben kann. Die Verarbeitung des Gesprochenen ist sehr rechenintensiv und auch durchaus speicherhungrig – sowohl was den Arbeitsspeicher als auch den Festplattenspeicher für die Anwender-Sprachdatenbank anbelangt. Als Mindestanforderungen werden von ScanSoft ein Pentium III mit 500 MHz, 128 MB RAM und 300 MB freier Festplattenspeicher genannt. Wer diese Konfiguration sein Eigen nennt, sollte es lassen, denn die Arbeit wird keinen Spaß machen. Der Rezensent nutzt einen Athlon XP 1800+ (1550 MHz) mit 512 MB RAM unter Windows XP und diese Konfiguration war mit Sicherheit nicht zu schnell, wenn auch völlig ausreichend. ScanSoft selbst empfiehlt für "optimale Leistung in Verbindung mit anderen auf Ihrem System installierten Anwendungen" 256 MB RAM. Weiter sind nötig ein CD-ROM-Laufwerk, Lautsprecher (nicht zwingend) und Soundkarte, Internet-Explorer 5 oder höher und ein geräuschunterdrückendes Kopfbügelmikrofon (jedenfalls in der Preferred-Edition enthalten).

Fazit: Wer nicht gerade das Zehn-Finger-System perfekt beherrscht, wird nach etwas Training mit Dragon NaturallySpeaking seine Texte bedeutend schneller erstellen können. Dazu kommt der Faktor, daß man nicht vor dem Monitor und an der Tastatur hängen muß, sondern nur in Bildschirmnähe, um zu sehen, was an Text erzeugt wird und um gegebenenfalls Korrekturen vornehmen zu können. Lediglich das Headset mit dem Mikrophon muß getragen werden. Ein Tisch-Mikrofon wird normalerweise nicht funktionieren.
Wer allerdings seine Texte ohnehin diktiert und die Sekretärin/Anwaltsgehilfin sie abtippen läßt, der wird wohl bzgl. der Anwendbarkeit auf Sprachsteuerung und Email-Diktat beschränkt werden. Hier muß jeder selbst entscheiden, ob er dafür das Geld und die Zeit zum Training investieren möchte – schaden tut das Programm allerdings nicht. Und wer es erstmal regelmäßig nutzt, der sieht schnell, daß es ständig lernt und immer besser wird – mal ganz davon abgesehen, daß man selbst das Programm besser kennen lernt und unter Umständen noch weitere, speziell für einen selbst, nützliche Funktionen entdeckt. Die am Anfang investierte Zeit wird, jedenfalls bei regelmäßiger Verwendung der Sprachsoftware, schnell wieder rein geholt.

Der Rezensent sagt jetzt zu seinem Mikrophon "Geh schlafen" (und muß ab sofort selbst weiterschreiben) und wundert sich erneut, wie erstaunlich gut sein Computer von selbst schreibt, obwohl er mit ihm redet wie mit seinen Mitmenschen – vielleicht einen klitzekleinen Tick deutlicher, was sicherlich generell nie schaden kann...

15.08.2003





Copyright © 2000-2008 Jurawelt