Jurawelt

Spracherkennung für den Juristen: IBM ViaVoice Pro 8 und Dragon Naturally Speaking 5 advanced comfort
Thomas Franosch


Spracherkennung für den Juristen

IBM ViaVoice Pro für Windows Release 8
und
Dragon Naturally Speaking 5 advanced comfort



Im üblichen Alltag eines Juristen - egal ob in Kanzlei, Gericht oder Unternehmen - findet Sprachsoftware bisher kaum Beachtung. In der Entwicklung von Sprachsoftware hat sich jedoch einiges getan. Eine Vielzahl von unterschiedlichen Lösungen sind auf dem Markt vorhanden und suggerieren zumindest eine enorme Arbeitserleichterung.[1] Von dem Testkanidaten Dragon Naturally Speaking liegt inzwischen eine aktuellere Version vor, die allerdings nicht mehr berücksichtigt werden konnte. Ein getrennter Test zur neuen Version von Dragon Naturally Spekaing ist hier zu finden. Die neue Version von Scansoft bestätigt, dass die Entwicklung etwas zügiger als im Hause IBM voranschreitet. Getestet werden soll, inwieweit ein Einsatz von Spracherkennungssoftware im Alltag wirklich Arbeitserleichterung schafft und welche Kniffe dabei zu beachten sind. Testkandidaten sind die Sprachprogramme von IBM (ViaVoice) und ScanSoft (Dragon Naturally Speaking).


    


Beide Programme sind auf die Nutzung am Einzelplatz ausgelegt, die Nutzung des Programms durch eine Person vorausgesetzt. Diktat und die Erkennung wurden somit von der gleichen Person durchgeführt. Auf den Einsatz eines digitalen Diktiergeräts und der automatischen Texterkennungen durch eine dritte Person - z.B. durch das Sekretariat - soll in einem getrennten Artikel eingegangen werden. Die für Anwälte angebotenen Client- /Serverlösungen, die eine Zusammenarbeit von Sekretariat und diktierendem Anwalt zugrunde legen, bedürfen einer getrennten Betrachtung. Die hier vorgestellte Lösung ist für die kleine - vielleicht gerade gegründete Kanzlei - gedacht, in der der Anwalt eine Vielzahl der Texte selbst schreibt oder für den Fall, in dem das Sekretariat sich die Arbeit erleichtern will und so mehr Zeit für qualifizierte Aufgaben hat.

Bei den getesteten Version handelt es sich - auch wenn die Produktnamen etwas anderes vermuten lassen - um Einsteigerversionen im Bereich der Sprachsoftware. Für den professionellen Einsatz ist die zusätzliche Investition in Spezialvokabular oder eine angebotene "Legal-Editon" anzuraten. Ausführlicher Informationen dazu sind im allgemeinen Überblick zum Thema Sprachsoftware zu finden.

Es stellt sich zunächst die Frage, was von einer Sprachsoftware überhaupt erwartet werden kann. Diese beantwortet Dragon Naturally Speaking im Benutzerhandbuch (S. 7) mit der Steigerung der Geschwindigkeit, dem bequemen Zurücklehnen und der natürlichen Art und Weise, die Gedanken unmittelbar auf Papier zu bringen. Die Steigerung der Arbeitsgeschwindigkeit steht sicherlich im Vordergrund und ist das entscheidende Kriterium für diesen Test. Den beiden anderen Kriterien muss jedoch aus der Sicht der Tester eine Absage erteilt werden. Einen Text bequem zurückgelehnt zu diktieren, wird kaum möglich sein. Eine aufrechte und immer identische Sitzposition ist anzuraten, da sich die Stimme ansonsten zu stark variiert. Auch wird in den seltensten Fällen der natürliche Gedankengang gefördert. Gerade für das Diktat in den Rechner ist ein gewisses Grundkonzept notwendig. Es ist viel einfacher, mit der Tatstatur einen Satz mehrere Male zu beginnen als mit dem Sprachprogramm. Zumindest die einzelnen Sätze, besser sogar das Grundgerüst, sollten vor dem Diktat gefunden sein. Zum Ideensammeln eignet sich Sprachsoftware eben nicht. Ob durch Sprachsoftware die Sehnen und Gelenke geschont werden ( auch S.7) mögen Ärzte beurteilen, vermehrt sind solche Beschwerden bei Anwälten noch nicht bekannt geworden.

Der Lieferumfang beider Produkte ist nahezu identisch. Beide Pakete umfassen neben der eigentlichen Software noch ein Headset, Anleitungsmaterial und eine Kurzreferenz. Das mitgelieferte Headset ( ein Kopfhörer und Mikrofon) von ScanSoft ist silber/blau und einfach ein wenig poppiger als der Pendant von IBM. Dafür lässt sich das von IBM mitgelieferte Mikrofon - was im tristen Schwarz gehalten ist - flexibler vor dem Mund ausrichten. Beide Firmen setzen für das Headset auf bekannte Zulieferer, IBM sogar auf die Andrea Electronics Coporation. Beide Headsets verfügen über nur eine Ohrmuschel, so dass Telefonate ohne Probleme trotz aufgesetzten Headsets angenommen werden können. Nach einigem Hin- und Her wird der Umgang mit dem Headset zum Alltag und das "Raumschiffgefühl" verschwindet. Die recht langen Kabel ermöglichen einen recht weiten Bewegungsspielraum, wobei ein Auf- und Ablaufen während des Diktats nicht mehr möglich ist. Nicht zu unterschätzen ist die mitgelieferte Befehlsreferenz der beiden Programme. Dabei handelt es sich jeweils um eine beidseitig bedruckte Pappe in der Größe eines DIN A4 Blatts. Gerade am Anfang ist diese Referenz von großer Hilfe. Hier lässt sich bei beiden Herstellern einfach und schnell der passende Befehl finden. Denn Fragen wie: "Was muss ich sagen, um eine eckige Klammer zu setzen oder ein §§-Zeichen zu schreiben?[2]" werden am Anfang sehr häufig auftauchen. Doch wird es schnell zur Gewohnheit, die Befehle, Satzzeichen und Korrekturen in das Diktat zu integrieren. Im Endeffekt unterscheiden sich beide Pakete lediglich dadurch, dass von IBM ein Videoschnellkurs auf CD mitgeliefert wird. Dieser ist recht informativ, wenn auch technisch völlig veraltet.

Die Installation beider Programme ist vergleichbar. Damit sich das jeweilige Programm an die Stimme gewöhnt, muss zunächst ein Text vorgelesen werden. Der Text fällt bei Dragon Naturally Speaking ein wenig kürzer aus, als bei ViaVoice. Installation und Probediktat sind bei beiden Programmen in unter dreißig Minuten hinzubekommen. Dabei informieren die Texte ein wenig über Sprachsoftware, so dass die Vorleseübung nicht ganz uninformativ ist. Die Analyse der Sprache dauert auf modernen Rechnern auch nur noch wenige Minuten. Es sollten unbedingt bereits zu diesem Zeitpunkt zusätzliche Texte analysiert werden. Diese Option wird von beiden Programmen angeboten und erhöht die Erkennungsrate beachtlich. Direkt nach der Installation die Möglichkeit eines flüssigen Diktats zu erwarten, ist allerdings ein Wunschtraum.

Auf modernen Rechnern sind die Hardwareanforderungen kein Problem mehr. ScanSoft schreibt für Dragon Naturally Speaking einen Rechner mit 266 MHz, 64 MB RAM und 150 MB Festplattenspeicher vor. Bei IBM sind es mit ViaVoice lediglich 44 MHz und 350 MB Festplattenspeicher mehr, die zum Diktat benötigt werden. Eine Ausnahme gilt jedoch für Windows Me, für das ein Prozessor mit 600 MHz vorgeschrieben ist. Es gilt jedoch wie immer: "Je schneller der Rechner, desto besser". Mit der Rechnerleistung steigt auch die Erkennungsqualität, so dass ein moderner PC zu empfehlen ist. Hinsichtlich der notwendigen Soundkarte kann keine Empfehlung gegeben werden, die Qualität des Eingangs ist insbesondere unabhängig vom Preis der Karte. Als Alternative zur Soundkarte sind viele USB-Headsets gut geeignet. Die Testsysteme waren mit 900 MHz und 128 MB RAM nie mit den Programmen überfordert. Lediglich der Start der jeweiligen Software benötigte einige Zeit.

Zur Steuerung steht beiden Programmen eine Navigationsleiste zur Verfügung:

Dragon Naturally Speaking:
IBM ViaVoice:

Diese ermöglicht, die Aktivierung des Mikrofons, die Benutzer- und Wortverwaltung sowie ein Diktat zu starten. Die Navigationsleiste von Dragon ist etwas liebevoller gestaltet, dafür stellt die IBM-Ausgabe Statusmeldungen und den Namen des angemeldeten Benutzer dar. Sobald das Mikrofon einmal eingeschaltet ist, lassen sich die Befehle der Sprachsoftware ohne das Hinzunehmen der Maus durchführen. Auch ist es möglich, das Mikrofon vorübergehend via Sprache zu deaktivieren und es später wieder zu aktivieren. Neue Befehle lassen sich über Makros hinzufügen.

Für die Wahl, ob eine Sprachsoftware zum Einsatz kommen soll und wenn ja, welche kann nur die Alltagstauglichkeit der diktierten Ergebnisse herangezogen werden. Nach der Installation kann das Diktat sofort beginnen. Die Ergebnisse fallen jedoch recht ernüchternd aus. Viele Wörter werden nicht erkannt und der Umgang mit der Software ist noch ungewohnt. So sind die Sprachbefehle noch unbekannt und der Blick auf die mitgelieferten Kurzreferenzen ist recht häufig notwendig. Im ersten Anlauf erscheinen die Ergebnisse von Dragon Naturally Speaking besser als vom IBM Produkt. Doch ist bei beiden Programmen der Frustfaktor zu Beginn recht hoch. Die Ergebnisse werden erst langsam besser. Ein wichtiger Schritt ist dabei- ist wie erwähnt - der Import geschriebener Texte. Dieser ist zwar recht zweitaufwendig, erhöht die Erkennungsqualität jedoch ernorm. Auch bei dieser Option zeigen die beiden Produkte die gleichen Eigenschaften, wenn diesmal auch in negativer Hinsicht. Die Importfunktion bereits erstellter Dateien zur Analyse hinterließ bei beiden Programmen einen unausgereiften Eindruck. So ist ein Import in der Praxis nur schrittweise möglich, beide Programme mögen keine längeren Texte und erst recht nicht ganze Listen von Dateien. Zwar werden die Optionen angeboten, doch zumindest die Testrechner kamen nicht ohne eine Vielzahl an Fehlermeldungen aus.
Die Korrektur von falschen Ergebnissen sollte mittels der Sprachsoftware erfolgen, die Ergebnisse verbessern sich merklich. Die Hände sollten nicht automatisch - auch wenn es am Anfang schwer fällt - zur Tatstatur greifen. Bild Korrekturfenster
Der Aufwand der Korrektur mittels Sprache lohnt sich auf jeden Fall. Die Korrektur geschieht, wie hier für das Produkt von ScanSoft zu sehen, über eine Auswahlliste die mittels Spracheingabe navigiert wird.

Beide Programme machen nach den ersten Korrekturen einen ausgereiften Eindruck. Im alltäglichen Einsatz, können beide Programme jedoch erst nach einiger Zeit eingesetzt werden. Doch mit etwas Übung und Geduld werden die Texte immer besser. Umgebungsgeräusche stören beim Diktat nur in sehr geringem Umfang. Die Kollegen im Hintergrund, der vorbeifahrende Bus oder ein leises Radio beeinflussen das Ergebnis nicht. Lediglich auf dem Kopfhörer sollte nicht gleichzeitig eine andere Datei laut abgespielt werden. Fehler in der Rechtschreibung treten im Rahmen des Diktats nicht auf. Dafür ist jedoch der Sinn zu überprüfen und so dass ein oder andere Wort zu korrigieren. Bei einer sauberen Aussprache lassen sich jedoch eine Vielzahl von Erkennungsfehler vermeiden.

Mit beiden Programmen ist eine einfache Navigation des Rechners ohne Probleme möglich. Beide Programme sind in der Lage den Internet Explorer aufrufen, ein Fenster schließen oder innerhalb von Fenstern hin und her zu wechseln. Doch zum Surfen ist eine Navigation mit der Maus erheblich einfacher. Die IBM Software kann auch gerade diktierte Text noch einmal vorlesen. Die Vorlesefunktion gleicht in der Qualität dem Produkt Logox4 der Firma GData.

Bild Sprachbleistift Ein kleines Bleistiftmännchen gibt das gerade Diktierte zum Besten. Auch Dragon bietet die Möglichkeit, sich das gerade diktierte Wort noch einmal anzuhören. So sind die zusätzlichen Funktionen lediglich als nettes Gimmick zu betrachten. Lediglich die Navigation in der jeweiligen Schreibsoftware zum Diktat notwendig und funktioniert ohne Probleme.

Entscheidend für den Einsatz dürfte jedoch der Kostennutzenfaktor sein. Dieser dürfte sehr unterschiedlich ausfallen, abhängig von der Trainingsbereitschaft des jeweiligen Anwalts. Bei einem regelmäßigen Training der Software ist nach einiger Zeit ein flüssiges Diktat möglich. Den Text mittels Sprachsoftware zu erstellen, kostet mehr Zeit als das Diktat ins Diktiergerät zu sprechen, jedoch weniger als den Text selbst zu tippen. Gleichzeitig ist ein Blättern in der Akte ohne Probleme möglich. Doch ist noch nicht jeder Ausdruck den Programmen geläufig. Durch das Training mittels alter Texte sind den Programmen eine Vielzahl juristischer Begriffe bereits geläufig. So wird beispielsweise die Verwaltungsgerichtsordnung direkt als "VwGO" abgekürzt. Doch nahezu perfekt wird das Programm erst mit einiger Übung. Ein flüssiges Diktat kommt jedoch erst zustande, wenn der Diktierende nicht mehr mit der Tastatur eingreift. Insgesamt kann die Praxistauglichkeit bejaht werden, auch wenn der Anfang recht schwer ist.

Die beiden Programme zeigen sich im Produktumfang nahezu identisch. Installation, Bedienungsoberfläche, Importfunktionen und Navigation sind beinahe austauschbar. Der Unterschied zwischen beiden Programme kristallisierte sich jedoch in der Texterkennung heraus, die das Herzstück beider Programme ist. Hier zeigt Dragon Naturally Speaking sein ganzes Können. Im Gegensatz zur IBM-Software ist bereits nach einiger Übung ein erstes Erfolgserlebnis zu sehen. Die IBM-Software benötigt erheblich mehr Training und kann trotzdem nicht mit den gleichen Ergebnissen aufwarten. Als Testsieger kann Dragon Naturally Speaking bezeichnet werden. Insgesamt machte die Software von ScanSoft bei der Erkennung einen ausgereifteren Eindruck. Die frühen Erfolgserlebnisse motivieren und führen so zu einem brauchbaren Ergebnis.

Grundinformationen ViaVoice Dragon Naturally Speaking
Hersteller IBM Deutschland GmbH Scansoft Deutschland
Kontaktdaten Ernst-Reuter-Platz 2
10587 Berlin
Fon: 0180-331-3233
Fax: 07032-15-3777
Mail: halloibm@de.ibm.com
Ridlerstrasse 11
80339 München
Tel: 089-458 7350
Fax: 089-458 73520
Preis / Straßenpreis http://www-3.ibm.com/software/speech/ http://www.scansoft.de/naturallyspeaking/
Informationen im Netz 116,37 Euro / 100 Euro Nicht mehr im Angebot / 80 Euro

System-Anforderungen/ Hardware
Hardwareanforderungen Intel Pentium 300 MHz (600 MHz für Windows ME), 64 MB RAM (96 MB für Windows 2000), 500 MB Festplattenspeicher; Soundkarte mit Mikrofoneingang, CD-Rom 266 MHZ-Prozessor, 64 MB RAM, 190 MB Festplattenspeicher; Soundkarte mit Mikrofoneingang, CD-Rom
Betriebsysteme Windows 9x, Windows NT und ME sowie Windows 2000 Windows 98, 2000, ME oder Windows NT 4.0 (Servicepack 6)
Hardwareanforderungen Intel Pentium 300 MHz (600 MHz für Windows ME), 64 MB RAM (96 MB für Windows 2000), 500 MB Festplattenspeicher; Soundkarte mit Mikrofoneingang, CD-Rom 266 MHZ-Prozessor, 64 MB RAM, 190 MB Festplattenspeicher; Soundkarte mit Mikrofoneingang, CD-Rom
Lieferumfang Headset, 3 CDs, Handbuch, Befehlsreferenz Headset, 1 CD, Handbuch mit Befehlsrefrenz
Mikrofon Headset Andrea Anti-Noise NC-61 Plantronics Headset

Software-Spezifikationen
Wortschatz aktiv 1 Millionen Wörter
keine Angaben
Wortschatz passiv 250.000 Wörter keine Angaben
Benutzerwörterbücher max. 64.000 eigene Wörter keine Angaben
Spezialvokabular Kann zusätzlich erwoben werden, z.B. von der Firma Mende Speech Solutions, siehe dazu den getrennten Test. Von Scansoft wird eine speziell angepasste Version für Rechtsanwälte angeboten, die ein angepasstes Vokabular umfasst. Dazu mehr im getrennten Test der legal-Edition.
Benutzerprofile (+) (+)
Verwendung von Audio Dateien /Formate (z.B. um ein Diktiergerät einzusetzen) (+), benötigt jedoch eine Zusatzsoftware die mit dem Diktiergerät zu erwerben ist (+), WAV- und SR-Audiodateien

Training
Trainingsdauer des vorgegebenen Trainings > 15 Minuten > 10 Minuten
Interaktive Schulung (+) (-)
Zeitpunkt, nachdem mit dem Einsatz im Alltag begonnen werden kann bis 5 Stunden: Erkennung sehr niedrig
bis 20 Stunden: Erkennung im mittleren Bereich
ab 20 Stunden: Relativ hoher Erkennungsgrad, professioneller Einsatz möglich
bis 5 Stunden: Erkennung sehr niedrig
bis 20 Stunden: Erkennung im mittleren Bereich
ab 20 Stunden: Relativ hoher Erkennungsgrad, professioneller Einsatz möglich

Sonstiges
Softwaresteuerung via Sprache (+) (+)
Lesefunktion (+) (+)
Handbuch (+) (+)
Befehlsreferenzen (+) (+)
Unterstützte Software Alle gängigen Windows- Anwendungen, Microsoft Word, Microsoft Office sowie Internetanwendungen. Microsft Word, Corel Word, Microsoft Outlook, Microsoft Chat, GoldMine, AOL, Lotus Notes, Microsoft Access, Microsoft Internet Explorer, Microsoft Office, Qualcomm Eudora und vielen mehr.




[1] Eine allgemeine Einführung zum Thema Sprachsoftware ist hier zu finden.
[2] ViaVoice: Eckige-auf, Paragraph; Dragon Naturally Speaking: Eckige Klammer auf; Paragraphenzeichen.
Nachrichten zum Internetrecht
Aufsätze zum Internetrecht
'LawFirm - Professional-Version' von kanzleirechner.de
"LawFirm - Professional-Version" von kanzleirechner.de





Copyright © 2000-2008 Jurawelt