I. Einleitung
Schriftstücke - gleich welcher Art - bestimmen den Arbeitsalltag von Anwälten, Richtern und Juristen im Unternehmen. Warum den eher fernliegenderen Weg über die Tastatur
nutzen, wenn sich eine Vielzahl von Texten direkt mittels neuer Spracherkennungssoftware in den PC diktieren lassen. Das vielfach zum Tippen genutzte "Adlersuchsystem"
würde einem flüssigen Diktat ganze ohne Rechtschreibfehler weichen. Die Arbeitserleichterung wäre enorm und die Tatstatur ein überflüssiger Staubfänger. Bis sich dieser
Traum realisiert, wird wohl noch einige Zeit vergehen. Die Spracherkennung ist eine äußerst komplexe Materie, die bei der die Software mit vielen Hindernissen zu kämpfen
hat. Die Aussprache einzelner Wörter variiert sehr häufig, die Redegeschwindigkeit ist unterschiedlich und es kommen Störgeräusche hinzu. Trotz der vielen Faktoren ist die
Spracherkennung in den letzten Jahren erheblich besser geworden. Wozu neben der verbesserten Software auch die gestiegene Performance moderner Hardware erheblich
beigetragen hat. Die Listenpreise der einzelnen Produkte sind recht unterschiedlich. Wobei die Fachwörterbücher den Softwarepreis erheblich erhöhen und vielfach den
Anschaffungspreis mehr als verdoppeln. Bei den auf dem Markt befindlichen Low-Budget-Angeboten handelt es sich meist um ältere Ausgaben der Markenhersteller, die zum
Schnäppchenpreis angeboten werden. Bei diesen Angeboten sind erhebliche Abstriche zu machen, und an einen Einsatz im Büro ist gar nicht erst zu denken. Zusätzlich besteht
die Möglichkeit, juristische Wörterbücher für die Angebote der großen Hersteller zu beziehen. Diese kennen nicht nur eine Vielzahl von Fachausdrücken, sondern setzen auch
Gesetzesnormen richtig um und die Erkennungsrate steigt trotz des höheren Vokabulars erheblich.
II. Wie funktioniert Sprachsoftware ?
Die auf dem Markt erhältliche Software ist noch nicht so weit, dass es sich bei dem Diktat in den Rechner um ein lockeres Gespräch mit dem Rechner handelt. Der Benutzer
muss sich einen Diktierstil angewöhnen, den die Software versteht. Ein "Aehh", das die Sekretärin übergeht, kann die Software nur schwer zuordnen.
[1] Abgehackte Sätze oder verschluckte Wörter kann der Rechner - anders als ein Mensch - nicht mehr verstehen. Damit die Kommunikation mit dem
Rechner klappt, ist es von Vorteil, die zugrunde liegenden Techniken zu verstehen.
Dabei ist zwischen den Systemen mit diskret gesprochener Sprache und denen mit kontinuierlich gesprochener Sprache zu unterscheiden. Die Systeme mit diskret gesprochener
Sprache arbeiten mit einer isolierten Worterkennung. Jedes Wort wird zunächst isoliert erkannt und später in einen inhaltlichen Kontext gesetzt. Die Systeme mit
kontinuierlicher Sprache setzten dagegen auf die Erkennung von ganzen Sätzen. Das System muss dabei erkennen, wann die einzelnen Wörter beginnen oder enden. Schwierig wird
es für diese Art der Spracherkennung insbesondere bei zusammengesetzten Wörtern. Das diskrete Diktat setzt dabei für jedes gesprochene Wort ein Referenzmuster voraus.
Dieses Referenzmuster wird dann mit dem gesprochenen Satz abgeglichen. Durch die Sprachpausen lassen sich die einzelnen Wörter zuordnen und der Text wird erkannt. Beziehen
sich mehrere Referenzmuster auf eine akustische Einheit, so spricht man von kontinuierlicher Sprachsoftware. Die kontinuierliche Spracherkennung hat daher zur Folge, dass
geringe Abweichungen nicht mehr ins Referenzmuster passen und somit nicht erkannt werden.
Zu Beginn der Sprachsoftwareprogramme arbeiteten daher alle Programme mit der Methode des diskreten Diktierens. Diese setzt aber die saubere Trennung der einzelnen Wörter
voraus, was beim Diktat zu beachten ist. Inzwischen arbeiten die Sprachprogramme der neueren Generation alle nach der semi-kontinuierlichen Diktierweise. Eine künstliche
Sprechpause ist nicht mehr nach jedem Wort notwendig.
III. Die Produkte - eine Marktübersicht der angebotenen Online-Produkte[2]
Der Markt an Herstellern von Sprachsoftware ist recht klein. Dragon Naturally Speaking wird von Scansoft
[3], SpeechMagic von
Phillips
[4] und ViaVoice von IBM
[5] hergestellt und vertrieben. Neben diesem
Herstellerkern gibt es eine Vielzahl von Lösungen, die eines der oben genannten Produkte zugrunde legen. Auch vertreiben die Hersteller eine Vielzahl von Produktlinien, so
dass trotz der wenigen Hersteller der Markt ein wenig unübersichtlich ist.
Dragon Naturally Speaking ehemals von Lernout & Hauspie entwickelte, wurde im Rahmen der Insolvenz von Scansoft aufgekauft und weiterentwickelt
[6]. Aus der Dragon-Serie dürfte insbesondere die Version "Dragon NaturallySpeaking XP Edition Legal Solutions" für Anwälte von besonderem Interesse
sein. Diese Version ist besonders an die Anforderungen aus dem Rechtsbereich angepasst und beinhaltet eine Vielzahl von Rechts- und Businessbegriffen. Neben der Legal
Edition, die mit 990,- Euro zzgl. MwSt zu Buche schlägt, stehen eine Standard- (99,- Euro), eine Preferred- (179,- Euro) und eine Professional- Edition zur Auswahl
[7].
Als weiterer Anbieter an Sprachsoftware für den Arbeitsplatz bietet IBM die Programme ViaVoice 8.0 in einer Pro und Standard Ausführung an. Mit der Pro-Version lässt sich
der PC mittels Sprache steuern und es kann in beliebige Anwendungen diktiert werden. Auch ist es in der Pro-Version möglich, Zusatzvokabular zu installieren. Im
IBM-Online-Shop ist die Standard-Version für 49,- Euro, die Pro Version für 199,- Euro erhältlich. Für weitere 199,- Euro bietet IBM das Fachvokabular "Recht &
Wirtschaft" an. Eingesetzt werden kann aber auch das Fachvokabular "Mende ProfiExtensions" von Mende Speech Solutions. Dieses ist für einen Preis von 255,- Euro zu
bekommen.
Phillips hat das Produkt "Phillips FreeSpeech 2000" inzwischen eingestellt. Derzeit vertreibt Phillips nur noch "SpeechMagic" und ein Entwicklerbausatz für Sprachsoftware.
Dabei verfolgt SpeechMagic eine Client-/Serverkonzept und kann als professionelle Lösung integriert werden. Angepasste Versionen für Juristen werden von verschiedenen
Herstellern angeboten. Eine Arbeitsplatzversion wird derzeit nicht angeboten. Es ist jedoch anzunehmen, dass sich bei Phillips im Hinblick auf die Spracherkennung in
nächster Zeit einiges ändern wird. Am 7.10.2002 hat Scansoft für 36 Millionen Euro die Spracherkennungssparte von Phillips angekauft
[8]. Lediglich der bereich der Diktiergeräte soll bei Phillips bleiben. Damit entwickelt sich Scansoft zum klaren Marktführer im Bereich der
Spracherkennung.
Neben den einzelnen Arbeitsplatzprogrammen bieten eine Vielzahl von Firmen Speziallösungen für Rechtsanwälte an. Diesen Lösungen liegt in der Regel eines der o.g. Produkte
zugrunde. So bieten Renostar GmbH und Dictaplus digitale Spracherkennung GmbH eine Lösung auf der Basis von Phillips SpeechMagic an
[9]. Die DictaNet Software AG bietet für den Arbeitsplatz eine Lösung an, die sowohl auf Dragon Naturally Speaking als auch auf IBM ViaVoice basieren kann. Im
Rahmen der von DictaNet hergestellten Serverlösung wird der IBM Transkription-Server eingesetzt.
IV. Die notwendige Technik
Für die Qualität der Spracherkennung ist neben der Software auch die eingesetzte Hardware ein ausschlaggebender Faktor. Hierbei ist sowohl der eigentliche Rechner als auch
das Mikrofon bzw. Headset und die Soundkarte von Bedeutung.
Die Anforderungen der Sprachsoftware lassen sich mit einem halbwegs aktuellen PC ohne weiteres abdecken. Der Rechner sollte, sofern es sich um einen PC handelt, mehr als
450 MHz haben und mindestens mit 128 MB RAM ausgestattet sein. Die Qualität der Spracherkennung kann sich durch den Einsatz eines besseren Systems durchaus bemerkbar
steigern.
Die Soundkarte muss die Fähigkeit besitzen, originalgetreu aufzunehmen. Der Preis der Soundkarte kann dabei nicht als Anhaltspunkt dienen. Selbst teuere Soundkarten mit
vielen Effekten haben teilweise einen recht schlechten Mikrofoneingang. Andererseits bieten Billigmodelle zum Teil einen guten Mikrofoneingang. Markenhersteller sind daher
nicht unbedingt zu bevorzugen. In vielen PCs ist schon eine Soundkarte eingebaut, welche in den meisten Fällen auch ausreicht. Sollten doch Schwierigkeiten auftreten, so
bleibt nur der Weg zum Fachhändler. Auf Sprachsoftware haben sich bisher recht wenige Händler spezialisiert, Listen sind auf den Internetseiten der Hersteller zu
finden
[10] . Eine Alternative zum Soundkartenkauf ist der Kauf eines USB-Headsets. Dieses macht eine Soundkarte überflüssig
und setzt lediglich den inzwischen stark verbreiteten USB-Anschluss voraus. Diese Möglichkeit ist zur Spracherkennung gut geeignet, setzt jedoch ein wenig höhere
Rechner-Performance voraus. So muss die Soundkarte durch Software auf dem Rechner emuliert werden.
Die Auswahl des Mikrofons wird vielfach durch den Hersteller der Sprachsoftware übernommen. So liegt den Produkten meist ein Headset dabei. Diese sind zwar meist sehr
filigran, leisten bei der Spracherkennung jedoch gute Dienste. Das Mikrofon kann justiert werden und der Sitz des Headsets ist, sobald man sich einmal an das Gestänge auf
dem Kopf gewöhnt hat, recht bequem. Neben den üblichen Headsets bestehen jedoch noch Alternativen. Es gibt sogenannte Mikrofon-Arrays. Diese werden auf oder vor dem
Monitor platziert und bieten dem Anwender so eine ungeschränkte Bewegungsfreiheit, die aber auf einen recht kleinen Radios vor dem Monitor begrenzt ist. Allerdings bieten
solche Systeme, insbesondere wegen der Raumakustik und der vielen Störgeräuschen für Sprachsoftware noch keine ausreichenden Ergebnisse. Von einem Einsatz solcher
Mikrofone ist daher abzuraten. Ganz anders verhält es sich bei dem SpeechMike von Phillips
[11] . Dieses speziell für die
Spracherkennung entwickelte Mikrofon ist gut zum Diktat zu verwenden. Es wird in der Hand gehalten und erinnert ein wenig an den Einsatz eines Diktiergerätes. Zur
Navigation ist ein Trackball in das SpeechMike integriert. Die Wiedergabe über den SpeechMike-Lautsprecher ist allerdings deutlich schlechter als bei einem Headset.
Allerdings können hierfür auch die üblichen PC-Boxen genutzt werden. Ob nun Headset oder SpeechMike genutzt werden, ist eine Geschmacksfrage. Beim SpeechMike muss
zumindest die Frisur nicht leiden, dafür sind jedoch die Hände nicht zum Blättern in den Unterlagen frei.
V. Artikel und Bücher zum Thema Sprachsoftware
1. Artikel zum Einstieg
- Katharina Mohr, Versteht mich mein Computer?, MC 1/2001, Seiten 25 -27.
-
2. Testberichte
- Dr. Ulrich Malaske, Wortkünstler, c`t 26/1998
- Ulrike Kuhlmann, Hörmaschine , c`t 17/2000
- Peter Röbke-Doerr, Achtung Aufnahme, c`t 17/2000
- Peter Zimmermann, Digitales Diktieren - Selbstversuch mit zwei Programmen, Anwalt 11/2002
-
3. Sonstige Berichte
- Ulrike Kuhlmann, Klassenziel verfehlt, c`t 26/2000
-
4. Fachbücher
- Axel Susen, Spracherkennung. Kosten, Nutzen, Einsatzmöglichkeiten, VDE Verlag 1999
- Petra Sojka /Ivan Kopecek,/Karel Pala, Text, Speech and Dialogue, Springer Verlag 2000
-
VI. Internseiten und Berichte im Internet über Sprachsoftware
Weiterführende Informationen im Internet zum Thema Sprachsoftware finden Sie in unserem Linkportal.
[1] Die Version Dragon Naturally Speaking XP soll gerade solche Fehler filtern können. Der Filter funktioniert jedoch nach
den ersten Tests nicht in allen Fällen.
[2] Dabei sind unter Online-Produkten solche zu verstehen, die direkt während des Diktats am Arbeitsplatzrechner die Sprache
erkennen.
[3] http://www.scansoft.de.
[4] http://www.speech.philips.com.
[5] http://www.spracherkennung.de.
[6] http://www.scansoft.de/news/20011128_lhsp.asp; Heise-Newsticker vom 13.11.01.
[7] Eine tabellarische Funktionsübersicht über den unterschiedlichen Funktionsumfang ist unter http://www.scansoft.de/naturallyspeaking/matrix/ zu finden.
[8] http://www.heise.de/newsticker/data/anw-07.10.02-007/.
[9] http://www.renostar.de/technologien/spracherkennung.html; http://www.dictaplus.de.
[10] So z.B. unter http://www.scansoft.com/naturallyspeaking/locator/list.asp.
[11] http://www.speech.be.philips.com/index.html.