DLT |
||
Projekt |
Distributed Language Translation (DLT)
|
|
Träger |
BSO/Buro voor Systeemontwikkeling
BV
|
|
Leiter |
Ir. A. P. M. (Toon) Witkam
(1982-1989)
|
|
Dauer |
Machbarkeitsstudie 1982-1983
|
|
Finanzierung |
BSO/Buro voor Systeemontwikkeling
BV, Utrecht
|
|
Inhalt |
Das
industrielle Forschungs- und Entwicklungsprojekt Distributed Language
Translation (DLT) hatte das Ziel, einen Prototyp eines mehrsprachigen,
interaktiven maschinellen Übersetzungssystems für einsprachige
Anwender in weltweiten Kommunikationsnetzen zu entwickeln.
Das Projekt DLT beruht auf einer Idee von Ir. A. P. M. (Toon) Witkam von dem niederländischen Softwarehaus BSO/Buro voor Systeemontwikkeling BV in Utrecht. Nach einer EU-geförderten Machbarkeitsstudie (Witkam 1983, s.u.) hat das Unternehmen in einer eigens für das Projekt eingerichteten Forschungsabteilung (BSO/Research in Utrecht) von 1984 bis 1990 die Prototypphase des Projekts durchgeführt. Diese Phase wurde zu gleichen Teilen von dem Unternehmen selbst und vom niederländischen Wirtschaftsministerium finanziert. Ziel des Projekts DLT war ein Prototyp, kein marktreifes Produkt. Dieses Zeil wurde erreicht. Verschiedene Versionen des Prototyps wurden der Presse und der Fachöffentlichkeit vorgeführt. Die Prototypphase wurde 1990 erfolgreich abgeschlossen.
|
|
Forschungs-
|
Klaus Schubert 22.05.2002 Maschinelle Übersetzung mit ZwischenspracheDas maschinelle Übersetzungssystem DLT wurde anhand der folgenden grundlegenden Entwurfsparameter entwickelt:
Aus diesen Parametern ergibt sich eine Reihe von Konsequenzen für die Architektur des Systems. 1 Erweiterbarkeit 2 Verteilte
Übersetzung Aus diesen Überlegungen und aus allgemeinen Grundsätzen der Wirtschaftlichkeit und Überschaubarkeit im Softwareentwurf ergibt sich, dass es empfehlenswert ist, als alleinige Übertragungsform die Zwischensprache zu wählen. Jeder Text wird also nur in einer einzigen Form übertragen. 3 Autonome
Zwischensprache 4 Internetübersetzung
avant la lettre Nach wie vor gilt die Einsicht der 1950-er Jahre, wonach eine vollautomatische Qualitätsübersetzung beliebiger Texte nicht möglich ist. Außer in recht speziellen Fällen, in denen eine vollautomatisch erstellte Rohübersetzung direkt verwendet werden kann, ist es notwendig, einen kombinierten Arbeitsprozess aus manuellen und maschinellen Arbeitsgängen zu durchlaufen. Die Tätigkeit des Menschen kann dabei vor, während oder nach dem maschinellen Übersetzungsarbeitsgang durchgeführt werden. Das System DLT war für weltweite Kommunikationsnetze gedacht. Als DLT konzipiert wurde, gab es das Internet noch nicht. Dennoch hat der Erfinder und langjährige Projektleiter von DLT, Toon Witkam, bereits 1979 an eine Form individueller Kommunikation im weltweiten Rechnernetz gedacht, die wir heute im Internet kennen. Insbesondere E-Mail, Internet-Foren und World-Wide Web entsprechen recht genau dem Umfeld, für das DLT gedacht war. In einer internetartigen Umgebung gibt es einen Absender eines Dokuments und eine nicht erfassbare Zahl von Empfängern. Es gibt, wie bereits erwähnt, für Eingriffe des Menschen in den maschinellen Übersetzungsprozess drei Möglichkeiten:
Die heute weitaus üblichste Art des Anwendereingriffs, die Nachkorrektur, fällt für das System DLT weg. Bei einer verteilten Übersetzung, bei der die zweite Hälfte des Übersetzungsprozesses, die Übersetzung aus der Zwischensprache in die gewählte Zielsprache, erst beim Empfänger stattfindet, ist niemand zur Stelle, der eine Nachkorrektur ausführen kann, und es wäre zudem ineffektiv, an jedem Ort, an dem der Text übersetzt wird, wieder dieselbe Nachkorrekturarbeit auszuführen. Für DLT bleiben daher die beiden Möglichkeiten der Textaufbereitung und des interaktiven Übersetzens. 5 Regulierte
Ausgangssprache 6 Interaktives
Übersetzen 7 Zwischensprache
Esperanto Hieraus ergibt sich die Notwendigkeit, eine Zwischensprache zu wählen, aus der eine vollautomatische Qualitätsübersetzung in alle Zielsprachen möglich ist. Da normale menschliche Sprachen dies nicht erlauben, muss also als Zwischensprache eine besondere, maschinell besonders zuverlässig weiterübersetzbare Sprache gewählt werden. Sie ist gleichzeitig Repräsentationsform für die Ergebnisse der Disambiguierung. Für das System DLT wurde als Zwischensprache Esperanto gewählt. Dieser Entscheidung lagen folgende Einsichten zugrunde:
Zu diesen Beobachtungen ist noch eine Reihe weiterer Bemerkungen zu machen. Morphologie und Syntax des Esperanto sind sehr klar und einfach. Grundlage ist eine eindeutige Kennzeichnung der Inhaltswortarten (Verb, Adverb, Adjektiv, Substantiv) durch Suffixe und eine Kennzeichnung von Subjekt- und Objektkasus. Die Wortfolge ist von syntaktischen Aufgaben frei und kann für die kommunikative Gliederung von Sätzen und Satzgefügen genutzt werden. Diese Eigenschaften kommen dem Parsing und der Strukturübertragung sehr entgegen. (Eine Zwischensprache braucht eigentlich nicht geparst zu werden, da die Texte innerhalb des maschinellen Übersetzungssystems erzeugt werden und das System nicht verlassen. Bei DLT war dennoch aus Gründen der Übertragungskompaktheit ein Parsing auf der Empfängerseite vorgesehen.) Esperanto ist jedoch eine von Menschen gesprochene Sprache, die die Anforderungen der Sprachtechnologie nicht vollständig erfüllt. Daher wurden für DLT einige wenige, möglichst unauffällige Veränderungen in der Struktur der Sprache vorgenommen, sodass eine morphologisch und syntaktisch ambiguitätsfreie Zwischensprache entstand. Nach einer längeren Experimentierphase ergab sich, dass im Wesentlichen nur zwei Eingriffe erforderlich waren:
Esperanto ist eine zu 99% agglutinierende Sprache. Die einzige Ausnahme bilden zwei Suffixe zur Bildung von Kosenamen. Da dies in der Fachsprache nicht vorkommt, liegt für den relevanten Verwendungsbereich eine vollständig agglutinierende Sprache vor. Alle Wörter bestehen also aus klar getrennten Morphemen. Die Morpheme unterliegen keinerlei Veränderung durch Umlaut, Ablaut, Vokalharmonie, Stufenwechsel oder andere Morphemkontaktphänomene. Das leicht modifizierte Esperanto des Systems DLT ist eine syntaktisch eindeutige Sprache.
|
|
| Projekt- kalender |
1979
Idee Toon Witkam, Mitarbeiter des Softwarehauses BSO/Buro voor Systeemontwikkeling BV in Utrecht (Niederlande), hat die Idee, maschinelle Übersetzung in verteilter Form im weltweiten Rechnernetz und mit Esperanto als Zwischensprache zu betreiben. |
|
| 1982-1983
Vorstudie Toon Witkam führt mit einem Mitarbeiter eine Machbarkeitsuntersuchung für das Projekt DLT durch. Die Untersuchung wird durch einen Zuschuss der Europäischen Kommission finanziert. |
||
| 1984-1990
Prototypphase BSO erhält für das Projekt Distributed Language Translation eine fünfzigprozentige Förderzusage des niederländischen Wirtschaftsministeriums für eine sechsjährige Prototypentwicklung. Das Unternehmen richtet die Forschungsabteilung BSO/Research ein und baut ein größeres Forschungsteam (bis zu 20 Personen) auf. Es werden mehrere Versionen des Prototyps für das Sprachenpaar Englisch-Französisch mit der Zwischensprache Esperanto entwickelt. |
||
| 1987
erster Prototyp Vorführung des ersten Prototyps vor der Fachpresse in Utrecht. |
||
| 1988
zweiter Prototyp Vorführung des zweiten Prototyps vor der Fachöffentlichkeit auf der computerlinguistischen Tagung Coling 88 in Budapest. |
||
|
1988-1990 Perfektionierung |
||
|
1990 Projektabschluss
|
||
| Publikationen |
Die Veröffentlichungen sind in zeitlicher Reihenfolge aufgeführt. Witkam,
A. P. M. (1983): Papegaaij,
Bart C. (1986): Schubert,
Klaus (1986): Schubert,
Klaus (1987): Papegaaij,
Bart; Klaus Schubert (1988): Maxwell,
Dan; Klaus Schubert, Toon Witkam (Hg.) (1988): Schubert,
Klaus (1989): Sadler,
Victor (1989): Maxwell,
Dan; Klaus Schubert (Hg.) (1989): Sadler,
Victor (1991): Zuijlen,
Job M. van (1991): Schubert,
Klaus (1992): Schubert,
Klaus (2003): Schubert,
Klaus (2006): |
|
aktualisiert 16.05.2009 KS