Digitales Wörterbuch der deutschen Sprache – Wikipedia

DWDS
Logo

Das Digitale Wörterbuch der deutschen Sprache (DWDS), auch Das Wortauskunftssystem zur deutschen Sprache in Geschichte und Gegenwart, ist ein Projekt der Berlin-Brandenburgischen Akademie der Wissenschaften, dessen Ziel die Erstellung eines digitalen Wörterbuchsystems auf der Basis sehr großer elektronischer Textkorpora ist.

Dabei baut es auf dem sechsbändigen Wörterbuch der deutschen Gegenwartssprache (WDG) auf und verknüpft dieses mit eigenen Text- und Wörterbuchressourcen. Es stellt dem Nutzer die Rechtschreibung nach neuestem Stand, die Aussprache in Form von Audiodateien und vielfältige Angaben zur Form, Verwendung und Bedeutung seiner Stichwörter zur Verfügung. Das DWDS wird seit 2007 im Rahmen des Akademienprogramms finanziert.[1]

In der derzeitigen Fassung des DWDS, dem Wortinformationssystem, werden vier lexikalische Informationstypen verknüpft: die Wörterbuchartikel des WDG, automatisch generierte Informationen zu Synonymen, Hyponymen, Hyperonymen aus dem WDG, Textbeispiele aus dem DWDS-Kernkorpus sowie statistische Kookkurrenz-Informationen aus dem Kernkorpus (die so genannten Kollokationen, die die Häufigkeiten des Vorkommens benachbarter Wörter angeben).

Die Textkorpora zum DWDS werden kontinuierlich ausgebaut. Mit Stand vom Mai 2018 umfassen sie 13 Milliarden laufende Textwörter und bestehen aus zwei großen Teilkorpora: dem Kernkorpus und dem Ergänzungskorpus.

  • Das DWDS-Kernkorpus umfasst etwa 100 Millionen Textwörter; es ist zeitlich gleichmäßig über das gesamte 20. Jahrhundert gestreut und nach Textsorten ausgewogen. Vier Textsorten liegen dem Korpus zugrunde: Belletristik (28,42 %), Zeitung (27,36 %), wissenschaftliche Fachtexte (23,15 %) und Gebrauchstexte (21,05 %). Da für die transkribierten Texte gesprochener Sprache keine vollständige zeitliche Ausgewogenheit erreicht werden konnte, steht diese als eigenständiges Korpus unter Spezialkorpora zur Verfügung. Das DWDS-Kernkorpus ist das erste Referenzkorpus der deutschen Sprache des 20. Jahrhunderts und dem bislang als Standard geltenden British National Corpus (BNC) in seiner Qualität zumindest ebenbürtig.
  • Das DWDS hat mit über 20 Verlagen und zahlreichen öffentlichen und privaten Textgebern Nutzungsvereinbarungen über rechtebehaftete Texte abgeschlossen und kann z. B. Werke von Thomas und Heinrich Mann, Martin Walser, Heinrich Böll, Jürgen Habermas oder Victor Klemperer für die Internetrecherchen zur Verfügung stellen.[3]
  • Das Ergänzungskorpus umfasst über 1,5 Milliarden Textwörter in etwa 3,5 Millionen Dokumenten. Es ist weniger auf Ausgewogenheit als auf Umfang und Aktualität hin ausgelegt und besteht im Wesentlichen aus Zeitungsquellen der Jahre 1980–2006. Alle Quellen sind bibliographisch referenzierbar, und bei der Aufbereitung wurde auf inhaltliche und qualitative Streuung geachtet.

Paradigmatische Relationen

[Bearbeiten | Quelltext bearbeiten]

Über 65.000 Synonyme, Ober- und Unterbegriffe wurden mit Hilfe automatischer Analyseprogramme aus den Definitionen des WDG extrahiert. Neben dem Nutzen als Synonymwörterbuch und Thesaurus kann man über diesen Informationstyp im WDG nicht mehr nur elektronisch blättern, sondern auch 'semantisch' navigieren. Beispielsweise kann man vom Stichwort Insekt direkt zu dessen Synonym Kerbtier springen, aber genauso zu allen untergeordneten Begriffen wie Ameise, Floh, Johanniskäfer oder Wasserläufer.

Die im Kernkorpus ermittelten statistischen Kollokationen werden grafisch dargestellt. Die Kollokationen basieren auf statistischen Assoziationsmaßen (Mutual Information und t-score):

Kollokationsgraph für „Ziel“

Öffentlich recherchierbare Korpora

[Bearbeiten | Quelltext bearbeiten]

In den Korpora des DWDS kann kostenlos recherchiert werden. Aufgrund der Nutzungsvereinbarungen mit den Rechtegebern ist für eine Vielzahl von Texten jedoch eine vorherige Registrierung notwendig. Mehr als 10.000 Benutzer sind im DWDS-Wortinformationssystem registriert.

  • DWDS-Kernkorpus
  • Korpus Der Tagesspiegel (1996–2005)
  • Korpus Berliner Zeitung (1946–1993), erstellt im Rahmen des Projekts DDR Presseportal
  • Korpus Berliner Zeitung (1994–2005)
  • Korpus jüdischer Periodika des 19. und 20. Jahrhunderts (Kooperation mit dem DFG-geförderten Projekt Compact Memory) mit einem Gesamtumfang von 25 Millionen Textwörtern.
  • DDR-Korpus (9 Millionen Textwörter). Das DDR-Korpus umfasst Texte aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind, bzw. von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden. Das DDR-Korpus wird in Zusammenarbeit mit der Humboldt-Universität zu Berlin weiter ausgebaut.
  • Korpus neues deutschland (1946–1990)
  • Korpus Die ZEIT (1946–2016), beschränkt auf digital und online zur Verfügung stehende Texte
  • Korpus Gesprochene Sprache. Dieses umfasst Transkripte aus dem gesamten 20. Jahrhundert im Umfang von ca. 2,5 Millionen Textwörtern. Darunter befinden sich Redensammlungen u. a. von Kaiser Wilhelm II., Hitler, Ulbricht und Honecker, Rundfunkansprachen von 1929 bis 1944 (in Kooperation mit dem Deutschen Rundfunkarchiv wurden etwa 80 Stunden Tonmaterial transkribiert), ferner Auszüge aus österreichischen Parlamentsprotokollen und Bundestagsprotokollen sowie Auszüge aus dem Literarischen Quartett.

Überarbeitung zeittypischer Artikel

[Bearbeiten | Quelltext bearbeiten]

Das DWDS-Wörterbuch basiert in seiner Substanz auf dem Wörterbuch der deutschen Gegenwartssprache. Ca. 2600 der 90.000 Einträge des WDG, die DDR-typische Inhalte oder Formulierungen aufwiesen, wurden von der DWDS-Projektgruppe einer Überarbeitung unterzogen. Durch eine Gruppe von Lexikografen wurden die Bedeutungsparaphrasen und Kompetenzbeispiele in neutralerer Ausdrucksweise formuliert oder, wenn sie eine tatsächlich DDR-spezifische Verwendung illustrieren, entsprechend gekennzeichnet. Diese Überarbeitung betraf weitere ca. 2500 Einträge bzw. Lesarten.[4] Der Abschnitt war am 29. April 2021 noch vorhanden,[5] am 28. November 2021 nicht mehr. Knappere Angaben zur entsprechenden Überarbeitung stehen seither im Abschnitt „Quellen/WDG“: „Da die Substanz der Artikel aus den 1960er und 1970er Jahren stammt, müssen alle Wörterbuchartikel einer Prüfung unterzogen werden und ggf. überarbeitet werden. Dies ist aufgrund der großen Anzahl der Einträge und der im Projekt zur Verfügung stehenden Mittel eine Langzeitaufgabe des DWDS. Für die Veröffentlichung der WDG-Substanzen im DWDS-Wörterbuch erfolgten und erfolgen folgende Überarbeitungen: […] - Lesarten, Bedeutungsparaphrasen, Kompetenzbeispiele und Belege, die ideologisch behaftet bzw. nicht mehr zeitgemäß sind oder nicht mehr dem aktuellen Stand des Wortgebrauchs entsprechen, wurden entfernt oder mit einer entsprechenden Markierung versehen.“[6]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Siehe Stellungnahme zum Akademienprogramm des Wissenschaftsrates. 2020, Seite 87.
  2. Wörterbücher im DWDS. In: DWDS – Digitales Wörterbuch der deutschen Sprache. Berlin-Brandenburgische Akademie der Wissenschaften, abgerufen am 9. Juli 2023.
  3. Website der Berlin-Brandenburgischen Akademie der Wissenschaften; abgerufen am 19. August 2015.
  4. DWDS-Wörterbuch. In: dwds.de. Berlin-Brandenburgische Akademie der Wissenschaften, abgerufen am 23. September 2024.
  5. DWDS-Wörterbuch. Überarbeitung zeittypischer Artikel und Artikelteile. In: dwds.de. Berlin-Brandenburgische Akademie der Wissenschaften, 29. April 2021, archiviert vom Original (nicht mehr online verfügbar) am 29. April 2021; abgerufen am 23. September 2024 (Abschnitt zur „Überarbeitung zeittypischer Artikel und Artikelteile“ hier noch vorhanden).
  6. Das DWDS-Wörterbuch. In: dwds.de. Berlin-Brandenburgische Akademie der Wissenschaften, 28. November 2021, archiviert vom Original (nicht mehr online verfügbar) am 28. November 2021; abgerufen am 23. September 2024 (Abschnitt zur „Überarbeitung zeittypischer Artikel und Artikelteile“ hier nicht mehr vorhanden).