lautwandel.de

Historische Wörterbücher

Probiere:

Haus Präfix Pferd Exakt *herz* Enthält Seele Volltext Sommer Graph
Präfix = Wortanfang · Exakt = genau ein Lemma · Enthält = Teilstring · Volltext = Artikeltext

Verweisungsgraph

lautwandel.de — Info

Forschungsumgebung

Diese Forschungsumgebung vernetzt historische und dialektale Wörterbücher des Deutschen zu einer durchsuchbaren Datenbank mit diachroner Analyse. Der Bestand umfasst ca. 2,7 Millionen Artikel aus 53 Wörterbüchern und deckt rund 5.000 Jahre Sprachgeschichte ab — vom rekonstruierten Urindogermanisch (Pokorny) über Urgermanisch, Gotisch, Alt- und Mittelhochdeutsch, Frühneuhochdeutsch (FWB) bis zu den modernen Dialektwörterbüchern, ergänzt durch etymologische Spezialwörterbücher (EWA, Pfeifer, DERW).

Funktionen

  • Suche — Präfix, Exakt, Enthält (Trigram-Index) und Volltext über alle Wörterbücher
  • Querverweisungsgraph — interaktive Visualisierung der Verweisstrukturen zwischen Wörterbüchern (2,1 Mio. Querverweise), Lautwandel-Kanten farbcodiert nach 6 Gruppen
  • Etymologie-Zeitstrahl — vertikale Timeline mit Lautwandel-Regeln (Diphthongierung, 2. Lautverschiebung u. a.)
  • Bedeutungsvergleich — Artikel-Snippets aus verschiedenen Epochen nebeneinander
  • Wortfamilien — Komposita und Ableitungen automatisch gruppiert
  • Wortbildungsproduktivität — Affix-Frequenz über Sprachstufen (Ahd.–Nhd.)
  • Autovervollständigung — Lemma-Vorschläge während der Eingabe
  • Morphologie — Zerlegung in Präfix, Stamm und Suffix mit Stamm-Lookup
  • Kompositumanalyse — Zerlegung mit Fugenlaut-Erkennung
  • Export — Suchergebnisse als TSV, Graph als SVG mit klickbaren Links

Enthaltene Wörterbücher

Die Daten stammen aus folgenden Quellen:

  • Wörterbuchnetz (TCDH Trier) — AWB, BMZ, Lexer, DWB, GWB, Adelung, Campe u. a.
  • Köbler-Wörterbücher (Gerhard Köbler) — 11 Wörterbücher (449.013 Artikel) für Sprachstufen, die sonst kaum digital erschlossen sind: Got., As., Anfrk., An., Ae., Afries., Urgerm., Uridg.
  • EWA (Sächsische Akademie der Wissenschaften, Leipzig) — Etymologisches Wörterbuch des Althochdeutschen (21.006 Lemmata, CC BY-NC-ND 3.0)
  • Pokorny — Indogermanisches Etymologisches Wörterbuch (2.071 urindogermanische Wurzeln)
  • FWB (Göttinger Akademie) — Frühneuhochdeutsches Wörterbuch, 1350–1650 (11.239 Artikel)
  • Pfeifer (DWDS) — Etymologisches Wörterbuch des Deutschen (23.629 Artikel)
  • DERW (Köbler) — Deutsches Etymologisches Rechtswörterbuch (4.519 Artikel)
  • MWB Online, DRW, Schweizerisches Idiotikon, Bayerisches Wörterbuch, LAGIS (Südhess. Wb.) u. a.

Nicht verfügbare Wörterbücher

Badisches Wörterbuch: Das Badische Wörterbuch (Albert-Ludwigs-Universität Freiburg) ist derzeit nicht digital verfügbar. Querverweise aus dem Pfälzischen Wörterbuch auf das Badische Wb. (Bad. / BadWB) können daher nicht aufgelöst werden.
Falls Sie an einer Online-Ausgabe des Badischen Wörterbuchs interessiert sind, finden Sie die Kontaktdaten des Projekts unter: uni-freiburg.de/badwb/kontakt
Schwäbisches Wörterbuch (Fischer/Pfleiderer, 1904–1936): Nicht als durchsuchbare Datenbank enthalten, aber alle 1.041 Querverweise aus dem Pfälzischen Wörterbuch sind als Faksimile-Links auf die BSB-Digitalisate (Public Domain) auflösbar und führen direkt zur richtigen Spalte.

Weitere Wörterbücher, auf die vereinzelt verwiesen wird, aber die (noch) nicht in dieser Datenbank enthalten sind:

  • Schmeller — Bayerisches Wb. von Schmeller (1827–37); nicht zu verwechseln mit dem modernen Bayerischen Wörterbuch (BAdW), das enthalten ist
  • LLU, WLM, Wossidia — weitere Regionalwörterbücher aus dem Wörterbuchnetz

Vernetzung

Die Datenbank enthält über 2,2 Millionen Querverweise (1,9 Mio. aufgelöst) aus mehreren Quellen:

  • Explizite Verweise — aus den HTML-Strukturen der Originalwörterbücher extrahiert (Wörterbuchnetz-Artikel mit verlinkten Querverweisen), darunter 392 GWB→DWB-Verweise aus Fußnoten
  • Köbler-Textverweise — über 1 Mio. Querverweise aus den Plaintext-Feldern der 11 Köbler-Wörterbücher (Vw., Hw., E.) automatisch geparst, davon 886.000 aufgelöst (98,1 % der relevanten, via Normlemma-, Lemma-Match und Levenshtein-Distanz). Weitere 60.000 Köbler→Pokorny-Verweise über Seitenzahl-Mapping
  • EWA→AWB — 19.381 strukturierte Querverweise aus dem TEI-XML des Etymologischen Wörterbuchs (100 % aufgelöst)
  • Konkordanzwörterbücher — 12.525 cross-language Xrefs aus Köblers Ahd+As+Anfrk+Mhd+Mnd- und Germ+Got-Konkordanzen
  • Implizite Matches — Lemmata mit identischem Normlemma oder Lautwandel-Varianten werden im Verweisungsgraph automatisch verbunden (16 Lautwandel-Regeln in 6 Gruppen)
  • Normlemma-Matches — 54.000 Querverweise zwischen den neuen Wörterbüchern (FWB, Pfeifer, DERW, EWA) und dem bestehenden Bestand über identische Normlemmas

Datenqualität

Die Wörterbücher werden sukzessive auf Inkonsistenzen geprüft. Als erste wurden die 11 Köbler-Wörterbücher (449.013 Artikel) vollständig analysiert: 1.329 Artikel enthielten Tippfehler (Doppelzeichen, unbalancierte Klammern und Anführungszeichen) — eine Fehlerquote von 0,3 %. Bei handgesetzten Werken mit teils über 100.000 Einträgen eine bemerkenswerte Konsistenz. Die übrigen Wörterbücher folgen.

Lokale Korrekturen

In einigen Fällen wurden fehlerhafte Daten aus den Originalquellen lokal korrigiert. Die Fehler wurden den jeweiligen Projekten gemeldet.

Südhessisches Wörterbuch — 10 korrigierte Verweise

Bei 14 von 90.245 Register-Einträgen des Südhessischen Wörterbuchs (LAGIS) führten die Original-Links zu leeren Seiten. 10 konnten mit korrekten URLs ersetzt werden, 4 bleiben unauflösbar.

LemmaProblemKorrektur
Haut-voll-Flöh'Doppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 3, Sp. 195–196
K'ü'h-stalls-trampelerDoppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 6, Sp. 1077–1078
Queis'chenDoppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 4, Sp. 1147–1148
Radies'chenDoppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 4, Sp. 1181–1182
Radies'chen-salatDoppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 4, Sp. 1181–1182
Radies'chen-schnittDoppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 4, Sp. 1181–1182
Zitter-rös'chenDoppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 6, Sp. 839–840
Zuckerbaum-häus'chenDoppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 6, Sp. 871–872
Zucker-lies'chenDoppeltes URL-Encoding (%2527)Apostroph entfernt → Bd. 6, Sp. 873–874
Zerren (n.)Zusatz im Lemma nicht auflösbarBasis-Lemma → Bd. 6, Sp. 787–788

4 weitere Einträge (Costa Kastella, dackeln I, Mutz-el I, Wutkit) bleiben unauflösbar, da kein passender Artikel gefunden werden konnte.

Wörterbuchnetz — 11.704 PUA-Zeichenkorrekturen

Die Wörterbücher des Wörterbuchnetzes verwenden PUA-Zeichen (Private Use Area, U+E000–U+F8FF) aus einer hauseigenen Schrift (KompLett) für ornamentale Initialen der gedruckten Wörterbücher. Ohne diese Spezialschrift sind die Zeichen unsichtbar und werden bei der Suchindexierung falsch normalisiert.

Insgesamt 11.704 Artikel wurden korrigiert: 1.086 mit PUA-Zeichen am Lemma-Anfang und 10.618 mit PUA-Zeichen im Lemma-Inneren (z. B. U+E04D → Ê in Adelung, U+E59A → A im WWB). Die Zuordnung basiert auf der offiziellen charMap.js des Wörterbuchnetzes sowie manuellen Stichproben.

WörterbuchKorrigierte Artikel
WWB485
Campe367
Adelung115
AWB83
ElsWB31
DWB2, RhWB, LmL5

15 PUA-Zeichen ohne Eintrag in der charMap wurden ersatzlos entfernt. Am häufigsten betroffen: WWB (9.055), Campe (503), AWB (1.367), GWB (386).

Köbler — 71 Doppelzeichen-Korrekturen

In den 11 Köbler-Wörterbüchern (Ahd., Mhd., Mnd., Got., As., An., Ae., Afries., Anfrk., Germ., Idg.) wurden 71 Artikel mit doppelten Satzzeichen korrigiert. Die häufigsten Muster:

FehlerKorrekturAnzahl
Vw..Vw.:22
L..L.:13
,,,12
E..E.:9
L::L.:8
Q..Q.:3
;;;2
Hw..Hw.:1
8..8.1

Köbler — 243 Anführungszeichen-Korrekturen

In denselben 11 Wörterbüchern wurden 243 Artikel mit unbalancierten deutschen Anführungszeichen („…“) korrigiert: 149× verwaistes “ entfernt, 81× fehlendes “ ergänzt, 12× „ als Schließer korrigiert.

Köbler — 999 Klammer-Korrekturen

999 von 1.015 Artikeln mit unbalancierten Klammern wurden automatisch korrigiert:

TypBeschreibungAnzahl
FIX-AVerwaiste ) entfernt362
FIX-CFehlende ) vor Feldtrenner ergänzt356
FIX-EFehlende ) am Textende ergänzt211
FIX-DFehlende ) vor Referenzkennung ergänzt39
FIX-BDoppelte )) korrigiert31

Alle 1.015 unbalancierten Artikel wurden korrigiert (999 automatisch, 16 manuell). Weitere ~3.300 mögliche Wortdopplungen wurden identifiziert, sind aber überwiegend bewusste Wiederholungen in Quellenangaben.

DWB — 30 fehlerhafte Querverweis-Positionen

Im Deutschen Wörterbuch (Grimm) sind 30 von 56.813 internen Querverweisen um genau eine Zeile verschoben (Off-by-one). Alle betreffen die Bände 18–31 (S–Z). Die Verweise werden in dieser Datenbank über Lemma-Abgleich korrekt aufgelöst.

Wortbildungsproduktivität

Wie produktiv sind Präfixe und Suffixe in verschiedenen Sprachstufen? Die Balken zeigen die Anzahl distincter Lemmata mit dem jeweiligen Affix.

Datenstand

Wird geladen…

Projekt

Dieses Projekt ist eine unabhängige Digital-Humanities-Forschungsumgebung von Marcel Cotta. Kontakt: research@marcelcotta.com