Historische Wörterbücher
Von Urindogermanisch über Althochdeutsch bis zu den modernen Dialektwörterbüchern — alles durchsuchbar, vernetzt und mit Querverweisungsgraph.
Wählen Sie einen Eintrag aus den Suchergebnissen.
Probiere:
Von Urindogermanisch über Althochdeutsch bis zu den modernen Dialektwörterbüchern — alles durchsuchbar, vernetzt und mit Querverweisungsgraph.
Wählen Sie einen Eintrag aus den Suchergebnissen.
Diese Forschungsumgebung vernetzt historische und dialektale Wörterbücher des Deutschen zu einer durchsuchbaren Datenbank mit diachroner Analyse. Der Bestand umfasst ca. 2,7 Millionen Artikel aus 53 Wörterbüchern und deckt rund 5.000 Jahre Sprachgeschichte ab — vom rekonstruierten Urindogermanisch (Pokorny) über Urgermanisch, Gotisch, Alt- und Mittelhochdeutsch, Frühneuhochdeutsch (FWB) bis zu den modernen Dialektwörterbüchern, ergänzt durch etymologische Spezialwörterbücher (EWA, Pfeifer, DERW).
Die Daten stammen aus folgenden Quellen:
Bad. / BadWB)
können daher nicht aufgelöst werden.Weitere Wörterbücher, auf die vereinzelt verwiesen wird, aber die (noch) nicht in dieser Datenbank enthalten sind:
Die Datenbank enthält über 2,2 Millionen Querverweise (1,9 Mio. aufgelöst) aus mehreren Quellen:
Die Wörterbücher werden sukzessive auf Inkonsistenzen geprüft. Als erste wurden die 11 Köbler-Wörterbücher (449.013 Artikel) vollständig analysiert: 1.329 Artikel enthielten Tippfehler (Doppelzeichen, unbalancierte Klammern und Anführungszeichen) — eine Fehlerquote von 0,3 %. Bei handgesetzten Werken mit teils über 100.000 Einträgen eine bemerkenswerte Konsistenz. Die übrigen Wörterbücher folgen.
In einigen Fällen wurden fehlerhafte Daten aus den Originalquellen lokal korrigiert. Die Fehler wurden den jeweiligen Projekten gemeldet.
Bei 14 von 90.245 Register-Einträgen des Südhessischen Wörterbuchs (LAGIS) führten die Original-Links zu leeren Seiten. 10 konnten mit korrekten URLs ersetzt werden, 4 bleiben unauflösbar.
| Lemma | Problem | Korrektur |
|---|---|---|
| Haut-voll-Flöh' | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 3, Sp. 195–196 |
| K'ü'h-stalls-trampeler | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 6, Sp. 1077–1078 |
| Queis'chen | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 4, Sp. 1147–1148 |
| Radies'chen | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 4, Sp. 1181–1182 |
| Radies'chen-salat | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 4, Sp. 1181–1182 |
| Radies'chen-schnitt | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 4, Sp. 1181–1182 |
| Zitter-rös'chen | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 6, Sp. 839–840 |
| Zuckerbaum-häus'chen | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 6, Sp. 871–872 |
| Zucker-lies'chen | Doppeltes URL-Encoding (%2527) | Apostroph entfernt → Bd. 6, Sp. 873–874 |
| Zerren (n.) | Zusatz im Lemma nicht auflösbar | Basis-Lemma → Bd. 6, Sp. 787–788 |
4 weitere Einträge (Costa Kastella, dackeln I, Mutz-el I, Wutkit) bleiben unauflösbar, da kein passender Artikel gefunden werden konnte.
Die Wörterbücher des Wörterbuchnetzes verwenden PUA-Zeichen (Private Use Area, U+E000–U+F8FF) aus einer hauseigenen Schrift (KompLett) für ornamentale Initialen der gedruckten Wörterbücher. Ohne diese Spezialschrift sind die Zeichen unsichtbar und werden bei der Suchindexierung falsch normalisiert.
Insgesamt 11.704 Artikel wurden korrigiert:
1.086 mit PUA-Zeichen am Lemma-Anfang und 10.618 mit PUA-Zeichen im
Lemma-Inneren (z. B. U+E04D → Ê in Adelung, U+E59A → A im WWB).
Die Zuordnung basiert auf der offiziellen charMap.js des
Wörterbuchnetzes sowie manuellen Stichproben.
| Wörterbuch | Korrigierte Artikel |
|---|---|
| WWB | 485 |
| Campe | 367 |
| Adelung | 115 |
| AWB | 83 |
| ElsWB | 31 |
| DWB2, RhWB, LmL | 5 |
15 PUA-Zeichen ohne Eintrag in der charMap wurden ersatzlos entfernt. Am häufigsten betroffen: WWB (9.055), Campe (503), AWB (1.367), GWB (386).
In den 11 Köbler-Wörterbüchern (Ahd., Mhd., Mnd., Got., As., An., Ae., Afries., Anfrk., Germ., Idg.) wurden 71 Artikel mit doppelten Satzzeichen korrigiert. Die häufigsten Muster:
| Fehler | Korrektur | Anzahl |
|---|---|---|
Vw.. | Vw.: | 22 |
L.. | L.: | 13 |
,, | , | 12 |
E.. | E.: | 9 |
L:: | L.: | 8 |
Q.. | Q.: | 3 |
;; | ; | 2 |
Hw.. | Hw.: | 1 |
8.. | 8. | 1 |
In denselben 11 Wörterbüchern wurden 243 Artikel mit unbalancierten deutschen Anführungszeichen („…“) korrigiert: 149× verwaistes “ entfernt, 81× fehlendes “ ergänzt, 12× „ als Schließer korrigiert.
999 von 1.015 Artikeln mit unbalancierten Klammern wurden automatisch korrigiert:
| Typ | Beschreibung | Anzahl |
|---|---|---|
| FIX-A | Verwaiste ) entfernt | 362 |
| FIX-C | Fehlende ) vor Feldtrenner ergänzt | 356 |
| FIX-E | Fehlende ) am Textende ergänzt | 211 |
| FIX-D | Fehlende ) vor Referenzkennung ergänzt | 39 |
| FIX-B | Doppelte )) korrigiert | 31 |
Alle 1.015 unbalancierten Artikel wurden korrigiert (999 automatisch, 16 manuell). Weitere ~3.300 mögliche Wortdopplungen wurden identifiziert, sind aber überwiegend bewusste Wiederholungen in Quellenangaben.
Im Deutschen Wörterbuch (Grimm) sind 30 von 56.813 internen Querverweisen um genau eine Zeile verschoben (Off-by-one). Alle betreffen die Bände 18–31 (S–Z). Die Verweise werden in dieser Datenbank über Lemma-Abgleich korrekt aufgelöst.
Wie produktiv sind Präfixe und Suffixe in verschiedenen Sprachstufen? Die Balken zeigen die Anzahl distincter Lemmata mit dem jeweiligen Affix.
Wird geladen…
Dieses Projekt ist eine unabhängige Digital-Humanities-Forschungsumgebung von Marcel Cotta. Kontakt: research@marcelcotta.com