Die Geometrie der Skriptanalyse: Wie Theateruntertitel und Übertitel Dialoge erkennen
Machine-translated article. If any wording differs, English text prevails.
Moderne Theateruntertitelsysteme sind auf eine entscheidende Fähigkeit angewiesen: die genaue Cue-Erkennung aus Skripten.
Ob es sich um die Erstellung von Übertiteln für Opern, Untertiteln für Bühnenproduktionen oder Live-Untertiteln für Barrierefreiheit handelt, das System muss zuverlässig bestimmen:
- Wer spricht
- Wann eine Zeile beginnt
- Wo Dialogblöcke im Skript erscheinen
Auf den ersten Blick klingt das nach einem Problem der natürlichen Sprachverarbeitung. In der Praxis ist es das aber nicht. Während der Entwicklung von SurtitleLive v2 haben wir fast 100 Skripte aus verschiedenen Sprachen und Theatertraditionen analysiert. Dieser Prozess führte uns zu einer überraschenden Schlussfolgerung: Ein Theaterskript ist in erster Linie keine linguistische Information. Es sind räumliche Daten.
1. Das Problem des westlichen Skripts: Struktur ohne Interpunktion
Ein typisches englisches Theaterskript stützt sich eher auf Layoutkonventionen als auf Interpunktion, um Rollen zu definieren.
Beispiel: Ein typisches Bühnenskript-Layout
HAMLET Sein oder Nichtsein, das ist hier die Frage.
OPHELIA Mein Prinz, ich hab' Euch Andenken gebracht.
Für einen menschlichen Leser ist die Interpretation offensichtlich:
| Block | Interpretation |
|---|---|
| HAMLET | Name der Figur/des Charakters |
| Eingerückter Text | Dialog |
| OPHELIA | Name der Figur/des Charakters |
Aber für einen Parser, der nur Klartext sieht, verschwindet die Struktur. Wir erkennen die Muster, weil die Namen der Figuren/Charaktere in GROSSBUCHSTABEN erscheinen, der Dialog eingerückt ist und die Blöcke durch vertikale Abstände getrennt sind. Die Grammatik westlicher Skripte ist typografisch, nicht linguistisch.
2. Von Skriptblöcken zu Untertitel-Cues
In einer Live-Performance-Umgebung zeigt die Untertitel-Software nicht einfach nur Text an. Sie muss ein Skript in eine Sequenz von Untertitel-Cues umwandeln.
Jeder erkannte Dialogblock wird zu einem Untertitel-Cue, der während einer Live-Performance ausgelöst werden kann. Wenn der Parser einen Dialogblock falsch identifiziert, löst das Untertitelsystem den falschen Cue aus – ein Fehler, der im Live-Theater inakzeptabel ist.
3. Interpunktion vs. Layout: Eine sprachübergreifende Entdeckung
Die Performance variiert stark, je nachdem, inwieweit sich die Sprache auf explizite oder implizite Marker stützt.
Chinesisch / Kantonesisch: Interpunktionsgesteuert
Chinesische Theaterskripte kodieren die Struktur oft explizit:
張三:今天下雨。 (Zhang San: Es regnet heute.) 李四:真的嗎? (Li Si: Wirklich?) (他們望向窗外) ((Sie schauen aus dem Fenster.))
| Muster | Klassifizierung |
|---|---|
| 角色:台詞 (Figur/Charakter: Dialog) | Dialog |
| (...) (Klammern) | Regieanweisung |
Diese interpunktionsgesteuerte Struktur macht die Analyse im Vergleich zu westlichen Formaten fast trivial.
Vergleichende Analysegenauigkeit (2026-03)
| Sprache / Format | Geschätzte Genauigkeit | Wichtigstes strukturelles Signal | Engpass bei der Analyse |
|---|---|---|---|
| Chinesisch / Kantonesisch | ~100% | Explizite Interpunktion (角色:台詞) | Keine |
| Japanisch | ~98% | Stabile Anführungszeichen | Geringfügige Formatabweichungen |
| Englisch (US/UK) | ~73% | Implizite Layoutstruktur | Einrückung & Großschreibung |
| Deutsch / Französisch | ~71% | Komplexe Theaterformatierung | Mehrdeutige Blockgrenzen |
4. Die versteckten Kosten der Konvertierung von Skripten in Klartext
Viele Untertitelsysteme verarbeiten Skripte, indem sie Dokumente zuerst in Klartext konvertieren und Layoutinformationen entfernen.
Original formatiertes Skript:
HAMLET Sein oder Nichtsein
Nach der Klartextkonvertierung:
HAMLET Sein oder Nichtsein
Ohne Einrückung oder Blockgrenzen muss sich der Parser auf semantisches Raten verlassen, um zu bestimmen, ob "HAMLET" ein Figuren-/Charaktername oder ein Teil des Satzes ist.
5. Der architektonische Drehpunkt: Layout-First-Analyse
Anstatt zu fragen: "Was bedeutet dieser Satz?", fragt die Maschine: "Wie sieht dieser Textblock geometrisch aus?"
Durch die Verwendung von OOXML-Extraktion aus .docx-Dateien rufen wir präzise Layoutattribute wie Einrückung (gemessen in Twips), Großschreibungsflags und Absatzstile ab.
Beispiel: Layoutsignale, die aus einem Skript extrahiert wurden
Block A:
indent = 72pt,caps_ratio = 1.0,line_length = 8- → Klassifiziert als Figur/Charakter
Block B:
indent = 36pt,caps_ratio = 0.2,line_length = 48- → Klassifiziert als Dialog
6. Regieanweisungen: Wenn Typografie zur Struktur wird
In vielen Theaterskripten werden Regieanweisungen rein durch Typografie angegeben – oft durch Kursivschrift.
Beispiel: Typografie als Struktur
HAMLET Sein oder Nichtsein.
Er hält inne und blickt zum Publikum.
OPHELIA Mein Prinz?
| Block | Interpretation |
|---|---|
| HAMLET | Name der Figur/des Charakters |
| Eingerückter Satz | Dialog |
| Kursiver Text | Regieanweisung |
Sobald die Formatierung verschwindet, kann der Parser nicht mehr zwischen Dialog und Erzählung unterscheiden. Einige Skripte verwenden noch minimalere kursive Notizen:
Pause wendet sich ab
Diese enthalten fast keine linguistischen Cues und stützen sich zu 100 % auf typografische Stilattribute wie italic=true.
7. Ein dreistufiges KI-Modell für zuverlässige Cue-Erkennung
Wir haben KI als Reviewer und nicht als Rater positioniert:
- Stufe 1 – Deterministische Regeln: Verarbeitet explizite Formate mit 100 % Genauigkeit.
- Stufe 2 – KI-Review: Fungiert als Korrekturleser, um unsichere Klassifizierungen zu validieren.
- Beispiel:
HAMLET (leise). Das System bestimmt anhand des Dokumentkontexts, ob "(leise)" eine Regieanweisung oder ein Dialog ist.
- Beispiel:
- Stufe 3 – KI-Klassifizierung: Vollständige Klassifizierung für stark mehrdeutige Bereiche, verankert durch Layoutmuster, die an anderer Stelle im selben Dokument gefunden wurden.
Fazit
Theaterskripte erscheinen einfach, aber ihre Bedeutung ergibt sich aus der räumlichen Organisation. Durch den Übergang vom semantischen Raten zur Layout-First-Analyse liefert SurtitleLive den richtigen Untertitel-Cue, im richtigen Moment.
FAQ
F: Was ist ein Untertitel-Cue im Theater? A: Ein Untertitel-Cue ist der Moment, in dem eine Dialogzeile auf der Untertitelanzeige erscheinen soll. Die Cue-Erkennung erfordert die Identifizierung von Dialogblöcken und Sprecherwechseln innerhalb des Skripts.
F: Wie geht das System mit inkonsistenter Formatierung um? A: Unser System gruppiert ähnliche Layouts. Wenn sich ein Dokumentprofil ändert, führt der Parser eine Layoutsegmentierung durch, um seine Strategie in Echtzeit anzupassen.
F: Warum ist das Layout wichtig, wenn Skripte für Untertitel analysiert werden? A: Viele Skripte verwenden Einrückungen und Abstände anstelle von Interpunktion, um die Struktur zu kodieren. Ein Layout-First-Parser erkennt Cues zuverlässiger als semantische Modelle allein.
Wichtigste Erkenntnisse
- Theateruntertitelsoftware benötigt eine genaue Cue-Erkennung aus Skripten, um Dialoge korrekt darzustellen.
- Die Skriptanalyse betrachtet Theaterskripte primär als räumliche Daten, nicht als rein linguistische Informationen.
- Die Genauigkeit der Skriptanalyse hängt stark von der Sprache und den verwendeten Formatierungsstandards ab.
- SurtitleLive verwendet eine Layout-First-Analyse, um Layoutattribute wie Einrückung und Großschreibung zu nutzen.
Häufig gestellte Fragen
Was ist ein Untertitel-Cue im Theater?
Ein Untertitel-Cue ist der Zeitpunkt, an dem eine Dialogzeile auf der Untertitelanzeige erscheinen soll. Die Cue-Erkennung erfordert die Identifizierung von Dialogblöcken und Sprecherwechseln innerhalb des Skripts.
Wie geht das System mit inkonsistenter Formatierung um?
Unser System gruppiert ähnliche Layouts. Wenn sich ein Dokumentprofil ändert, führt der Parser eine Layoutsegmentierung durch, um seine Strategie in Echtzeit anzupassen.
Warum ist das Layout wichtig, wenn Skripte für Untertitel analysiert werden?
Viele Skripte verwenden Einrückungen und Abstände anstelle von Interpunktion, um die Struktur zu kodieren. Ein Layout-First-Parser erkennt Cues zuverlässiger als semantische Modelle allein.
Wie verbessert SurtitleLive die Genauigkeit der Cue-Erkennung?
SurtitleLive verwendet ein dreistufiges KI-Modell, das deterministische Regeln, KI-Review und KI-Klassifizierung kombiniert, um eine zuverlässige Cue-Erkennung zu gewährleisten.
Glossar
- Skript: Der Text eines Theaterstücks, der die Dialoge und Regieanweisungen enthält.
- Cue: Ein spezifischer Moment im Skript, der einen Wechsel im Untertitel oder Übertitel auslöst.
- Charakter: Eine dramatische Rolle, die von einem Schauspieler in einem Theaterstück dargestellt wird.
- OOXML-Extraktion: Der Prozess des Abrufens präziser Layoutattribute aus .docx-Dateien, wie z.B. Einrückung und Absatzstile.
- Layout-First-Analyse: Ein Ansatz zur Skriptanalyse, der sich auf die geometrische Anordnung von Textblöcken konzentriert, anstatt auf semantisches Raten.