Geometria analizy skryptu: Jak napisy teatralne wykrywają dialogi
Machine-translated article. If any wording differs, English text prevails.
Nowoczesne systemy napisów teatralnych zależą od jednej krytycznej zdolności: dokładnego wykrywania cue ze skryptów.
Niezależnie od tego, czy generowane są supertytuły dla opery, napisy dla przedstawień teatralnych, czy napisy na żywo dla dostępności, system musi niezawodnie określić:
- Kto mówi
- Kiedy zaczyna się linia
- Gdzie w skrypcie pojawiają się bloki dialogowe
Na pierwszy rzut oka brzmi to jak problem przetwarzania języka naturalnego. W praktyce tak nie jest. Podczas rozwoju SurtitleLive v2 przeanalizowaliśmy blisko 100 skryptów z różnych języków i tradycji teatralnych. Proces ten doprowadził nas do zaskakującego wniosku: Skrypt teatralny nie jest przede wszystkim danymi językowymi. To dane przestrzenne.
1. Problem zachodniego skryptu: Struktura bez interpunkcji
Typowy angielski skrypt teatralny opiera się na konwencjach układu, a nie na interpunkcji, aby zdefiniować role.
Przykład: Typowy układ skryptu scenicznego
HAMLET Być albo nie być: oto jest pytanie.
OFELIA Panie mój, mam pamiątki po tobie.
Dla ludzkiego czytelnika interpretacja jest oczywista:
| Blok | Interpretacja |
|---|---|
| HAMLET | Imię postaci (character) |
| Wcięty tekst | Dialog |
| OFELIA | Imię postaci (character) |
Ale dla parsera, który widzi tylko zwykły tekst, struktura znika. Rozpoznajemy wzorce, ponieważ imiona postaci (character) pojawiają się WIELKIMI LITERAMI, dialog jest wcięty, a bloki są oddzielone pionowymi odstępami. Gramatyka zachodnich skryptów jest typograficzna, a nie językowa.
2. Od bloków skryptu do cue napisów
W środowisku występu na żywo oprogramowanie do napisów nie tylko wyświetla tekst. Musi przekonwertować skrypt na sekwencję cue napisów.
Każdy wykryty blok dialogowy staje się cue napisu, który można wywołać podczas występu na żywo. Jeśli parser błędnie zidentyfikuje blok dialogowy, system napisów wywoła niewłaściwy cue - błąd, który jest niedopuszczalny w teatrze na żywo.
3. Interpunkcja a układ: Odkrycie międzyjęzykowe
Wydajność różni się dramatycznie w zależności od tego, jak bardzo dany język polega na znacznikach jawnych i niejawnych.
Chiński / Kantoneński: Sterowany interpunkcją
Chińskie skrypty teatralne często kodują strukturę w sposób jawny:
張三:今天下雨。 (Zhang San: Dzisiaj pada deszcz.) 李四:真的嗎? (Li Si: Naprawdę?) (他們望向窗外) ((Patrzą przez okno.))
| Wzorzec | Klasyfikacja |
|---|---|
| 角色:台詞 (Postać: Dialog) | Dialog |
| (...) (Nawiasy) | Didaskalia |
Ta struktura sterowana interpunkcją sprawia, że analiza jest prawie trywialna w porównaniu z formatami zachodnimi.
Porównawcza dokładność analizy (2026-03)
| Język / Format | Szacowana dokładność | Kluczowy sygnał strukturalny | Wąskie gardło analizy |
|---|---|---|---|
| Chiński / Kantoneński | ~100% | Jawna interpunkcja (角色:台詞) | Brak |
| Japoński | ~98% | Stabilne znaczniki cytatów | Drobne różnice w formatowaniu |
| Angielski (US/UK) | ~73% | Niejawna struktura układu | Wcięcia i kapitalizacja |
| Niemiecki / Francuski | ~71% | Złożone formatowanie teatralne | Niejednoznaczne granice bloków |
4. Ukryty koszt konwersji skryptów na zwykły tekst
Wiele systemów napisów przetwarza skrypty, najpierw konwertując dokumenty na zwykły tekst, usuwając informacje o układzie.
Oryginalny sformatowany skrypt:
HAMLET Być albo nie być
Po konwersji na zwykły tekst:
HAMLET Być albo nie być
Bez wcięć i granic bloków parser musi polegać na zgadywaniu semantycznym, aby określić, czy "HAMLET" jest imieniem postaci (character), czy częścią zdania.
5. Architektoniczny punkt zwrotny: Analiza oparta na układzie
Zamiast pytać "Co oznacza to zdanie?", maszyna pyta: "Jak geometrycznie wygląda ten blok tekstu?"
Używając ekstrakcji OOXML z plików .docx, pobieramy precyzyjne atrybuty układu, takie jak wcięcia (mierzone w twipsach), flagi kapitalizacji i style akapitów.
Przykład: Sygnały układu wyodrębnione ze skryptu
Blok A:
indent = 72pt,caps_ratio = 1.0,line_length = 8- → Sklasyfikowany jako Postać (Character)
Blok B:
indent = 36pt,caps_ratio = 0.2,line_length = 48- → Sklasyfikowany jako Dialog
6. Didaskalia: Kiedy typografia staje się strukturą
W wielu skryptach teatralnych didaskalia są wskazywane wyłącznie za pomocą typografii - często kursywą.
Przykład: Typografia jako struktura
HAMLET Być albo nie być.
Przerywa i patrzy w stronę publiczności.
OFELIA Panie mój?
| Blok | Interpretacja |
|---|---|
| HAMLET | Imię postaci (character) |
| Wcięte zdanie | Dialog |
| Tekst kursywą | Didaskalia |
Kiedy formatowanie znika, parser nie może odróżnić dialogu od narracji. Niektóre skrypty używają jeszcze bardziej minimalnych notatek kursywą:
pauza odwraca się
Te zawierają prawie żadnych wskazówek językowych, polegając w 100% na atrybutach stylu typograficznego, takich jak italic=true.
7. Trójwarstwowy model AI dla niezawodnego wykrywania cue
Zmieniliśmy pozycję AI jako recenzenta, a nie zgadywacza:
- Warstwa 1 - Reguły deterministyczne: Obsługuje jawne formaty ze 100% dokładnością.
- Warstwa 2 - Recenzja AI: Działa jako korektor, aby zweryfikować niepewne klasyfikacje.
- Przykład:
HAMLET (cicho). System określa, czy "(cicho)" jest didaskalią, czy dialogiem na podstawie kontekstu dokumentu.
- Przykład:
- Warstwa 3 - Klasyfikacja AI: Pełna klasyfikacja dla wysoce niejednoznacznych regionów, zakotwiczona w wzorcach układu znalezionych w innych miejscach tego samego dokumentu.
Wniosek
Skrypty teatralne wydają się proste, ale ich znaczenie wyłania się z organizacji przestrzennej. Przechodząc od zgadywania semantycznego do analizy opartej na układzie, SurtitleLive dostarcza właściwy cue napisu we właściwym momencie.
FAQ
P: Co to jest cue napisu w teatrze? O: Cue napisu to moment, w którym linia dialogu powinna pojawić się na wyświetlaczu napisów. Wykrywanie cue wymaga identyfikacji bloków dialogowych i przejść między mówcami w skrypcie.
P: Jak system radzi sobie z niespójnym formatowaniem? O: Nasz system grupuje podobne układy. Jeśli profil dokumentu się zmieni, parser wykonuje Segmentację Układu, aby dostosować swoją strategię w czasie rzeczywistym.
P: Dlaczego układ jest ważny podczas analizowania skryptów dla napisów? O: Wiele skryptów używa wcięć i odstępów zamiast interpunkcji do kodowania struktury. Parser oparty na układzie wykrywa cue bardziej niezawodnie niż same modele semantyczne.