Geometria analizy skryptu: Jak napisy teatralne wykrywają dialogi


Machine-translated article. If any wording differs, English text prevails.

Nowoczesne systemy napisów teatralnych zależą od jednej krytycznej zdolności: dokładnego wykrywania cue ze skryptów.

Niezależnie od tego, czy generowane są supertytuły dla opery, napisy dla przedstawień teatralnych, czy napisy na żywo dla dostępności, system musi niezawodnie określić:

  • Kto mówi
  • Kiedy zaczyna się linia
  • Gdzie w skrypcie pojawiają się bloki dialogowe

Na pierwszy rzut oka brzmi to jak problem przetwarzania języka naturalnego. W praktyce tak nie jest. Podczas rozwoju SurtitleLive v2 przeanalizowaliśmy blisko 100 skryptów z różnych języków i tradycji teatralnych. Proces ten doprowadził nas do zaskakującego wniosku: Skrypt teatralny nie jest przede wszystkim danymi językowymi. To dane przestrzenne.

1. Problem zachodniego skryptu: Struktura bez interpunkcji

Typowy angielski skrypt teatralny opiera się na konwencjach układu, a nie na interpunkcji, aby zdefiniować role.

Przykład: Typowy układ skryptu scenicznego

HAMLET         Być albo nie być: oto jest pytanie.

OFELIA         Panie mój, mam pamiątki po tobie.

Dla ludzkiego czytelnika interpretacja jest oczywista:

Blok Interpretacja
HAMLET Imię postaci (character)
Wcięty tekst Dialog
OFELIA Imię postaci (character)

Ale dla parsera, który widzi tylko zwykły tekst, struktura znika. Rozpoznajemy wzorce, ponieważ imiona postaci (character) pojawiają się WIELKIMI LITERAMI, dialog jest wcięty, a bloki są oddzielone pionowymi odstępami. Gramatyka zachodnich skryptów jest typograficzna, a nie językowa.

2. Od bloków skryptu do cue napisów

W środowisku występu na żywo oprogramowanie do napisów nie tylko wyświetla tekst. Musi przekonwertować skrypt na sekwencję cue napisów.

Każdy wykryty blok dialogowy staje się cue napisu, który można wywołać podczas występu na żywo. Jeśli parser błędnie zidentyfikuje blok dialogowy, system napisów wywoła niewłaściwy cue - błąd, który jest niedopuszczalny w teatrze na żywo.

3. Interpunkcja a układ: Odkrycie międzyjęzykowe

Wydajność różni się dramatycznie w zależności od tego, jak bardzo dany język polega na znacznikach jawnych i niejawnych.

Chiński / Kantoneński: Sterowany interpunkcją

Chińskie skrypty teatralne często kodują strukturę w sposób jawny:

張三:今天下雨。 (Zhang San: Dzisiaj pada deszcz.) 李四:真的嗎? (Li Si: Naprawdę?) (他們望向窗外) ((Patrzą przez okno.))

Wzorzec Klasyfikacja
角色:台詞 (Postać: Dialog) Dialog
(...) (Nawiasy) Didaskalia

Ta struktura sterowana interpunkcją sprawia, że analiza jest prawie trywialna w porównaniu z formatami zachodnimi.

Porównawcza dokładność analizy (2026-03)

Język / Format Szacowana dokładność Kluczowy sygnał strukturalny Wąskie gardło analizy
Chiński / Kantoneński ~100% Jawna interpunkcja (角色:台詞) Brak
Japoński ~98% Stabilne znaczniki cytatów Drobne różnice w formatowaniu
Angielski (US/UK) ~73% Niejawna struktura układu Wcięcia i kapitalizacja
Niemiecki / Francuski ~71% Złożone formatowanie teatralne Niejednoznaczne granice bloków

4. Ukryty koszt konwersji skryptów na zwykły tekst

Wiele systemów napisów przetwarza skrypty, najpierw konwertując dokumenty na zwykły tekst, usuwając informacje o układzie.

Oryginalny sformatowany skrypt:

HAMLET         Być albo nie być

Po konwersji na zwykły tekst: HAMLET Być albo nie być

Bez wcięć i granic bloków parser musi polegać na zgadywaniu semantycznym, aby określić, czy "HAMLET" jest imieniem postaci (character), czy częścią zdania.

5. Architektoniczny punkt zwrotny: Analiza oparta na układzie

Zamiast pytać "Co oznacza to zdanie?", maszyna pyta: "Jak geometrycznie wygląda ten blok tekstu?"

Używając ekstrakcji OOXML z plików .docx, pobieramy precyzyjne atrybuty układu, takie jak wcięcia (mierzone w twipsach), flagi kapitalizacji i style akapitów.

Przykład: Sygnały układu wyodrębnione ze skryptu

Blok A:

  • indent = 72pt, caps_ratio = 1.0, line_length = 8
  • → Sklasyfikowany jako Postać (Character)

Blok B:

  • indent = 36pt, caps_ratio = 0.2, line_length = 48
  • → Sklasyfikowany jako Dialog

6. Didaskalia: Kiedy typografia staje się strukturą

W wielu skryptach teatralnych didaskalia są wskazywane wyłącznie za pomocą typografii - często kursywą.

Przykład: Typografia jako struktura

HAMLET         Być albo nie być.

        Przerywa i patrzy w stronę publiczności.

OFELIA         Panie mój?

Blok Interpretacja
HAMLET Imię postaci (character)
Wcięte zdanie Dialog
Tekst kursywą Didaskalia

Kiedy formatowanie znika, parser nie może odróżnić dialogu od narracji. Niektóre skrypty używają jeszcze bardziej minimalnych notatek kursywą:

        pauza         odwraca się

Te zawierają prawie żadnych wskazówek językowych, polegając w 100% na atrybutach stylu typograficznego, takich jak italic=true.

7. Trójwarstwowy model AI dla niezawodnego wykrywania cue

Zmieniliśmy pozycję AI jako recenzenta, a nie zgadywacza:

  • Warstwa 1 - Reguły deterministyczne: Obsługuje jawne formaty ze 100% dokładnością.
  • Warstwa 2 - Recenzja AI: Działa jako korektor, aby zweryfikować niepewne klasyfikacje.
    • Przykład: HAMLET (cicho). System określa, czy "(cicho)" jest didaskalią, czy dialogiem na podstawie kontekstu dokumentu.
  • Warstwa 3 - Klasyfikacja AI: Pełna klasyfikacja dla wysoce niejednoznacznych regionów, zakotwiczona w wzorcach układu znalezionych w innych miejscach tego samego dokumentu.

Wniosek

Skrypty teatralne wydają się proste, ale ich znaczenie wyłania się z organizacji przestrzennej. Przechodząc od zgadywania semantycznego do analizy opartej na układzie, SurtitleLive dostarcza właściwy cue napisu we właściwym momencie.


FAQ

P: Co to jest cue napisu w teatrze? O: Cue napisu to moment, w którym linia dialogu powinna pojawić się na wyświetlaczu napisów. Wykrywanie cue wymaga identyfikacji bloków dialogowych i przejść między mówcami w skrypcie.

P: Jak system radzi sobie z niespójnym formatowaniem? O: Nasz system grupuje podobne układy. Jeśli profil dokumentu się zmieni, parser wykonuje Segmentację Układu, aby dostosować swoją strategię w czasie rzeczywistym.

P: Dlaczego układ jest ważny podczas analizowania skryptów dla napisów? O: Wiele skryptów używa wcięć i odstępów zamiast interpunkcji do kodowania struktury. Parser oparty na układzie wykrywa cue bardziej niezawodnie niż same modele semantyczne.

Related Articles