Senaryo Ayrıştırmanın Geometrisi: Tiyatro Altyazıları ve Üst Yazıları Diyalogu Nasıl Algılar?


Machine-translated article. If any wording differs, English text prevails.

Modern tiyatro altyazı sistemleri, kritik bir yeteneğe bağlıdır: senaryolardan doğru işaret algılama.

Opera için üst yazılar, sahne prodüksiyonları için altyazılar veya erişilebilirlik için canlı başlıklar oluştururken, sistem güvenilir bir şekilde şunları belirlemelidir:

  • Kim konuşuyor
  • Bir replik ne zaman başlıyor
  • Diyalog blokları senaryoda nerede görünüyor

İlk bakışta, bu doğal dil işleme sorunu gibi görünüyor. Uygulamada, öyle değil. SurtitleLive v2'nin geliştirilmesi sırasında, farklı dillerden ve tiyatro geleneklerinden yaklaşık 100 senaryoyu analiz ettik. Bu süreç bizi şaşırtıcı bir sonuca götürdü: Bir tiyatro senaryosu öncelikle dilsel veri değildir. Mekansal veridir.

1. Batı Senaryosu Sorunu: Noktalama İşareti Olmayan Yapı

Tipik bir İngilizce tiyatro senaryosu, rolleri tanımlamak için noktalama işaretlerinden ziyade düzen kurallarına dayanır.

Örnek: Tipik bir sahne senaryosu düzeni

HAMLET         Olmak ya da olmamak, işte bütün mesele bu.

OPHELIA         Efendim, sizden hatıralarım var.

İnsan okuyucu için yorumlama açıktır:

Blok Yorumlama
HAMLET Karakter adı
Girintili metin Diyalog
OPHELIA Karakter adı

Ancak yalnızca düz metin gören bir ayrıştırıcı için yapı kaybolur. Kalıpları tanıyoruz çünkü karakter adları TAMAMI BÜYÜK HARFLERLE görünüyor, diyalog girintili ve bloklar dikey boşluklarla ayrılıyor. Batı senaryolarının grameri dilsel değil, tipografiktir.

2. Senaryo Bloklarından Altyazı İşaretlerine

Canlı bir performans ortamında, altyazı yazılımı sadece metin görüntülemez. Bir senaryoyu bir altyazı işaretleri dizisine dönüştürmelidir.

Algılanan her diyalog bloğu, canlı bir performans sırasında tetiklenebilen bir altyazı işareti haline gelir. Ayrıştırıcı bir diyalog bloğunu yanlış tanımlarsa, altyazı sistemi yanlış işareti tetikleyecektir - bu, canlı tiyatroda kabul edilemez bir hatadır.

3. Noktalama İşareti - Düzen: Çapraz Dil Keşfi

Performans, dilin açık ve örtük işaretleyicilere olan bağımlılığına bağlı olarak önemli ölçüde değişir.

Çince / Kantonca: Noktalama İşareti Odaklı

Çince tiyatro senaryoları genellikle yapıyı açıkça kodlar:

張三:今天下雨。 (Zhang San: Bugün yağmur yağıyor.) 李四:真的嗎? (Li Si: Gerçekten mi?) (他們望向窗外) ((Pencereden dışarı bakarlar.))

Kalıp Sınıflandırma
角色:台詞 (Karakter: Diyalog) Diyalog
(...) (Parantez) Sahne yönü

Bu noktalama işareti odaklı yapı, ayrıştırmayı Batı formatlarına kıyasla neredeyse önemsiz hale getirir.

Karşılaştırmalı Ayrıştırma Doğruluğu (2026-03)

Dil / Format Tahmini Doğruluk Temel Yapısal Sinyal Ayrıştırma Darboğazı
Çince / Kantonca ~%100 Açık noktalama işareti (角色:台詞) Yok
Japonca ~%98 Kararlı alıntı işaretleri Küçük biçimlendirme varyasyonları
İngilizce (ABD/İngiltere) ~%73 Örtük düzen yapısı Girinti ve büyük harf kullanımı
Almanca / Fransızca ~%71 Karmaşık tiyatro biçimlendirmesi Belirsiz blok sınırları

4. Senaryoları Düz Metne Dönüştürmenin Gizli Maliyeti

Birçok altyazı sistemi, belgeleri önce düz metne dönüştürerek, düzen bilgilerini soyarak senaryoları işler.

Orijinal biçimlendirilmiş senaryo:

HAMLET         Olmak ya da olmamak

Düz metin dönüştürmesinden sonra: HAMLET Olmak ya da olmamak

Girinti veya blok sınırları olmadan, ayrıştırıcı, "HAMLET"'in bir karakter adı mı yoksa cümlenin bir parçası mı olduğunu belirlemek için anlamsal tahmine güvenmelidir.

5. Mimari Pivot: Düzen Öncelikli Ayrıştırma

"Bu cümle ne anlama geliyor?" diye sormak yerine, makine şunu sorar: "Bu metin bloğu geometrik olarak nasıl görünüyor?"

.docx dosyalarından OOXML çıkarma kullanarak, girinti (twip cinsinden ölçülür), büyük harf kullanım bayrakları ve paragraf stilleri gibi kesin düzen özelliklerini alıyoruz.

Örnek: Bir senaryodan çıkarılan düzen sinyalleri

A Bloğu:

  • girinti = 72pt, büyük_harf_oranı = 1.0, satır_uzunluğu = 8
  • → Karakter Olarak Sınıflandırıldı

B Bloğu:

  • girinti = 36pt, büyük_harf_oranı = 0.2, satır_uzunluğu = 48
  • → Diyalog Olarak Sınıflandırıldı

6. Sahne Yönergeleri: Tipografi Yapı Haline Geldiğinde

Birçok tiyatro senaryosunda, sahne yönergeleri tamamen tipografi yoluyla belirtilir - genellikle italik.

Örnek: Yapı Olarak Tipografi

HAMLET         Olmak ya da olmamak.

        Duraksar ve seyirciye doğru bakar.

OPHELIA         Efendim?

Blok Yorumlama
HAMLET Karakter adı
Girintili cümle Diyalog
İtalik metin Sahne yönü

Biçimlendirme kaybolduğunda, ayrıştırıcı diyalog ve anlatı arasında ayrım yapamaz. Bazı senaryolar daha da minimal italik notlar kullanır:

        duraksama         arkasını döner

Bunlar neredeyse hiç dilsel ipucu içermez ve %100 italik=true gibi tipografik stil özelliklerine güvenir.

7. Güvenilir İşaret Algılama için Üç Katmanlı Yapay Zeka Modeli

Yapay zekayı bir tahminci yerine bir inceleyici olarak yeniden konumlandırdık:

  • Katman 1 — Deterministik Kurallar: Açık formatları %100 doğrulukla işler.
  • Katman 2 — Yapay Zeka İncelemesi: Belirsiz sınıflandırmaları doğrulamak için bir düzeltmen olarak hareket eder.
    • Örnek: HAMLET (sessizce). Sistem, "(sessizce)" ifadesinin bir sahne yönü mü yoksa diyalog mu olduğunu belge bağlamına göre belirler.
  • Katman 3 — Yapay Zeka Sınıflandırması: Aynı belgede başka yerlerde bulunan düzen kalıplarıyla sabitlenmiş, oldukça belirsiz bölgeler için tam sınıflandırma.

Sonuç

Tiyatro senaryoları basit görünür, ancak anlamları mekansal organizasyondan ortaya çıkar. Anlamsal tahminden düzen öncelikli ayrıştırmaya geçerek, SurtitleLive, doğru altyazı işaretini, doğru anda sunar.


SSS

S: Tiyatroda altyazı işareti nedir? C: Bir altyazı işareti, bir diyalog satırının altyazı ekranında görünmesi gereken andır. İşaret algılama, senaryo içindeki diyalog bloklarını ve konuşmacı geçişlerini tanımlamayı gerektirir.

S: Sistem tutarsız biçimlendirmeyi nasıl ele alıyor? C: Sistemimiz benzer düzenleri kümelendirir. Bir belge profili değişirse, ayrıştırıcı stratejisini gerçek zamanlı olarak uyarlamak için Düzen Bölümleme gerçekleştirir.

S: Altyazılar için senaryoları ayrıştırırken düzen neden önemlidir? C: Birçok senaryo, yapıyı kodlamak için noktalama işaretleri yerine girinti ve boşluk kullanır. Düzen öncelikli bir ayrıştırıcı, işaretleri yalnızca anlamsal modellere göre daha güvenilir bir şekilde algılar.

Related Articles