Hình học của Phân tích Cú pháp Kịch bản: Cách Phụ đề Sân khấu và Siêu phụ đề Phát hiện Hội thoại


Machine-translated article. If any wording differs, English text prevails.

Các hệ thống phụ đề sân khấu hiện đại phụ thuộc vào một khả năng quan trọng: phát hiện cue chính xác từ các kịch bản.

Dù là tạo siêu phụ đề cho opera, phụ đề cho các vở kịch sân khấu hay chú thích trực tiếp để hỗ trợ tiếp cận, hệ thống phải xác định một cách đáng tin cậy:

  • Ai đang nói
  • Khi nào một dòng bắt đầu
  • Các khối hội thoại xuất hiện ở đâu trong kịch bản

Thoạt nhìn, điều này nghe có vẻ giống như một vấn đề xử lý ngôn ngữ tự nhiên. Nhưng trên thực tế, không phải vậy. Trong quá trình phát triển SurtitleLive v2, chúng tôi đã phân tích gần 100 kịch bản từ các ngôn ngữ và truyền thống sân khấu khác nhau. Quá trình đó đã dẫn chúng tôi đến một kết luận đáng ngạc nhiên: Một kịch bản sân khấu không chủ yếu là dữ liệu ngôn ngữ. Nó là dữ liệu không gian.

1. Vấn đề Kịch bản phương Tây: Cấu trúc không có dấu chấm câu

Một kịch bản sân khấu tiếng Anh điển hình dựa vào các quy ước bố cục hơn là dấu chấm câu để xác định vai diễn.

Ví dụ: Bố cục kịch bản sân khấu điển hình

HAMLET         To be, or not to be: that is the question.

OPHELIA         My lord, I have remembrances of yours.

Đối với người đọc là con người, cách giải thích là hiển nhiên:

Block Giải thích
HAMLET Tên nhân vật (character)
Văn bản thụt lề Hội thoại
OPHELIA Tên nhân vật (character)

Nhưng đối với một trình phân tích cú pháp (parser) chỉ thấy văn bản thuần túy, cấu trúc sẽ biến mất. Chúng ta nhận ra các mẫu vì tên nhân vật (character) xuất hiện bằng CHỮ HOA TOÀN BỘ, hội thoại được thụt lề và các khối được phân tách bằng khoảng cách dọc. Ngữ pháp của các kịch bản phương Tây là kiểu chữ, không phải ngôn ngữ.

2. Từ Khối Kịch bản đến Cue Phụ đề

Trong môi trường biểu diễn trực tiếp, phần mềm phụ đề không chỉ đơn giản là hiển thị văn bản. Nó phải chuyển đổi một kịch bản thành một chuỗi các cue phụ đề.

Mỗi khối hội thoại được phát hiện sẽ trở thành một cue phụ đề có thể được kích hoạt trong một buổi biểu diễn trực tiếp. Nếu trình phân tích cú pháp (parser) xác định sai một khối hội thoại, hệ thống phụ đề sẽ kích hoạt cue sai—một lỗi không thể chấp nhận được trong sân khấu trực tiếp.

3. Dấu chấm câu so với Bố cục: Một Khám phá Đa ngôn ngữ

Hiệu suất thay đổi đáng kể tùy thuộc vào mức độ ngôn ngữ dựa vào các dấu hiệu rõ ràng so với ngầm định.

Tiếng Trung / Tiếng Quảng Đông: Dựa trên Dấu chấm câu

Các kịch bản sân khấu Trung Quốc thường mã hóa cấu trúc một cách rõ ràng:

張三:今天下雨。 (Zhang San: Hôm nay trời mưa.) 李四:真的嗎? (Li Si: Thật sao?) (他們望向窗外) ((Họ nhìn ra ngoài cửa sổ.))

Mẫu Phân loại
角色:台詞 (Nhân vật (character): Lời thoại) Hội thoại
(...) (Dấu ngoặc đơn) Chỉ dẫn sân khấu

Cấu trúc dựa trên dấu chấm câu này làm cho việc phân tích cú pháp gần như tầm thường so với các định dạng phương Tây.

Độ chính xác Phân tích Cú pháp So sánh (2026-03)

Ngôn ngữ / Định dạng Độ chính xác ước tính Tín hiệu cấu trúc chính Điểm nghẽn phân tích cú pháp
Tiếng Trung / Tiếng Quảng Đông ~100% Dấu chấm câu rõ ràng (角色:台詞) Không có
Tiếng Nhật ~98% Dấu ngoặc kép ổn định Các biến thể định dạng nhỏ
Tiếng Anh (US/UK) ~73% Cấu trúc bố cục ngầm định Thụt lề & viết hoa
Tiếng Đức / Tiếng Pháp ~71% Định dạng sân khấu phức tạp Ranh giới khối mơ hồ

4. Chi phí Ẩn của Việc Chuyển đổi Kịch bản thành Văn bản Thuần túy

Nhiều hệ thống phụ đề xử lý kịch bản bằng cách trước tiên chuyển đổi tài liệu thành văn bản thuần túy, loại bỏ thông tin bố cục.

Kịch bản được định dạng gốc:

HAMLET         To be or not to be

Sau khi chuyển đổi văn bản thuần túy: HAMLET To be or not to be

Nếu không có thụt lề hoặc ranh giới khối, trình phân tích cú pháp (parser) phải dựa vào đoán ngữ nghĩa để xác định xem "HAMLET" là tên nhân vật (character) hay một phần của câu.

5. Trục Kiến trúc: Phân tích Cú pháp Ưu tiên Bố cục

Thay vì hỏi "Câu này có nghĩa là gì?", máy hỏi: "Khối văn bản này trông như thế nào về mặt hình học?"

Bằng cách sử dụng trích xuất OOXML từ các tệp .docx, chúng tôi truy xuất các thuộc tính bố cục chính xác như thụt lề (được đo bằng twip), cờ viết hoa và kiểu đoạn văn.

Ví dụ: Tín hiệu bố cục được trích xuất từ một kịch bản

Khối A:

  • indent = 72pt, caps_ratio = 1.0, line_length = 8
  • → Được phân loại là Nhân vật (Character)

Khối B:

  • indent = 36pt, caps_ratio = 0.2, line_length = 48
  • → Được phân loại là Hội thoại

6. Chỉ dẫn Sân khấu: Khi Kiểu chữ Trở thành Cấu trúc

Trong nhiều kịch bản sân khấu, chỉ dẫn sân khấu được chỉ ra hoàn toàn thông qua kiểu chữ—thường là in nghiêng.

Ví dụ: Kiểu chữ như Cấu trúc

HAMLET         To be, or not to be.

        He pauses and looks toward the audience.

OPHELIA         My lord?

Block Giải thích
HAMLET Tên nhân vật (character)
Câu thụt lề Hội thoại
Văn bản in nghiêng Chỉ dẫn sân khấu

Khi định dạng biến mất, trình phân tích cú pháp (parser) không thể phân biệt giữa hội thoại và tường thuật. Một số kịch bản sử dụng các ghi chú in nghiêng thậm chí còn tối giản hơn:

        pause         turns away

Chúng chứa hầu như không có cue ngôn ngữ nào, dựa 100% vào các thuộc tính kiểu chữ như italic=true.

7. Mô hình AI Ba tầng để Phát hiện Cue Đáng tin cậy

Chúng tôi định vị lại AI như một người đánh giá hơn là một người đoán:

  • Tầng 1 — Quy tắc Xác định: Xử lý các định dạng rõ ràng với độ chính xác 100%.
  • Tầng 2 — Đánh giá AI: Hoạt động như một người đọc soát lỗi để xác thực các phân loại không chắc chắn.
    • Ví dụ: HAMLET (quietly). Hệ thống xác định xem "(quietly)" là chỉ dẫn sân khấu hay hội thoại dựa trên ngữ cảnh tài liệu.
  • Tầng 3 — Phân loại AI: Phân loại đầy đủ cho các vùng rất mơ hồ, được neo bởi các mẫu bố cục được tìm thấy ở những nơi khác trong cùng một tài liệu.

Kết luận

Các kịch bản sân khấu có vẻ đơn giản, nhưng ý nghĩa của chúng xuất hiện từ tổ chức không gian. Bằng cách chuyển từ đoán ngữ nghĩa sang phân tích cú pháp ưu tiên bố cục, SurtitleLive cung cấp cue phụ đề phù hợp, vào đúng thời điểm.


Câu hỏi thường gặp

H: Cue phụ đề trong sân khấu là gì? Đ: Cue phụ đề là thời điểm một dòng hội thoại sẽ xuất hiện trên màn hình phụ đề. Phát hiện cue yêu cầu xác định các khối hội thoại và chuyển đổi người nói trong kịch bản.

H: Hệ thống xử lý định dạng không nhất quán như thế nào? Đ: Hệ thống của chúng tôi nhóm các bố cục tương tự. Nếu hồ sơ tài liệu thay đổi, trình phân tích cú pháp (parser) sẽ thực hiện Phân đoạn Bố cục để điều chỉnh chiến lược của nó trong thời gian thực.

H: Tại sao bố cục lại quan trọng khi phân tích cú pháp kịch bản cho phụ đề? Đ: Nhiều kịch bản sử dụng thụt lề và khoảng cách thay vì dấu chấm câu để mã hóa cấu trúc. Một trình phân tích cú pháp (parser) ưu tiên bố cục phát hiện cue đáng tin cậy hơn so với chỉ các mô hình ngữ nghĩa.

Related Articles