Mười Danh Mục Ngữ Cảnh Thay Đổi Cách Dịch Thuật Ngoài Kỳ Vọng
Lấy một câu tiếng Anh đơn giản: "We need to close this quickly." Bây giờ dịch nó sang tiếng Đức. Mà không có bất kỳ ngữ cảnh nào, một công cụ dịch thuật sẽ tạo ra một cái gì đó chung chung và kỹ thuật đúng. Lựa chọn động từ sẽ trung lập, tính trang trọng sẽ ở đâu đó ở giữa, và giọng điệu sẽ bằng phẳng. Bây giờ thêm ngữ cảnh: đây là một đội pháp luật thảo luận về một cuộc đàm phán hợp đồng. Kết quả tiếng Đức thay đổi. "Close" trở thành một thuật ngữ pháp luật cụ thể để kết luận một thỏa thuận. Tính trang trọng chuyển sang đăng ký chính thức. Sự khẩn cấp được ngụ ý bởi "quickly" được biểu thị thông qua từ vựng mà một luật sư Đức sẽ thực sự sử dụng. Cùng một văn bản nguồn, kết quả hoàn toàn khác nhau.
Bây giờ thay đổi ngữ cảnh lần nữa. Câu giống nhau, nhưng lần này nó đến từ một đội phát triển phần mềm nói chuyện về việc đóng một phiếu lỗi. Bản dịch tiếng Đức thay đổi một lần nữa. "Close" bây giờ ánh xạ tới thuật ngữ kỹ thuật được sử dụng trong các công cụ quản lý dự án. Đăng ký giảm xuống nửa chính thức. Từ vựng phù hợp với cách các nhà phát triển Đức thực sự nói chuyện trong các cuộc họp và kênh Slack. Câu vẫn có nghĩa giống nhau bằng tiếng Anh. Các phiên bản tiếng Đức của nó trông không giống nhau, và chúng không nên giống nhau, vì chúng mô tả các tình huống hoàn toàn khác nhau.
Đây là vấn đề cốt lõi với bản dịch không có ngữ cảnh. Văn bản nguồn là mơ hồ, và những người dịch thuật giải quyết sự mơ hồ đó bằng cách đoán. Đôi khi câu đoán là đúng. Thường nó tạo ra kết quả đúng về mặt ngữ pháp nhưng không đúng về mặt ngữ nghĩa, văn bản nói kỹ thuật đúng nhưng nói cách nào đó mà không ai nói tiếng bản địa sẽ bao giờ sử dụng trong tình huống đó. Mười danh mục ngữ cảnh trong YEB Translate tồn tại một cách cụ thể để loại bỏ phỏng đoán này. Mỗi cái cung cấp mô hình AI với thông tin nó cần để đưa ra những lựa chọn tốt hơn, và cùng nhau chúng biến đổi kết quả dịch máy chung chung thành văn bản đọc như thể nó được viết bởi ai đó thực sự hiểu tình huống.
Ngành Công Nghiệp, Khán Giả và Mục Đích
Ba danh mục đầu tiên tạo thành nền tảng của bất kỳ bối cảnh dịch thuật nào. Ngành công nghiệp cho mô hình biết lĩnh vực văn bản thuộc về, điều này trực tiếp kiểm soát lựa chọn từ vựng kỹ thuật. Một từ như "protocol" trong bối cảnh y tế kích hoạt từ vựng hoàn toàn khác nhau so với "protocol" trong bối cảnh mạng hoặc bối cảnh ngoại giao. Mà không có cài đặt ngành công nghiệp, mô hình chọn ý nghĩa nào nó thấy thường xuyên nhất trong dữ liệu đào tạo, mà đối với "protocol" thường mặc định là công nghệ. Đặt ngành công nghiệp thành chăm sóc sức khỏe, và kết quả sử dụng các thuật ngữ y tế chính xác tự động.
Khán giả chỉ định ai sẽ đọc văn bản được dịch. Một tài liệu kỹ thuật nhắm vào các kỹ sư sử dụng từ vựng khác và giả định kiến thức nền tảng khác nhau so với thông tin giống nhau được viết cho một khán giả chung. Mô tả sản phẩm cho người tiêu dùng sử dụng ngôn ngữ đơn giản hơn và khung thuyết phục hơn so với tài liệu thông số kỹ thuật nội bộ cho nhóm phát triển. Danh mục khán giả không thay đổi những gì được nói. Nó thay đổi cách nó được nói, điều chỉnh độ phức tạp, mật độ jargon và kiến thức giả định để phù hợp với mức kỳ vọng của độc giả.
Mục đích nắm bắt ý định đằng sau văn bản. Đây là nội dung thông tin nhằm mục đích giáo dục? Nội dung thuyết phục nhằm mục đích bán? Nội dung hướng dẫn nhằm mục đích hướng dẫn? Nội dung pháp lý nhằm mục đích ràng buộc? Mỗi mục đích kích hoạt các mẫu ngôn ngữ khác nhau trong kết quả. Văn bản thuyết phục bằng tiếng Đức sử dụng cấu trúc câu khác nhau so với văn bản thông tin. Tiếng Pháp pháp luật tuân theo các quy ước hoàn toàn không có trong tiếng Pháp hội thoại. Danh mục mục đích cho mô hình biết không chỉ những gì văn bản nói, mà nó đang cố gắng làm gì, và kết quả phản ánh ý định đó bằng ngôn ngữ đích.
Ba danh mục này một mình tạo ra kết quả hoàn toàn khác nhau khi thay đổi. Một câu về "improving performance" được dịch cho khán giả chăm sóc sức khỏe với mục đích thông tin tạo ra ngôn ngữ lâm sàng, đo lường. Câu giống nhau được dịch cho khán giả tiếp thị với mục đích thuyết phục tạo ra ngôn ngữ năng động, tập trung vào lợi ích. Trang tính năng trình dịch AI hiển thị ví dụ so sánh các sự khác biệt này cho bất kỳ ai muốn xem sự tương phản.
Tính Trang Trọng, Đăng Ký và Giọng Điệu
Tính trang trọng có lẽ là danh mục có ảnh hưởng nhất ngay lập tức, đặc biệt là đối với các ngôn ngữ có hệ thống địa chỉ chính thức và không chính thức. Đặt tính trang trọng thành cấp độ một tạo ra kết quả không chính thức, rút gọn đọc như một tin nhắn văn bản giữa những người bạn. Đặt nó thành cấp độ năm tạo ra kết quả chính xác, có cấu trúc đọc như một hợp đồng pháp lý hoặc thư từ chính phủ chính thức. Hướng dẫn về diễn đạt lại để nghe chuyên nghiệp hơn khám phá cách tính trang trọng tương tác với diễn đạt lại, nhưng trong dịch thuật, hiệu ứng thậm chí còn rõ rệt hơn vì nhiều ngôn ngữ có từ vựng và cấu trúc ngữ pháp hoàn toàn riêng biệt cho các mức trang trọng khác nhau.
Tiếng Nhật là ví dụ nổi bật nhất. Sự khác biệt giữa tiếng Nhật không chính thức và tiếng Nhật chính thức là rất lớn đến nỗi một câu ở cấp độ trang trọng một có thể chỉ chia sẻ các động từ gốc với tương đương cấp độ năm của nó. Mỗi kết thúc động từ thay đổi. Các đại từ thay đổi. Các hạt thay đổi. Tiền tố danh dự xuất hiện hoặc biến mất. Một công cụ dịch thuật không tính đến tính trang trọng trong tiếng Nhật về cơ bản là tạo ra kết quả ngẫu nhiên trên phổ trang trọng, điều này có nghĩa là khoảng một nửa số lần kết quả sẽ không phù hợp một cách không chính thức cho bối cảnh kinh doanh hoặc không cần thiết cứng nhắc cho một cuộc trò chuyện thân thiện.
Đăng ký hoạt động cùng với tính trang trọng nhưng không giống hệt với nó. Đăng ký mô tả sự đa dạng ngôn ngữ được sử dụng trong một bối cảnh xã hội cụ thể. Đăng ký học thuật, đăng ký kỹ thuật, đăng ký báo chí, đăng ký văn học. Mỗi cái có những quy ước riêng cho cấu trúc câu, từ vựng và thiết bị tu từ. Một văn bản được dịch trong đăng ký học thuật sử dụng các cấu trúc bị động, ngôn ngữ phòng biện và cụm từ thân thiện với trích dẫn. Văn bản giống nhau trong đăng ký báo chí sử dụng giọng nói chủ động, câu ngắn hơn và quy nhân trực tiếp. Tính trang trọng kiểm soát mức độ lịch sự hoặc bất chính thức của văn bản. Đăng ký kiểm soát loại văn bản nó nghe như thế nào.
Giọng điệu thêm lớp cảm xúc. Trung lập, lạc quan, khẩn cấp, thận trọng, đồng cảm, quyền lực. Danh mục giọng điệu ảnh hưởng đến lựa chọn từ ở cấp độ hàm ý. "The deadline is approaching" với giọng điệu trung lập vẫn bằng phẳng. Ở giọng điệu khẩn cấp, từ vựng chuyển sang các từ truyền đạt áp lực và sự khẩn cấp. Ở giọng điệu thận trọng, nó trở nên mềm hơn, phòng biện, ngoại giao hơn. Giọng điệu là danh mục ảnh hưởng nhất trực tiếp đến cách độc giả cảm thấy về văn bản, và sai lầm có thể làm cho một thông điệp đồng cảm nghe lạnh lẽo hoặc một cập nhật chuyên nghiệp nghe hoảng sợ.
Miền, Giới Tính, Biến Thể và Chủ Đề
Bốn danh mục còn lại xử lý những chi tiết mà sáu danh mục đầu tiên không thể đề cập. Thuật ngữ miền điều khiển bộ từ vựng chuyên ngành nào mô hình rút ra từ. Đây là chi tiết hơn ngành công nghiệp. Trong lĩnh vực công nghệ, miền có thể là điện toán đám mây, phát triển di động, an ninh mạng hoặc khoa học dữ liệu. Mỗi cái có jargon riêng, quy ước về chữ viết tắt riêng, và một tập hợp các thuật ngữ có ý nghĩa cụ thể khác với cách sử dụng hàng ngày của chúng.
Giới tính của người nói, như được thảo luận trong hướng dẫn giới tính của Nga, điều khiển giới tính ngữ pháp trong các ngôn ngữ yêu cầu nó. Đây không phải là tùy chọn đối với các ngôn ngữ như tiếng Nga, tiếng Ả Rập, tiếng Do Thái, tiếng Phần Lan và nhiều ngôn ngữ khác trong đó các động từ quá khứ và tính từ phải phù hợp với giới tính của người nói. Đặt danh mục này một lần đảm bảo các dấu hiệu giới tính nhất quán và chính xác trong toàn bộ kết quả.
Biến thể khu vực kiểm soát phiên bản nào của ngôn ngữ đích để tạo ra. Tiếng Anh Anh hoặc Mỹ. Tiếng Bồ Đào Nha Brasil hoặc Châu Âu. Tiếng Trung Quốc Giản thể hoặc Phồn thể. Tiếng Tây Ban Nha Mỹ Latinh hoặc Bán đảo. Danh mục này hoạt động với 22 cài đặt đặc thù ngôn ngữ để đảm bảo kết quả phù hợp với các quy ước của khu vực khán giả dự kiến, bao gồm chính tả, từ vựng và biểu hiện thành ngữ. Hướng dẫn tiếng Anh Anh vs Mỹ đề cập chi tiết này cho cặp biến thể được yêu cầu nhiều nhất.
Chủ đề cung cấp bối cảnh chủ đề giúp giải quyết sự mơ hồ. Khi nhiều danh mục được đặt đồng thời, mô hình AI nhận được một chuỗi bối cảnh phong phú hướng dẫn mỗi quyết định nó đưa ra trong quá trình dịch thuật. Sự kết hợp của cả mười danh mục, với 117 tùy chọn cá nhân của chúng, tạo ra dấu tay bối cảnh đủ cụ thể để tạo ra các bản dịch được thiết kế cho các tình huống chính xác thay vì xấp xỉ chung chung.
Điều 117 Tùy Chọn Thực Sự Có Nghĩa Là Trong Thực Tế
Con số nghe có vẻ lớn, nhưng trong thực tế hệ thống được thiết kế sao cho hầu hết người dùng chỉ cần đặt một vài danh mục cho bất kỳ nhiệm vụ nào. Một nhà phát triển dịch tài liệu API có thể đặt ngành công nghiệp thành công nghệ, miền thành phát triển phần mềm, tính trang trọng thành cấp độ ba và đăng ký thành kỹ thuật. Đó là bốn cài đặt, có thể ba mươi giây cấu hình, và các bản dịch kết quả sử dụng thuật ngữ kỹ thuật chính xác, tính trang trọng phù hợp và đăng ký chuyên nghiệp trong suốt toàn bộ phiên.
Một chuyên gia tiếp thị dịch các bản sao chiến dịch có thể đặt ngành công nghiệp thành tiếp thị, khán giả thành người tiêu dùng, mục đích thành thuyết phục, giọng điệu thành lạc quan và tính trang trọng thành cấp độ hai. Năm cài đặt, vẫn dưới một phút cấu hình, và mỗi bản dịch trong phiên phản ánh những lựa chọn đó. Hướng dẫn sử dụng hướng dẫn thông qua quá trình cấu hình từng bước.
117 tùy chọn trên mười danh mục không nhằm mục đích được sử dụng đồng thời. Chúng nhằm mục đích bao gồm phạm vi đầy đủ của các tình huống mà người dùng thực tế gặp phải. Một nhà dịch thuật pháp lý cần các tùy chọn khác nhau so với người quản lý phương tiện truyền thông xã hội. Một nhà nghiên cứu y tế cần các tùy chọn khác nhau so với một blogger du lịch. Hệ thống cung cấp đủ độ chi tiết để phục vụ tất cả các trường hợp sử dụng này mà không yêu cầu mỗi người dùng hiểu mọi tùy chọn. Đặt các danh mục quan trọng cho nhiệm vụ được thực hiện, để phần còn lại ở mặc định của chúng, và mô hình AI kết hợp bất kỳ bối cảnh nào nó nhận được.
Điều làm cho điều này về cơ bản khác nhau so với dịch thuật chung chung là mô hình không tạo ra bản dịch mặc định rồi điều chỉnh nó. Bối cảnh định hình kết quả từ rất đầu. Lựa chọn từ, cấu trúc câu, thuật ngữ, đăng ký và tính trang trọng đều được xác định bởi bối cảnh trước khi từ đầu tiên của bản dịch được tạo ra. Đây là lý do tại sao kết quả có thể trông rất khác nhau với các cài đặt bối cảnh khác nhau. Nó không phải là bản dịch giống nhau được điều chỉnh. Nó là một bản dịch khác được tạo ra từ đầu, hướng dẫn bởi một tập hợp ràng buộc hoàn toàn khác.
Các Câu Hỏi Thường Gặp
Dịch thuật máy nhận thức ngữ cảnh là gì
Dịch thuật máy nhận thức ngữ cảnh là một phương pháp trong đó mô hình AI nhận thông tin về người nói, khán giả, ngành công nghiệp, mức trang trọng, giọng điệu và các yếu tố khác trước khi tạo bản dịch. Bối cảnh này định hình lựa chọn từ, ngữ pháp và đăng ký trong kết quả, tạo ra các bản dịch được thiết kế cho các tình huống cụ thể thay vì kết quả chung chung một kích cỡ phù hợp cho tất cả.
YEB Translate cung cấp bao nhiêu cài đặt bối cảnh
YEB Translate cung cấp 10 danh mục ngữ cảnh với 117 tùy chọn cá nhân, cộng với 22 cài đặt đặc thù ngôn ngữ với 78 tùy chọn. Các danh mục bao gồm ngành công nghiệp, khán giả, tính trang trọng, đăng ký, giọng điệu, mục đích, thuật ngữ miền, giới tính của người nói, biến thể khu vực và chủ đề. Người dùng thường đặt từ 3 đến 5 danh mục trên mỗi phiên.
Có thể cài đặt bối cảnh tạo ra dịch thuật tệ hơn nếu được đặt không chính xác
Đặt ngữ cảnh sai có thể đẩy bản dịch theo một hướng không phù hợp. Ví dụ, đặt bối cảnh ngành công nghiệp y tế cho văn bản tiếp thị sẽ giới thiệu thuật ngữ lâm sàng cảm thấy không phù hợp. Tuy nhiên, để lại cài đặt ở mặc định của chúng chỉ tạo ra kết quả chung chung, tương đương với những gì các công cụ dịch khác tạo ra mà không có bất kỳ bối cảnh nào. Trường hợp tệ nhất cho các cài đặt không sử dụng là trung lập, không phải có hại.
Có một trình dịch AI miễn phí có cài đặt bối cảnh
YEB Translate sử dụng mô hình tín dụng trả per-use thay vì đăng ký. Tất cả các danh mục bối cảnh đều có sẵn trên mỗi yêu cầu mà không có các lớp cao cấp. Tín dụng chỉ được tiêu thụ khi văn bản được xử lý thực tế, và tín dụng không sử dụng tiếp tục vô thời hạn. Điều này làm cho nó giá cả phải chăng hơn các công cụ đăng ký cho người dùng thỉnh thoảng vẫn cần đầu ra nhận thức ngữ cảnh.
Dịch thuật nhận thức ngữ cảnh so sánh như thế nào với DeepL hoặc Google Translate
DeepL và Google Translate tạo ra kết quả lưu loát nhưng cung cấp kiểm soát tối thiểu về bối cảnh. Cả hai không cung cấp cài đặt cho ngành công nghiệp, giọng điệu, giới tính của người nói hoặc thuật ngữ miền. Kết quả là các bản dịch chung chung đúng về mặt ngữ pháp nhưng có thể sử dụng sai thuật ngữ, tính trang trọng không phù hợp hoặc hình thức giới tính không chính xác. Dịch thuật nhận thức ngữ cảnh lấp đầy những khoảng trống này bằng cách cung cấp cho mô hình AI thông tin nó cần để đưa ra những lựa chọn có mục tiêu. So sánh DeepL phá vỡ điều này chi tiết.
Có cài đặt bối cảnh hoạt động cho tất cả các cặp ngôn ngữ
Cài đặt bối cảnh áp dụng cho bất kỳ cặp ngôn ngữ nào. Một số danh mục có ảnh hưởng hơn đối với các ngôn ngữ nhất định so với các ngôn ngữ khác. Giới tính quan trọng nhất đối với các ngôn ngữ có giới tính như tiếng Nga và tiếng Ả Rập. Tính trang trọng có tác dụng mạnh nhất trong tiếng Nhật, tiếng Hàn và tiếng Đức. Biến thể khu vực rất quan trọng đối với các ngôn ngữ có sự phân tách về mặt phương ngôn lớn như tiếng Bồ Đào Nha và tiếng Trung Quốc. Hệ thống điều chỉnh giải thích bối cảnh của nó dựa trên ngôn ngữ đích.