Библиотека
|
ваш профиль |
Litera
Правильная ссылка на статью:
Майкова Т.А.
К вопросу о применимости концепции единица перевода к машинному переводу
// Litera.
2023. № 12.
С. 352-360.
DOI: 10.25136/2409-8698.2023.12.69470 EDN: LAWSMV URL: https://nbpublish.com/library_read_article.php?id=69470
К вопросу о применимости концепции единица перевода к машинному переводу
DOI: 10.25136/2409-8698.2023.12.69470EDN: LAWSMVДата направления статьи в редакцию: 23-12-2023Дата публикации: 30-12-2023Аннотация: В статье рассматривается вопрос о применимости теоретической концепции единица перевода к машинному переводу в свете современных взглядов на это понятие и влиянии размеров вычленяемой единицы на качество перевода. При том, что современные системы машинного перевода предлагают приемлемый уровень качества, ряд проблем, в основном связанных со структурной организацией текста, остаются нерешенными. Соответственно, целью представленной работы является изучение существующих систем машинного перевода в свете применимости концепции единица перевода и в свете определения ее границ. В статью включено рассмотрение современных прочтений теоретико-переводческого понятия единица перевода и способов вычленения единиц перевода. Особое внимание уделяется вопросу, меняется ли содержание понятия единица перевода в зависимости от того, является ли объектом исследования конечный текст или процесс перевода. Затрагивается вопрос о способах исследования, принятых в текст-ориентированных и процесс-ориентированных подходах, таких как сравнительный анализ языковых пар и TAP-протокол. На основе обзора существующих моделей машинного перевода, проводится анализ каждой из них для ответа на вопрос, может ли единица перевода быть определена для данной системы и каковы ее размеры. Делается вывод о том, что единица перевода может рассматриваться как единица анализа или единица обработки в рамках текст-ориентированного и процесс-ориентированного подходов к изучению перевода. Единица перевода имеет динамический характер и влияет на качество переводного текста. В рамках машинного перевода единица перевода как единица анализа неприменима для систем, основанных на вероятностных нелингвистических методах. Для систем машинного перевода, основанного на правилах, применимы оба прочтения понятия единица перевода. В таких системах понятие единица анализа относится к типам фрагментов исходного текста, которые могут быть идентифицированы системой, а единица обработки – к тому, как алгоритм перевода воздействует на проанализированный исходный текст для создания текста перевода, при этом вычленяемые единицы не выходят за пределы отдельного предложения. Соответственно, по крайней мере один тип переводческих проблем – разрешение внутритекстовых связей – не находит решения на данном этапе развития машинного перевода. Ключевые слова: единица перевода, машинный перевод, единица анализа, единица обработки, TAP-протокол, сравнительный анализ, перевод по правилам, статистический машинный перевод, нейронный машинный перевод, гибридные системыAbstract: The article looks at the question whether the concept of translation unit might apply to the sphere of machine translation and whether the size of the unit influences the quality of translation. While modern machine translation systems offer an acceptable level of quality, a number of problems mainly related to the structural organization of the text remain unresolved, hence the question posed in the paper. The article offers a review of modern readings of the concept and pays special attention to the question whether the scope of the term changes depending on whether the object of research is the target text or the translation process. The paper also provides a quick look on the research methods for both text-oriented and process-oriented approaches, such as comparative analysis of language pairs and Think Aloud Protocol. Based on a review of existing machine translation models, each of them is analyzed to answer the question whether a unit of translation can be defined for a given system and what its size is. It is concluded that a unit of translation can be viewed as either a unit of analysis or a unit of processing with respect to text-oriented and process-oriented perspectives on to the study of translation. The unit of translation has a dynamic character and influences the quality of the target text. In machine translation, the unit of translation as a unit of analysis is not applicable for systems based on probabilistic non-linguistic methods. For rule-based machine translation systems, both readings of the unit of translation concept are applicable, but hardly go beyond a single sentence. Accordingly, at least one type of translation problem – intra-textual relations resolutions – remains largely unaddressed in the present state of affairs in machine translation. Keywords: translation unit, machine translation, unit of analysis, unit of processing, Think-Aloud-Protocol, comparative analysis, Rule-Based Translation, Statistical Machine Translation, Neural Machine Translation, hybrid systemsСложно отрицать, что в переводческой деятельности растущее место занимает машинный перевод. Эта технология изменила глобальную коммуникацию, способствуя установлению связей, сотрудничеству и взаимопониманию во всем мире. Сегодня системы машинного перевода демонстрируют достаточно высокий уровень качества, особенно в рамках информативного перевода для широко распространенных языков. Одновременно с этим, ряд проблем остаются нерешенными. Машинный перевод по-прежнему сталкивается с проблемами при работе с контекстом, внутритекстовыми связями, идиоматическими выражениями и терминологией предметных областей. В рамках рассмотрения двух первых проблем, данная работа исследует применимость теоретической концепции единица перевода к машинному переводу в свете современных взглядов на это понятие, а также влияние размеров вычленяемой единицы на уровень качества перевода. Существует множество подходов к определению единицы перевода. В отечественном переводоведении этому вопросу посвящены работы В.Н. Комиссарова, Л.С. Бархударова, И.И. Ревзина, В.Ю. Розенцвейга, Ю.Н. Марчука, Я.И. Рецкера, И.С. Алексеевой и др. Термин был предложен Ж. Вине и Ж. Дарбельне для обозначения фрагмента текста, рассматриваемого как единая когнитивная единица для установления эквивалентности. Л.С. Бархударов рассматривает единицу перевода как наименьший отрезок исходного текста, имеющий эквивалент в тексте перевода, при этом в качестве единиц перевода могут выступать любые языковые единицы – от мельчайших структурных элементов языковой системы до уровня целых текстов [2, с.3]. M. Шаттлворт и М. Кови [12, с.192] определяют единицу перевода как термин, используемый для обозначения уровня языка (фонемный; морфемный, лексический, синтаксический), на котором исходный текст перекодируется в язык перевода. Комментируя определение Бархударова, Шаттлворт и Кови, отмечают, что размер и лингвистический тип единицы перевода определяется конкретной переводческой задачей, при этом они могут меняться по ходу текста или даже одного предложения [ibid]. По мнению В. Коллера [8, с. 100], размер единиц перевода, может определяться степенью структурной близости между исходным и переводящим языком. Исследователь считает вполне вероятным, что перевод между неродственными языками будет включать в себя более крупные единицы, чем перевод между близкородственными языками. И.С. Алексеева предлагает четыре способа определения единиц перевода [1, с.149]. В рамках исследования перевода как процесса, единицей перевода считается «минимальный отрезок текста, который выступает в качестве самостоятельного объекта процесса перевода. Чаще всего в этой роли выступает предложение. Второй подход ориентирован на текст перевода, и «за единицу перевода принимается минимальный набор лексем или граммем ИЯ, который можно поставить в соответствие с грамматической категорией ПЯ» [1, с.149]. Третий подход основан на анализе плана содержания, то есть содержание текста членится на элементарные смыслы, рассматриваемые как единицы перевода. Наконец, четвертый способ вычленения единицы перевода использует принцип семантического единства. «Единицей перевода здесь считается минимальная языковая единица текста оригинала, воспринимаемая как единое целое с точки зрения семантики» [ibid]. При этом единица перевода может обладать сложной структурой, однако ее отдельные части непереводимы. Остановимся подробнее на двух первых подходах. Как следует из их определения, они основаны на двух разных представлениях о том, что такое перевод: текст на ПЯ или деятельность по созданию текста на ПЯ. Исследования перевода как конечного текста затрагивают такие темы как особенности переводных текстов и отношения между исходным и переводным текстами, а исследования перевода как процесса посвящены собственно переводческой деятельности, включая когнитивные процессы, лежащие в основе создания перевода. Соответственно, эти два подхода опираются на совершенно разные методы исследования. Исследования, ориентированные на текст перевода, по большей части используют сравнительный анализ языковых пар, определенных при помощи языковых корпусов или соответствующих поисковых инструментов. Методы исследований процесса перевода, в свою очередь, связаны с методами когнитивных наук, в частности психолингвистики. При этом следует отметить, что исследования, ориентированные на конечный текст и процесс перевода, строго не разграничены. Одни исследователи анализируют конечный текст перевода, уделяя внимание шагам, ведущим от исходного текста к тексту перевода, а другие описывают процесс в некоторой степени в терминах соотношения между оригиналом и переводом [14]. Некоторые зарубежные теоретики перевода считают, что в зависимости от того, является ли объектом исследования конечный текст или процесс перевода, понятие единица перевода фактически меняет свое содержание. В рамках подходов, ориентированных на конечный текст, единица перевода может пониматься как единица анализа, тогда как в исследованиях, ориентированных на процесс, она в первую очередь означает единицу обработки [15, с.254]. В рамках подходов, ориентированных на текст перевода, основными предметами исследования являются характерные особенности переводных текстов, такие как отношения между исходным и переводным текстами, а также сопоставление различных переводов одних и тех же оригиналов, как на один, так и на несколько языков. Общим для таких исследований является то, что исследователи рассматривают текст перевода в сравнении с исходным, то есть объекты, которые существовали до начала наблюдения. В процесс-ориентированных исследованиях перевода объектом изучения является деятельность переводчика. A. Хуртадо Альбир и Ф. Алвес утверждают, что «единица перевода должна рассматриваться и как единица понимания, и как единица обработки, то есть как динамический сегмент исходного текста, не зависящий от конкретного размера или формы, на который в данный момент направлено внимание переводчика...» [5, с.238]. Таким образом, если понимание переводчиком исходного текста можно рассматривать как своего рода анализ, то из этого следует, что аспект анализа присутствует и в таком представлении о единице перевода. Однако более важным аспектом является динамический характер единицы обработки, то есть ее способность менять длину и лингвистический тип в процессе работы переводчика. Исследования перевода как процесса не выявили существования строго определенной последовательности шагов, выполняемых в любом акте перевода. Наблюдения с использованием TAP-протокола (Think-Aloud-Protocol), в рамках которого испытуемых просят проговаривать вслух под аудио- или видеозапись все, что приходит в голову во время выполнения задания по переводу, показали, что на процесс перевода влияет множество факторов, определяемых квалификацией переводчика, ситуацией перевода, типом переводческой задачи, и т.д. Соответственно можно ожидать, что единица перевода или единица обработки также может существенно разниться в ходе выполнения перевода. Так, например, отдельные исследования показывают, что единицей перевода, используемой начинающими переводчиками, как правило, является отдельное слово, а опытные переводчики склонны выделять и переводить единицы смысла, реализуемые во фразах, предикативных оборотах или предложениях [9]. Исследования единицы перевода в контексте процесса перевода позволяют сделать несколько важных выводов. Во-первых, поскольку единица обработки имеет динамический характер и в значительной степени зависит от переводческой задачи и ситуации, трудно дать этому понятию общее определение. Во-вторых, по результату акта перевода невозможно определить, какие именно единицы были использованы в процессе перевода. В-третьих, качество конечного текста показывает, выбрал ли переводчик единицы такого размера, который необходим для создания переводного текста надлежащего качества. Если размер единиц обработки недостаточен, переводчик может оказаться не в состоянии выбрать оптимальные выражения для выходного текста [11, с.358)]. Как отмечает К. Мальмкьер [10, с.286] «…целевые тексты, в которых единицы [анализа] крупнее, выглядят более приемлемыми, чем те, в которых единицы меньше». Далее исследователь приходит к выводу, что основной единицей перевода является предикация. Концепция единицы перевода может пролить свет и на некоторые проблемы в области машинного перевода. Машинный перевод (МТ) – это способ обработки текста на ИЯ с целью получения текста на ПЯ помощью вычислительных методов. Машинный перевод является междисциплинарной областью, и к решению этой задачи подходили с различных точек зрения, включая лингвистику и статистику. Системы машинного перевода принято подразделять на перевод, основанный на правилах (RBMT), и статистический перевод (SMT). В последние годы активное развитие получил новый подход – нейронный машинный перевод (NMT). SMT и NMT можно охарактеризовать как нелингвистические методы, в отличие от лингвистического подхода RBMT [3]. В рамках лингвистического подхода RBMT понятие единица перевода применяется в качестве аналитической концепции. В процессе создания переводного текста единица перевода становится единицей обработки для алгоритма, используемого системой. Таким образом, в рамках лингвистического машинного перевода единицы перевода являются как единицами анализа, так и единицами обработки [7]. В исторической перспективе типы единиц перевода, применяемые в машинном переводе на основе правил, несколько различаются. Системы первого поколения работали с единицами перевода на уровне слов. Эти системы использовали стратегии прямого перевода, то есть отображения слов исходного текста непосредственно на слова языке перевода. Входной текст преобразовывался в выходной при помощи последовательной замены слов на ИЯ на их эквиваленты в языке перевода в соответствии с основными правилами грамматики, определяющими порядок слов, временные формы глаголов, согласование субъекта и предиката и т.д. Структурный анализ входного текста был минимален [13], анализ контекста и смысла полностью отсутствовал. Системы прямого перевода являлись реализацией двуязычных словарей с определенными правилами синтаксической перестройки для учета структурных различий между исходным и целевым языком и не проводили различий между анализом (обработкой исходного текста) и синтезом (созданием переводного текста). Системы прямого перевода не могли обеспечить высокое качество перевода и были модифицированы в более продвинутые системы, основанные на трансфере – этапе межъязыковых операций, заключавшемся в построении промежуточного синтаксического представления, адаптированного к структуре предложения на языке перевода. В отличие от стратегии прямого перевода, архитектура CAT-систем, основанных на трансфере, включает отдельные процедуры анализа и синтеза, обслуживаемые отдельными алгоритмами. Дальнейшее развитие подобных систем привело к появлению машинного перевода, основанного на глубоком лингвистическом анализе исходного текста на всех лингвистических уровнях (морфологическом, синтаксическом, семантическом, прагматическом) и столь же многоуровневой генерации целевого текста. Этот принцип был воплощен в системах машинного перевода, основанных на интерлингве – абстрактном представлении исходного текста, не зависящем от грамматики данной пары языков. Общей чертой косвенных подходов является, что первым шагом в процедуре перевода является этап анализа, на котором создается формальное, специфическое для данной системы представление синтаксической структуры исходного выражения, то есть основной единицей перевода обычно является предложение как основная единица синтаксиса, которую можно рассматривать как максимальную область грамматического анализа. С другой стороны, работающая на уровне предложений система может выдавать неудовлетворительный перевод, если входные данные не распознаются как синтаксически полное предложение исходного языка. Неудача может быть связана либо с тем, что исходное предложение содержит грамматическую структуру, которая не описана соответствующим правилом в системе, либо с тем, что входные данные не являются полным предложением. Однако среди систем, основанных на правилах, существуют и такие, которые обрабатывают единицы на уровне предикаций, в случае если система не может проанализировать входное предложение полностью, но способна распознать его части как независимые синтаксические единицы. Если в RBMT системах перевод осуществляется на основе информации об исходном и переводящем языках и их взаимосвязях, то в статистических системах машинного перевода (SMT) перевод основывается на статистической (вероятностной) информации о повторяющихся паттернах в больших корпусах параллельных текстов. Корпус текстов используется для обучения системы и является источником данных для расчета вероятности, на основе которой и создаются переводы. Перевод производится на основе информации о переводческих соответствиях между последовательностями слов, N-граммами, в двуязычном корпусе. N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. В разных системах максимальное значение N может варьироваться [4]. Необходимо отметить, что для систем SMT N-грамм нельзя считать единицей перевода в буквальном смысле, поскольку в теории перевода единица перевода является в первую очередь лингвистическим понятием, а методы SMT системы работают без использования лингвистической информации об исходном и переводящем языках, поэтому их относят к нелингвистическим методам машинного перевода. Однако, хотя N-грамм не может считаться единицей анализа в теоретико-переводческом смысле, ее можно рассматривать как единицу обработки, определяемую алгоритмом, реализованным в конкретной SMT системе [15, с 254]. Вероятностные методы используются и в системах нейронного машинного перевода (NMT) на основе технологии нейронных сетей, в которой вычислительные системы моделируются по образу и подобию биологических нейронных сетей. Модели NMT обучаются не на N-граммах, а на представлениях законченного предложения на ИЯ и ПЯ. Слова и в этом случае остаются важными единицами в исходном и переводном текстах, но «связи между и целевыми словами, фразами и предложениями исходного текста и текста перевода устанавливаются только неявно, как отображения между их непрерывными представлениями» [6, с.1701]. Тот факт, что ни один из методов в одиночку не позволяет достичь удовлетворительного уровня точности, обусловил появление гибридных систем машинного перевода, основанных на использовании разных подходов к машинному переводу в рамках одной системы, например, комбинации RBMT и SMT. Один из методов предполагает использование RBMT для создания перевода, а затем тонкую настройку результата с помощью SMT. В другом методе этот процесс идет в обратном направлении: статистический перевод используется для анализа текста, а перевод по правилам для корректировки окончательного перевода. Таким образом можно отметить, что и нейронные, и гибридные системы машинного перевода используют вероятностные (нелингвистические) методы, а значит такое теоретико-переводческое понятие как «единица перевода» в системах нейронного и гибридного машинного перевода не представляется релевантным. Выводы: Можно выделить два различных подхода к теоретико-переводческому понятию единица перевода, что обусловлено фундаментальными различиями между текст-ориентированным и процесс-ориентированным подходами к исследованию перевода. В рамках текст-ориентированных исследований, единицу перевода можно трактовать как единицу анализа, а в рамках процесс-ориентированных исследований как единицу обработки, когнитивную единица, на которой фокусируется внимание переводчика. С точки зрения машинного перевода понятие единица перевода малоприменимо для статистических методов, а тем более для нейронного машинного перевода. Однако к системам машинного перевода, основанного на правилах, применимы оба прочтения понятия единица перевода. В таких системах понятие единица анализа относится к типам фрагментов исходного текста, которые могут быть идентифицированы системой, а единица обработки – к тому, как алгоритм перевода воздействует на проанализированный исходный текст для создания текста перевода. Качество перевода напрямую зависит от размера отрезка исходного текста, выбранного в качестве единицы перевода: чем крупнее отрезок, тем выше качество. Как следует из сказанного выше, в рамках машинного перевода единицы перевода имеют тенденцию к укрупнению, но не выходят за пределы отдельного предложения, или же неприменимы в пределах вероятностных нелингвистических методов. Соответственно, по крайней мере один тип переводческих проблем – разрешение внутритекстовых связей – не находит решения на данном этапе развития машинного перевода. Библиография
1. Алексеева И.С. Введение в переводоведение. СПб: Академия, 2004, 334 с.
2. Бархударов Л. С. Уровни языковой иерархии и перевод // Тетради переводчика. Вып. 6. 1969. С. 3-12. 3. Бутусова А.С., Бец Ю.В. Машинный и автоматизированный перевод: учебное пособие. Ростов-на-Дону, Таганрог: Издательство Южного федерального университета, 2021. 106 c. 4. Гудков В.Ю., Гудкова Е.Ф. N-граммы в лингвистике // Вестник Челябинского государственного университета. 2011. № 24 (239). Филология. Искусствоведение. Вып. 57. С. 69–71. 5. Hurtado Albir, A., Alves F. (2009) Translation as a cognitive activity. In Munday J. (ed), The Routledge Companion to Translation Studies (54-73). London: Routledge. 6. Hutchins, W.J, Somers, L.H (1992). An Introduction to Machine Translation. London: Academic Press. 7. Kalchbrenner, N., Blunsom Ph. (2013) Recurrent continuous translation models. In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP) (1700–1709). Association for Computational Linguistics. 8. Koller, W. (1992). Einführung in die Übersetzungswissenschaft. Heidelberg: Quelle& Meyer. 9. Lörscher, W. (1991). Translation Performance, Translation Process and Translation Strategies: A Psycholinguistic Investigation. Tübingen: Günter Narr. 10. Malmkjær, K. (1998). Unit of translation. In Baker M (ed), Routledge Encyclopedia of Translation Studies (286–287). London, New York: Routledge. 11. Sorvali, I. (2004). The problem of the unit of translation // in Kittel H., Frank A.P., Greiner N., Hermans T., Koller W., Lambert J., Paul F. (eds), Übersetzung – Translation – Traduction. An International Encyclopedia of Translation Studies. Vol. 1 (354-362). Berlin, New York: Walter de Gruyter. 12. Shuttleworth, M., Cowie, M. (1997). Dictionary of Translation Studies. Manchester, UK, USA: St. Jerome Publishing. 13. Peng, L. (2013). A Survey of Machine Translation Methods. TELKOMNIKA Indonesian Journal of Electrical Engineering Vol. 11 (12). 7125-7130. doi:10.11591/telkomnika.v11i12.2780 14. Thunes, M. (2011). Complexity in Translation. An English-Norwegian Study of Two Text Types. PhD thesis. University of Bergen. Retrieved from https://bora.uib.no/bora-xmlui/handle/1956/5179 15. Thunes, M (2017). The concept of ‘translation unit’ revisited. Bergen Language and Linguistics Studies, №8 (1). 241-259. doi: 10.15845/bells.v8i1.133 References
1. Alekseeva, I.S. (2004). Введение в переводоведение [Introduction to Translation Studies]. SPb: Akademia.
2. Barkhudarov, L.S. (1969). Уровни языковой иерархии и перевод [Levels of language hierarchy and translation]. In Tetradi perevodchika [Translator’s notebook], 6, 4-12. 3. Butusova, A.S., & Bets, Y.V. (2021). Машинный и автоматизированный перевод: учебное пособие [Machine and automated translation: Manual]. Rostov-on-Don, Taganrog: SFU Publishers. 4. Gudkov, V.Y., Gudkova, E.F. (2011). N-граммы в лингвистике [N-gram in linguistics]. In Bulletin of Chelyabinsk State University, 24(239). Philology. Art History, 57, 69-71. 5. Hurtado Albir, A., Alves F. (2009) Translation as a cognitive activity. In Munday J. (ed), The Routledge Companion to Translation Studies (54-73). London: Routledge 6. Hutchins, W.J, & Somers, L.H (1992). An Introduction to Machine Translation. London: Academic Press. 7. Kalchbrenner, N., Blunsom Ph. (2013) Recurrent continuous translation models. In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP) (1700–1709). Association for Computational Linguistics. 8. Koller, W. (1992). Einführung in die Übersetzungswissenschaft. Heidelberg: Quelle& Meyer. 9. Lörscher, W. (1991). Translation Performance, Translation Process and Translation Strategies: A Psycholinguistic Investigation. Tübingen: Günter Narr. 10. Malmkjær, K. (1998). Unit of translation. In Baker M (ed), Routledge Encyclopedia of Translation Studies (286–287). London, New York: Routledge. 11. Sorvali, I. (2004). The problem of the unit of translation. In Kittel H., Frank A.P., Greiner N., Hermans T., Koller W., Lambert J., Paul F. (eds), Übersetzung – Translation – Traduction. An International Encyclopedia of Translation Studies, 1(354-362). Berlin, New York: Walter de Gruyter. 12. Shuttleworth, M., Cowie, M. (1997). Dictionary of Translation Studies. Manchester, UK, USA: St. Jerome Publishing. 13. Peng, L. (2013). A Survey of Machine Translation Methods. TELKOMNIKA Indonesian Journal of Electrical Engineering, 11(12), 7125-7130. doi:10.11591/telkomnika.v11i12.2780 14. Thunes, M. (2011). Complexity in Translation. An English-Norwegian Study of Two Text Types. PhD thesis. University of Bergen. Retrieved from https://bora.uib.no/bora-xmlui/handle/1956/5179 15. Thunes, M (2017). The concept of ‘translation unit’ revisited. Bergen Language and Linguistics Studies, 8(1), 241-259. doi:10.15845/bells.v8i1.133
Результаты процедуры рецензирования статьи
В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
|