Это похоже на объединение Гугл Переводчика с машиной времени.
Перевод – это не просто замена одного слова на соответствующее слово из другого языка. Качественный перевод требует от переводчика понимания того, как оба языка связывают мысли между собой, а затем использования этих знаний для создания перевода, сохраняющего лингвистические нюансы оригинала, который носители языка понимают без труда.
Как бы ни был труден этот процесс, он не идет ни в какое сравнение с задачей перевода с древнего языка на современный. Такие переводчики должны не только воскресить вымершие языки, основываясь лишь на письменных источниках, но и обладать глубокими познаниями о том, как на протяжении веков развивались культуры, создавшие эти источники. В добавок ко всему, многие источники часто фрагментарны, в результате чего важнейший контекст остается потерянным в тумане веков.
Поэтому число людей, способных переводить языки древности, невелико, и их усилия часто очень отстают от объемов текстов, найденных археологами.
Содержание
Возьмем, к примеру, древний аккадский язык. Этот ранний семитский язык – один из самых хорошо засвидетельствованных языков Древнего мира. Сотни тысяч, а по некоторым данным, более миллиона, аккадских текстов были обнаружены и сегодня хранятся в различных музеях и университетах. Многие из них даже оцифрованы в Интернете. Каждый из них способен рассказать нам о жизни, политике и верованиях первых цивилизаций, но эти знания остаются неизученными из-за нехватки времени и трудовых ресурсов, необходимых для их перевода.
Чтобы изменить ситуацию, междисциплинарная команда археологов и компьютерных ученых разработала искусственный интеллект, способный почти мгновенно переводить аккадский язык и открывать нам исторические записи, хранящиеся в этих табличках возрастом 5 000 лет.
Аккадский язык потерян (и найден)
Аккадский язык был родным языком Аккадской империи, возникшей около 2300 года до н.э. в результате завоеваний ее основателя Саргона Великого. Как разговорный язык, аккадский со временем разделился на ассирийский и вавилонский диалекты, а затем был полностью вытеснен арамейским языком в начале первого тысячелетия до нашей эры. Сегодня это действительно вымерший язык, не имеющий даже дочерних ответвлений, продолжающих его наследие.
Однако как письменный язык аккадский оказался более долговечным. Империя позаимствовала клинопись у своей предшественницы, шумерской цивилизации. Эта система письма использовала тростниковый стилус для нанесения клинообразных глифов на влажные глиняные таблички перед их обжигом. Даже после того, как арамейский язык вытеснил аккадский в качестве общего языка региона, ученые продолжали писать на аккадской клинописи до первого века нашей эры – похоже, даже в древности ученые и академики были невероятно упрямы.
Такой консерватизм древних ученых принес невероятную пользу современным археологам. Хотя клинопись могла быть нанесена на папирусе, чаще всего ее чертили на глине или камне. Эти материалы гораздо лучше переносят пожары и наводнения, которые легко уничтожали папирусные рукописи. И хотя время жестоко ко всем вещам – археологи редко обнаруживают клинописные таблички в идеальном состоянии – это одна из причин, почему аккадская письменность может быть так хорошо засвидетельствована в исторических записях.
“Как ни странно, разрушительные пожары сохранили некоторые из величайших библиотек древней Месопотамии – потому что они были сделаны из глины. Напротив, все папирусные библиотеки Древнего Египта сгорели или рассыпались в пыль, хотя многие отдельные кодексы уцелели”, – пишет лингвист Стивен Роджер Фишер в книге “История письменности”.
Даже при таких лингвистических богатствах правильный перевод этих древних библиотек – не малый подвиг. Помимо уже упомянутых трудностей, аккадский язык является поливалентным. То есть, его клинописные знаки могут иметь несколько различных прочтений в зависимости от того, как каждый из них функционирует в предложении. Существует много причин для такого развития событий, но, по словам Фишера, одна из причин, по которой аккадцы никогда не упрощали язык, заключалась в том, что они “были привязаны к традициям и самоограниченной эффективности”. Это традиционное мышление заставило их продолжать использовать шумерскую письменность для языка, очень отличающегося от шумерского.
Таким образом, перевод аккадского языка – это двухэтапный процесс. Во-первых, ученые должны транслитерировать клинописные знаки. То есть, они берут клинопись и переписывают ее, используя сходную по звучанию фонетику языка перевода. Примером, с которым знакомо большинство читателей, является арабское слово الله, которое переводится на английский как “Бог”, но транслитерируется как “Аллах”. Эта транслитерация наиболее близка к тому, чтобы современный алфавит мог передать слово так, как оно звучит на арабском языке. Затем ученые берут свою транслитерацию текста и переводят его на современный язык.
“Это еще один важный шаг на пути к сохранению и распространению культурного наследия древней Месопотамии”.
Быстродействующий искусственный интеллект для мгновенных результатов
Как вы можете себе представить, это является долгим и трудоемким процессом, требующим многолетнего обучения и самоотдачи. Чтобы ускорить процесс, исследовательская группа разработала нейронную модель машинного перевода для аккадской клинописи – ту же самую технологию, которая используется в Google Translate.
Команда обучила модель ИИ на образце клинописных текстов из Открытого богато аннотированного корпуса клинописи и научила ее переводить двумя различными способами. Во-первых, модель ИИ научилась переводить аккадский язык на основе транслитерации оригинальных текстов. Во-вторых, она также научилась переводить клинописные символы напрямую. Точнее, она перевела глифы клинописных текстов в Юникод, которые были созданы с помощью другого экономящего время инструмента, автоматически создающего Юникод на основе изображения оригинальной таблички.
Затем модель ИИ должна была определить, как справиться с нюансами различных жанров образца – например, различия между литературными произведениями и административными письмами, – а также как справиться с изменениями, произошедшими в клинописи за тысячелетия ее использования. Затем модель ИИ была протестирована с помощью двуязычного оценочного дублера 4 (BLEU4) – алгоритма, используемого для оценки текста, переведенного машинным способом.
В тесте на перевод с транслитерации на английский язык модель ИИ команды набрала 37,47 балла. В тесте на перевод с клинописи на английский язык она набрала 36,52 балла. Оба показателя были выше целевого базового уровня и соответствовали высококачественному переводу. При этом был получен удивительный результат: Модель смогла воспроизвести нюансы жанра каждого тестового предложения. Хотя это и не входило в цели ученых, они отметили, что это может открыть возможности для применения за пределами перевода.
“Почти в каждом случае, независимо от того, является ли перевод правильным или нет, жанр узнаваем”, – пишет команда. – “Перспективный будущий сценарий заключается в том, чтобы модель показывала пользователю список источников, на которых она основывала свои переводы, что также было бы особенно полезно для научных целей”.
Команда опубликовала свои результаты в рецензируемом издании PNAS Nexus. Они также опубликовали свои исследования и исходный код на GitHub в Akkademia.
Будущее прошлого выглядит более светлым
Какими бы многообещающими ни были первые результаты, предстоит еще много работы. В обоих случаях некоторые из тестовых предложений были переведены неправильно. Как и другие модели ИИ, эта модель склонна к “галлюцинациям” – моментам, когда полученный ответ не имеет никакой связи с источником. В одном случае человек-переводчик перевел предложение как: “Почему мы должны (также) вести судебный процесс перед человеком из Либби-Али?”. Перевод ИИ выглядел так: “Они находятся во Внутреннем городе во Внутреннем городе”. (Немного не так, не правда ли?)
В целом, модель ИИ лучше всего работает при переводе коротких и средних по длине предложений. Она также лучше справляется с более шаблонными жанрами, такими как королевские указы и административные отчеты, чем с литературными жанрами, такими как мифы, гимны и пророчества. Как отмечается в исследовании, с увеличением количества тренировок на большем наборе данных исследователи намерены повысить точность модели. Они надеются, что со временем их модель ИИ сможет выступать в качестве виртуального помощника для ученых. ИИ может быстро предоставить исходный перевод, а ученый сможет уточнить его, используя свои знания исторических языков, культур и людей.
“Сотни тысяч глиняных табличек, написанных клинописью, документируют политическую, социальную, экономическую и научную историю древней Месопотамии. Однако большинство этих документов остаются непереведенными и недоступными из-за их огромного количества и ограниченного числа экспертов, способных их прочитать”, – резюмирует команда.
Читайте также: Если искусственный интеллект связан с риском нашего вымирания, то необходимо уточнить, как это может произойти