Компанія Google пропонує експериментальну нову систему, яка базується на єдиній уважній моделі послідовності для прямого перекладу мовлення в мову, не покладаючись на проміжні представлення тексту.

Про це йдеться у блозі розробників Google з питань штучного інтелекту.

Система Translatotron дозволяє уникнути поділу завдання на окремі етапи, забезпечуючи декілька переваг перед каскадними системами, включаючи більш швидку швидкість виводу, природно уникаючи укрупнення помилок між розпізнаванням і перекладом, краще поводження зі словами, які не потрібно перекладати, наприклад, імена та назви власних імен.

Як відомо, системи синхронного перекладу були розроблені за останні кілька десятиліть з метою допомогти людям, які говорять на різних мовах, спілкуватися один з одним. Такі системи, як правило, розбиваються на три окремі компоненти: автоматичне розпізнавання мови для транскрипції мови джерела як текст, машинний переклад для перекладу транскрибованого тексту в мову перекладу, а також синтез тексту в мову (TTS) для генерації мови-об’єкта з мови з перекладеного тексту. Розподіл завдання на такий каскад систем був дуже успішним, завдяки чому багато комерційних продуктів синхронного перекладу, включаючи Google Translate.

“Поява цілих моделей перекладу мовлення почалося в 2016 році, коли дослідники продемонстрували доцільність використання однієї моделі “послідовність-послідовність” для перекладу мовлення в текст. У 2017 році ми продемонстрували, що такі цілісні моделі можуть перевершити каскадні моделі, – говорять розробники Google Є Цзя (Ye Jia) та Рон Вайс (Ron Weiss). – Нещодавно було запропоновано багато підходів щодо подальшого вдосконалення моделей перекладу мовлення з тексту в текст, включаючи наші зусилля щодо використання слабо контрольованих даних. Translatotron йде на крок далі, демонструючи, що одна модель послідовності до послідовності може безпосередньо переводити мова з однієї мови в мову іншою мовою, не покладаючись на проміжне текстове представлення на будь-якій мові, як це потрібно в каскадних системах”.

Translatotron базується на мережі “послідовність-послідовність”, яка приймає джерело спектрограми в якості вхідних даних і генерує спектрограми перекладеного змісту в цільовій мові. Вона також використовує дві інші окремо навчені компоненти: нейронний вокодер, який перетворює вихідні спектрограми у форми хвилі часової області, і, необов’язково, кодер динаміка, який може бути використаний для підтримки характеру голосу джерела в синтезованому перекладеному мовленні. Під час тренування модель з послідовністю до послідовності використовує мультизадачу для прогнозування вихідних і цільових транскриптів одночасно з генеруванням цільових спектрограм. Проте під час виводу не використовуються жодні транскрипти або інші проміжні текстові зображення.

“Ми перевірили якість перекладу Translatotron, вимірявши оцінку BLEU, обчислену за текстом, транскрибуваним системою розпізнавання мови. Хоча наші результати відстають від звичайної каскадної системи, ми продемонстрували доцільність прямого синхронного перекладу”, – кажуть розробники.

У порівнянні з нижчезазначеними звуковими кліпами виводиться прямий переказ мови з мови з Translatotron до методу каскаду базової лінії. У цьому випадку обидві системи забезпечують відповідний переклад і говорять природно, використовуючи той же канонічний голос.

Включаючи мережу кодера дикторів, Translatotron також може зберегти вокальні характеристики оригінального мовця в перекладеному мовленні, що робить звук перекладу звуку більш природним і менш різким. Ця функція використовує попередні дослідження Google щодо перевірки мовця та адаптації динаміків для TTS. Енкодер мовця оптимізується на завдання перевірки мовця, навчаючись кодувати характеристики мовця з короткого прикладу висловлювання. Налаштовування спектрограмного декодера на цьому кодуванні дає можливість синтезувати мовлення з аналогічними характеристиками мовців, навіть якщо воно відбувається іншою мовою.

Аудіо кліпи нижче демонструють продуктивність Translatotron при передачі голосу оригінального диктора до перекладеної мови. У цьому прикладі Translatotron дає більш точний переклад, ніж модель каскаду базової лінії, в той же час зберігаючи вокальні характеристики вихідного мовця. Translatotron який зберігає голос оригінального мовця, навчається з меншою кількістю даних, ніж той, який використовує канонічний голос, так що вони дають дещо інші переклади.

“Наскільки нам відомо, Translatotron є першою з кінцевих моделей, які можуть безпосередньо перекладати мовлення з однієї мови на мовлення іншою мовою. Він також може зберігати голос джерела в перекладеному мовленні. Ми сподіваємося, що ця робота може слугувати відправною точкою для майбутніх досліджень систем синхронного перекладу”, – говорять інженери Google.

Нагадаємо, модифіковане оновлення Adobe вирішило серйозні проблеми безпеки у Flash, Acrobat та Reader, що може призвести до витоків інформації або довільного виконання коду. Технологічний гігант випустив набір рекомендацій, що детально описують вразливості, про які повідомляється та які виправлені в цьому місяці

Також компанія Apple планує запустити низку нових додатків, функцій та засобів розробки на своїй щорічній конференції з програмного забезпечення наступного місяця. Для поліпшення своїх пристроїв і зміцнення зв’язку з клієнтами, гігант комп’ютерних технологій продовжуватиме балансувати між залученням зовнішніх виробників додатків та одночасно конкурувати з ними.

Окрім цього, одним з найвідоміших та простих методів запобігання втрати важливих даних є резервне копіювання файлів або бекап. Даний процес забезпечує зберігання будь-якого важливого документа або інформації в окремому місці від оригіналу для уникнення втрати інформації.

Автор: Максим Побокін