Google Translate ‘выучил’ 110 новых языков: среди них крымскотатарский и чеченский
Google Translate преодолевает языковые барьеры — помогает людям общаться и лучше понимать окружающий мир. Компания постоянно задействует новейшие технологии, чтобы больше пользователей могли применять этот инструмент, рассказывается в блоге Google.
В 2022 году Google Translate добавила 24 новых языка при помощи Zero-Shot Machine Translation. Это метод машинного перевода, при котором модель способна переводить текст с одного языка на другой не видя ни одного примера перевода между этими языками во время обучения. Такой подход отличается от традиционных методов машинного перевода, которые требуют больших объемов двуязычных текстов для обучения модели.
Помимо этого Google объявил об «Инициативе 1000 языков» — обязательстве создавать ИИ-модели, которые будут поддерживать 1000 самых распространенных языков мира.
Теперь Google Translate использует искусственный интеллект для расширения разнообразия поддерживаемых языков. Благодаря большой модели PaLM 2 компания запускает 110 новых языков в Google Translate. Эта модель представляет собой одно из самых передовых достижений в области ИИ и обработки естественного языка. PaLM 2 используется для различных задач, таких как машинный перевод, генерация, а также анализ текста и прочих.
По теме: Под колпаком у Google: как избавиться от слежки в интернете
Перевод для более чем полумиллиарда человек
От кантонского до кекчи — эти новые языки являются родными для более 614 миллионов человек, а это около 8% населения мира. Одни из них принадлежат к основным мировым языкам с более чем 100 миллионами носителей. Другие — используются небольшими сообществами коренных народов. А у некоторых языков почти не осталось носителей, но народности прилагают максимум усилий по их возрождению.
Около четверти новых языков происходят из Африки, включая фон, киконго, луо, га, свази, венда и волоф.
Вот некоторые из новых поддерживаемых языков в Google Translate:
- Афаджийский — тональный язык, на котором говорят в Джибути, Эритрее и Эфиопии. Из всех языков в новой ИИ-модели афаджийский получил наибольшее количество вкладов от сообщества волонтеров.
- Кантонский долгое время был одним из самых запрашиваемых языков для Google Translate. Поскольку этот язык часто пересекается с мандаринским письмом, обучить программу было довольно сложно.
- Мэнский — кельтский язык острова Мэн. Последний носитель языка умер в 1974 году. Но благодаря движению за возрождение мэнского языка на острове появились тысячи людей, говорящих на нем.
- Нко — стандартизированная форма западноафриканских мандингских языков, объединяющая многие диалекты в общий язык. Его уникальный алфавит был изобретен в 1949 году, и сегодня этот язык активно развивается и используется.
- Панджаби (шахмукхи) — разновидность панджаби, использующая персо-арабское письмо (шахмукхи). Это самый распространенный язык в Пакистане.
- Тамазигхт (амазигхт) — берберский язык, на котором говорят по всей Северной Африке. Несмотря на многочисленные диалекты, написанный текст понятен для всех носителей языка. Тамазихт использует как латинский алфавит, так и тифинагский. Оба поддерживаются Google Translate.
- Ток-писин — креольский язык на основе английского и лингва франка Папуа-Новой Гвинеи. Если вы говорите по-английски, попробуйте перевести фразу на ток-писин — возможно, вам удастся понять смысл!
Как Google Translate выбирает языки
Существует множество факторов, которые следует учитывать при добавлении новых языков в Translate. Они имеют огромное количество вариаций: региональные разновидности, диалекты, различные орфографические стандарты. На самом деле, у многих языков нет одного стандартного варианта, поэтому невозможно выбрать «правильный». Подход компании заключался в том, чтобы отдавать приоритет наиболее часто используемым разновидностям каждого языка. Например, романи, на котором говорят ромы в Европе, — это язык, имеющий множество диалектов. Разработанные модели создают текст, наиболее близкий к южному влашскому романи, который часто используется в интернете. Но он включает и элементы из других диалектов, таких как северный влашский и балканский романи.
Вам может быть интересно: главные новости Нью-Йорка, истории наших иммигрантов и полезные советы о жизни в Большом Яблоке — читайте все это на ForumDaily New York
Языковая модель PaLM 2 была ключевым элементом, который использовался для изучения языков, близких друг к другу. Например, авдхи и марвади — к хинди или креольские языки, такие как сейшельский креоль и маврикийский креоль — к французскому. По мере развития технологий и продолжения сотрудничества с экспертами-лингвистами и носителями языков компания намерена поддерживать еще больше языковых разновидностей и орфографических стандартов.
Со списком новых языков, используемых Google Translate, можно ознакомиться здесь.
Читайте также на ForumDaily:
Девять бесплатных приложений, которые изменят вашу жизнь к лучшему
Семь возможностей Gmail, о которых вы могли не знать
Как проходят собеседования в Amazon, Google и Meta: личный опыт айтишников из Беларуси
Подписывайтесь на ForumDaily в Google NewsХотите больше важных и интересных новостей о жизни в США и иммиграции в Америку? — Поддержите нас донатом! А еще подписывайтесь на нашу страницу в Facebook. Выбирайте опцию «Приоритет в показе» — и читайте нас первыми. Кроме того, не забудьте оформить подписку на наш канал в Telegram и в Instagram— там много интересного. И присоединяйтесь к тысячам читателей ForumDaily New York — там вас ждет масса интересной и позитивной информации о жизни в мегаполисе.