TAUS в Копенгагене — что вам нужно знать

Многие компании хотят внедрить MT, но сталкиваются с, казалось бы, непреодолимым набором препятствий, когда сталкиваются с затратами на лицензирование MT, зная, какие механизмы доступны, понимая простоту настройки и выясняя, как измерить ROI. Недавний исполнительный форум TAUS в Копенгагене помог пролить свет на этот прорыв.

Содействие машинному переводу Яап ван дер Меер открыл краткое изложение концепции TAUS по устранению препятствий, чтобы помочь миру лучше общаться с рождением двигателей 1000 MT.

Разделив инвестиции, Ахим Руопп из Digital Silk Road призвал переводческую отрасль принять меры, чтобы извлечь уроки из многих успешных инициатив с открытым исходным кодом в других отраслях. Организуйте и внесите свой вклад в Инициативу Моисея по статистическому машинному переводу (SMT), заполнив пробелы, оставленные академическим исследовательским сообществом. Moses — безусловно, наиболее широко используемый движок машинного перевода с открытым исходным кодом. Этот финансируемый государством проект обеспечивает хорошо поддерживаемую, стабильную, современную SMT по лицензии LGPL. Все больше и больше вариантов использования подтверждают его жизнеспособность в качестве коммерческого движка. Значит, вам не нужны эти дорогие лицензии? Однако некоторые функции, необходимые для коммерческого использования, по-прежнему отсутствуют в бесплатном наборе инструментов. Относительно небольшие усилия помогут обеспечить гораздо более широкое применение. На приведенном ниже рисунке показаны уязвимости.

Где смотреть? Хорошо известно, что ни одно решение MT не подходит для всех сценариев. Двигатели, которые специализируются на языковых парах и адаптированы к конкретным областям, как правило, блестят. Но какая волшебная палочка мне подходит? Как узнать, какой вариант МП подходит?

Две связанные инициативы TAUS направлены на решение этих проблем. Первый, TAUS Tracker, каталог MT Engine с подробным обзором систем, будет доступен на этой странице в ближайшие несколько недель, что поможет покупателям составить короткий список потенциальных поставщиков.

В Копенгагене были представлены результаты пилотного проекта по подтверждению осуществимости второго, MT Trainer & Evaluator. Янь Юй представил обзор успешной учебной программы TAUS Data Association (TDA) MT по автоматизации рабочего процесса для настройки MT с использованием данных клиентов и данных TDA.

Adobe, eBay и McAfee — три потенциальных покупателя, которым нужны обученные механизмы и метрики для измерения качества продукции. Languagelens, Pangea MT и Tilde разработали индивидуальные двигатели MT за 24 часа или меньше, из которых качество продукции (включая пилот) было измерено с помощью результатов BLEU. Пилотная программа помогает приблизить отрасль на один шаг к созданию рынка, который объединяет покупателей и поставщиков, с дополнительным преимуществом объективной отчетности для обеспечения эталонного качества.

Гигант просыпается Спирос Пилос объяснил дорожную карту Европейской комиссии для MT, которая направлена ​​на реализацию наилучшего подхода к огромному спросу на многоязычный контент в ЕС. Мы узнали, что каждый гражданин ЕС платит 2 евро в год за перевод и что для того, чтобы сделать europa.eu полностью многоязычным, требуется 8 500 штатных переводчиков в год.

Существующие двигатели ЕС, основанные на правилах, были срочно усовершенствованы с 1970-х по 2006 год, но их разработка идет медленно и дорого по сравнению с решениями, управляемыми данными. В ближайшие месяцы ЕК проведет гигантское сравнительное исследование, чтобы систематически оценивать механизмы машинного перевода по языковому диапазону и типу использования, принимая во внимание качество продукции, общую стоимость владения и осуществимость.

Что измерить Качество продукции MT можно измерить с помощью человеческих или автоматизированных показателей. Оценка человеком дорог и требует много времени, но она полезна для проверки адекватности и беглости речи вплоть до уровня предложения. Автоматические метрики быстрее, дешевле и более масштабируемы, но не интуитивно понятны и не детализированы. Алон Лави из Университета Карнеги-Меллона и Safaba завершили сессию компиляцией проблем, связанных с разработкой более эффективных показателей для измерения качества продукции машинного перевода. На приведенном ниже рисунке показаны уязвимости.

Разблокирование языковых ресурсов Два года назад TAUS осветил тогда еще закрытую отрасль с проприетарными технологиями в Белой книге о бизнес-инновациях для локализации. Ключевые заинтересованные стороны отреагировали с энтузиазмом, безвозвратно изменив ландшафт отрасли. Открытые стандарты и открытость для общения — обычная практика в наши дни. Успех Moses и GlobalSight Initiative доказывает, что открытый исходный код является жизнеспособной бизнес-стратегией. С точки зрения TAUS, программа теперь переходит от открытых платформ перевода к раскрытию потенциала общих языковых ресурсов. Языковые данные в основном переместились с настольного компьютера на корпоративный сервер и теперь перемещаются в облако.

Megatrends Паула Шеннон обрисовала мегатенденции повсеместности и оперативности, которые лежат в основе создания Lionbridge Translator Workspace и сотрудничества с IBM. Модель вычислений «программное обеспечение как облако» и возможность создавать собственные механизмы машинного перевода с использованием технологий IBM — это два столпа поддержки мегатенденций. Завершение интеграции с супероблаком TAUS Data Association намечено на конец июля.

Стандарты, совместное использование и развитие Во время прошлогоднего форума руководителей TAUS в Эдинбурге воображение участников вызвало то, что Lingotek привнесла динамику социальных сетей в переводческий бизнес. Их платформа также позволяет пользователям обмениваться переводами для повторного использования в государственных или частных (с ограниченным доступом) хранилищах. Во время этого мероприятия Виллем Стуллер глубоко вздохнул, прежде чем обменяться новыми партнерскими отношениями и интеграциями с платформой совместного перевода Lingotek. В настоящий момент список включает SharePoint, Drupal, Alfresco, Social CRM (Jive, Lithium), Google, PROMT, Microsoft Bing и Moses в сотрудничестве с Pangea MT. Джереми Харпхам рассказал о способах использования SDL, установлении стандартов и подключении через API. Дэвид Филип из Моравии объяснил, что метаданные важны для создания онтологии, чтобы получить максимальную отдачу от общих лингвистических данных после их миграции в облако.

Сопоставление в супероблаке. Так много переводов перешли от дизайна к моделированию и теперь переходят в режим, близкий к реальному или в реальном времени. Качество связи в цепочке поставок и простота сотрудничества становятся важными элементами эффективной работы любой переводческой экосистемы. Смит Йевелл рассказал о GlobalSight Editions, планируемой версии этой системы с открытым исходным кодом, которая призвана удовлетворить эти требования. Объясняя бизнес-мотивацию спонсирования разработки сопоставления переводов в супероблаке TDA, Смит сосредоточил внимание на потенциале дальнейшего повышения производительности за счет поиска эквивалентов в супероблаке, когда «золотая» память переводов не работает. Ожидается, что супероблачное сопоставление TAUS Data Association будет запущено в октябре.

То, что лингвистическая проблема Серхио Пелино позволила решить лингвистическую «проблему», можно легко понять, прочитав лекцию о подходе Google под названием «Перевод как инструмент, делающий мировую информацию широко доступной и полезной. Перевод и совместная работа в облаке ». Крупнейший в мире пользователь лингвистических данных также, возможно, самый сексуальный новатор в области автоматизации перевода. Благодаря быстрому добавлению языков в механизм машинного перевода, интеграции машинного перевода в пакет приложений, мгновенному поиску и переводу в Интернете, сочетанию оптического распознавания символов и машинного перевода и прерыванию вашей работы с помощью Translator Toolkit.

Конвергенция Благодаря более качественному и доступному машинному переводу и открытым платформам мы начинаем видеть конвергенцию с другими функциями и возможностями развития. Глобальное обслуживание клиентов — это именно та возможность, которую TAUS определил и выделил Консорциум по инновациям в сфере услуг (CSI). Грег Окстон из CSI резюмировал эволюцию функций поддержки, от центров обработки вызовов до сегодняшней поддержки, ориентированной на знания, а также растущий спрос на многоязычную поддержку мультимедиа.

Недавно отобранный 21 крупный ИТ-переводчик представил свои планы по переводу вспомогательного контента. Семьдесят два процента планируют увеличить количество переведенного контента. График ниже иллюстрирует их предпочтительный подход.

Дэниел Грасмик объяснил постепенное развитие MT SAP при использовании службы поддержки клиентов с Lucy и ее предыдущими воплощениями. Последняя установка на основе правил существует с 2004 года и до сих пор работает хорошо благодаря постоянным инвестициям.

Фред Дойл представил многоязычный мультимедийный пример использования IBM с использованием решений Knowledge Accelerators. Библиотека справки IBM переведена на 11 языков и включает 200 000 одноминутных руководств по конкретным задачам, которые пользователи могут просматривать, слушать и читать. Мультимедиа на нескольких языках используется для поддержки продаж, обучения внедрению, принятия конечным пользователем, а также для настройки и настройки. В результате сокращается время внедрения благодаря улучшенным процессам обучения и снижению затрат на поддержку. В заключение Фред задал два вопроса — готовы ли ваши средства перевода мультимедиа? Почему бы не заменить традиционный файл справки? График ниже помогает проиллюстрировать тенденцию использования видео в Интернете.

Опыт членов TAUS Data Association Яап начал заседание с презентации плана развития TAUS Data Association (TDA).

Представители Adobe, Intel, KCSL, Logrus и Microsoft объяснили свои мотивы в качестве участников, свой прошлый опыт работы с данными TDA и свои цели на будущее. Для всех членов комиссии первоначальной мотивацией был поиск высококачественных данных, чтобы получить более высокие баллы MT. Adobe и Intel испытали счастливое совпадение и рентабельность инвестиций с самим TAUS Search.

Покупатели в конечном итоге хотят продавать больше продуктов, и масштабируемая операция перевода через MT делает это возможным, особенно когда основные развивающиеся рынки расположены в регионах, где не говорят по-английски.

Значительное улучшение в Microsoft MT Engine хорошо задокументировано. Дополнительные преимущества были достигнуты с языками уровня 2, для которых у самой Microsoft нет достаточных данных. Adobe выразила ту же мотивацию, добавив, что надежный источник данных помогает снизить сложность.

Microsoft также начала рассматривать возможность использования данных TDA. Тестирование Intel расширенного использования TDA и собственных данных привело к лучшему качеству перевода, но не к повышению производительности. Данные TDA используются Intel для обучения двигателей Moses в целях сравнения.

Весьма положительный опыт KCSL также хорошо задокументирован. Данные TDA помогли предоставить Логрусу достаточно данных для обучения его движка Moses с английского на русский. Разнообразие данных оказалось преимуществом для Microsoft, но Логрус сказал, что это отрицательно сказывается на качестве.

План развития TDA основан на отзывах участников и включает такие функции, как статистическая очистка TM для отметки плохих переводов и сопоставление результатов, которые помогают выбирать данные на более детальном уровне и лучше управлять терминологическим разнообразием. Подробные отзывы участников, например, от Логруса, используются для обеспечения разработки новых функций, отвечающих меняющимся потребностям отрасли.

Вчера днем ​​участники сообщили о групповых обсуждениях, состоявшихся во время мероприятия, подчеркнув, что они считают ключевыми тенденциями и последствиями для языкового бизнеса.

Участники проанализировали пятилетний горизонт для сценариев, охватывающих юридические / политические вопросы, требования клиентов, процесс локализации, бизнес-показатели, процесс локализации и экономические вопросы. Этот анализ помогает завершить первый шаг в шестиэтапном процессе с использованием подхода к планированию на основе сценариев для оценки возможных будущих состояний языкового бизнеса.

Поделиться ссылкой:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Похожие записи

Интеграция и настройка Microsoft CRM: шлюз документов SharePointИнтеграция и настройка Microsoft CRM: шлюз документов SharePoint

MS CRM очень похожа на автоматизацию документооборота, включая документы Microsoft Office: слова, Excel и т. Д. Документооборот был полностью автоматизирован около 10 лет назад в Lotus Notes Domino. В этой

Управление изменениями при внедрении ERP: ввод в эксплуатациюУправление изменениями при внедрении ERP: ввод в эксплуатацию

Теперь … момент, которого мы все ждали … играть на барабанах … Серьезно, пришло время истины. Правильно: файл Начало. Вернее, осталось несколько дней до того, как внедрение ERP будет запущено,