Локализатор исходного кода: Результаты проверки локализации игры Don't Starve

Попробовать Try

«Локализатор исходного кода» предназначен для локализации программных продуктов путем изменения их исходных кодов без предварительной подготовки.
Программа может быть использована при разработке программного обеспечения на серверах сборки, для автоматической локализации исходного кода, но она может также применяться и на рабочих компьютерах пользователей для проверки орфографии в исходных кодах, текстовых файлах, буфере обмена и словарях переводов.
Специальная версия программы позволяет проводить обфускацию исходного кода.

пятница, 31 января 2014 г.

Результаты проверки локализации игры Don't Starve

Обычно в качестве исходных файлов для проверки возможностей программы локализации использую файлы локализации открытых программных продуктов, но в данном случае появилась возможность проверить локализацию коммерческого продукта, а именно, очень интересной игры "Don't Starve" (wikipedia).

Данная игра является коммерческим продуктом, размещенным в Steam.
Русификатор к данной игре представлен в виде отдельного мода "Russian Language Pack", который подключается к игре (см. рис. ниже).

Перевод игры производится на сайте Notabenoid (см. рис. ниже).

Автор мода (Some1) разрешил провести проверку локализации и опубликовать ее результаты.

В переводе используется буква "Ё", поэтому для проверки был использован модуль hunspell (см. справку программы) со словарями орфографии OpenOffice, в которых учитывается эта буква.

Файл локализации в формате PO (Gettext), судя по программе POEdit, имеет ошибки формата, а также использует кодировку Windows-1251 без указания на это. Присутствует ошибка дублирования msgid (см. "STRINGS.UI.SANDBOXMENU.TITLEDETAIL"), а также ряд замечаний по переводу генерируемых POEdit.
За исключением кодировки и оформления "шапки" файла формат в целом правильный, поэтому заменил кодировку на UTF8 и "бросил" файл на ярлык "Проверка PO-файла - для переводчика с автоматической проверкой орфографии (русский язык) (бросить файлы или каталоги)".

Сгенерированный отчет: скачать.

В переводе используется множество имен и придуманных названий животных("бифало"), которые отмечены ошибками, поэтому для постоянного использования проверки желательно внести эти слова в словарь исключений программы (см. справку), но для однократной проверки можно просто их проигнорировать.

Используются сокращения, транслитерация на русский язык ("летсплеи"), особенности написания ("ПЧЁ-Ё-Ё-Ё-Ё-ЛЫ"), узкоспециализированные термины ("стик"), описание звуков ("Ам-м-м", "Ам-ням-ням"), которые можно также добавить в словарь.

Есть явные ошибки:
басейн, джентельмен...

Следует учитывать контекст и дикцию персонажа, который возможно не выговаривает или коверкает некоторые буквы.
Явным является, например, "победю", а следующие слова уже на усмотрение локализатора:
chk: болше context: STRINGS.CHARACTERS.WOODIE.DESCRIBE.ROCK_LIGHT.LOW words: Нужно болше... дров?
chk: Надесь context: STRINGS.CHARACTERS.GENERIC.DESCRIBE.EYETURRET words: Надесь, эта шутка не будет палить в меня.
chk: коньшмар context: STRINGS.CHARACTERS.GENERIC.DESCRIBE.KNIGHT_NIGHTMARE words: Это коньшмар!

Множество ошибок в написании слов с буквой "Ё", порой очень странные:
chk: лёска context: STRINGS.CHARACTERS.GENERIC.DESCRIBE.FISHINGROD words: Крючок, лёска и палка!

Примеры ошибок с "Ё":
введете, ведет, веревки, вернется, еще, одежка,..

В нескольких случаях используются латинские буквы вместо кириллицы:
MНE (М и Е), ноcить (С)

Есть слова, которые не являются ошибками, но отсутствуют в словаре и во встроенном словаре программы, например, слова "зашибись", "навалял" и пр.

Примечание: При построении отчета используется также авторский словарь программы, в который я постоянно вношу популярные слова, которые отсутствуют в словарях OpenOffice и др.
Список слов и описание формата можно увидеть в файле "defaultdictionary.sld" (в каталоге программы).
Можно создать свой файл и подключить его, ознакомившись со справкой к программе.
Слова "зашибись", "навалял" и пр. решил в него не включать :) Но пользователи могут легко расширить словарь, в том числе через сам OpenOffice (см. справку: Исключение слов из списка ошибок (словарь исключений)).

Перевод отличается знаками восклицания/вопроса и пр., порой и сам текст имеет странный перевод:

Words (main): I cooked it myself!
Words (tran): Интересно, он тоже говорящий?
Orpho: отличаются вопросом в конце строки, отличаются знаком вопроса, отличаются знаком восклицания

Words (main): I could sneeze it over.
Words (tran): Да на неё стоит только чихнуть...
Orpho: отличаются точкой в конце строки

Наличие или отсутствие точек/пробелов в конце/начале предложения может привести к ошибкам оформления в случае, если строки должны быть объединены с другими
или являются заголовками.

Words (main): Is like paper
Words (tran): Как бумага.
Orpho: отличаются точкой в конце строки

Words (main): It could be used for fashion.
Words (tran): Можно использовать как украшение
Orpho: отличаются точкой в конце строки

Words (main): The following mods are out of date and have been disabled:
Words (tran): Следующие моды устарели и были отключены:
Orpho: отличаются пробелом в конце строки

В отчете отдельный раздел для указания фраз перевода, которые длинней оригинала и могут не поместиться в элемент интерфейса:

Words (main): Balloon
Words (tran): Воздушный шарик
Remark(tran):
compare length: длина <tran> больше чем <main>

Дополнительно провел проверку скриптов программы.
Программа локализации поддерживает синтаксис ряда популярных языков (Delphi/Lazarus, VisualBasic.NET, T-SQl,..) но скрипты написаны на языке "lua" (см. wikipedia), синтаксис которого на данный момент не поддерживается в виду его редкости, поэтому проверка проводилась без учета синтаксиса, как обычных текстовых файлов в кодировке 1251.
Выбрал файлы lua и каталог "scripts", затем "бросил" на ярлык "Автоматическая проверка орфографии любых файлов (ANSI, OpenOffice, русский язык) (бросить файлы или каталоги)".

Сгенерированный отчет: скачать.

Пример ошибок:
1) подлключения, зависить, изменени,..
2) различное написание слова "бэкап": "бекап, бекапа, бэкапы".

Рядом "ошибок" являются термины и видоизмененные сокращения ("разрабов", "допстроки").

UPDATE:
По просьбе автора локализации внес названия предметов и имена животных в список исключений:
1) http://www.notabenoid.com/book/45556/181139/ready (названия предметов)
2) http://www.notabenoid.com/book/45556/181155/ready (имена животных)

Убрал из отчета (только для этой игры) проверку длины перевода относительно оригинала.

Обновленный отчет: скачать.

UPDATE2:
Добавил изображения.

UPDATE3:
Сгенерировал отчет по po-файлу, как по обычному тексту (также как и по коду), что позволило указывать слова с привязкой к положению текста, а также использовать сортировку по алфавиту и отдельно по положению в файле.
Данный отчет сгенерирован на основе пожелания (см. комментарии) автора по привязке орфографии к положению в тексте, а также сортировки по положению в тексте и по алфавиту.
Минусом такого отчета является отсутствие возможности сравнить оригинальные и переведенные строки и пр. так как не учитывается формат po.
Обычно Po-файлы выступают как источники перевода для перевода кода/текста и для коррекции po-файлов используется специализированное ПО, но в данном случае согласен с автором перевода, что в ряде случаев необходимо работать с такими файлами как с текстом.
В дальнейшем добавлю возможность ссылок в po-файлы и вероятно сортировки для html.
В идеале необходимо использовать данную программу в составе сервера сборки (Hudson, Jenkins, ...), для которого отчеты представлены в junit формате и позволяют легко сворачивать/разворачивать/переключаться между разделами отчета, кроме того он содержит все разделы, а также позволяет отслеживать появление ошибок по ревизиям и на основе junit сервер сборки строит графики количества ошибок и замечаний.
При использовании автоматической сборки можно использовать построение графов в jpeg/pdf формате, для визуального отслеживания перевода и орфографии в коде.
И многое другое.

Обновленный отчет: скачать.

UPDATE4:
Провел перепроверку. Ошибки исправлены.
В ходе проверок и общения с автором получил ряд ценных замечаний и советов
по улучшению проверки орфографии, часть из которых уже реализовал,
а часть будет реализована в будущем.

Очень рад высокой оценке сотрудничества автором проекта.

P.S. Проверка выполнялась на разрабатываемой(debug) версии программы, обновленная релизовая версия с очень большим количеством изменений выйдет в течение недели.
Текущую разрабатываемую(debug) версию можно скачать:
sourcelocalizer.ru/files/setup/debug/sourcelocalizer-0.9.3debug-r898-win32-setup.zip

27 комментариев:

Some1else31 января 2014 г. в 11:03
Чудесно!
Конечно половина проблем на самом деле не проблемы (те-же несовпадения пунктуации в оригинале и переводе, и даже смысловые, которые в подавляющем большинстве допущены намерено). Есть действительно важные замечания. Сейчас буду разбираться.
ОтветитьУдалить
Ответы
Some1else31 января 2014 г. в 11:07
Подправьте пожалуйста ссылку на первый отчёт. Там на самом деле нет ссылки.
ОтветитьУдалить
Ответы
Some1else31 января 2014 г. в 11:12
Программа локализации поддерживает синтаксис ряда популярных языков (Delphi/Lazarus, VisualBasic.NET, T-SQl,..) но скрипты написаны на языке "lua" (см. wikipedia), синтаксис которого на данный момент не поддерживается в виду его редкости, поэтому проверка проводилась без учета синтаксиса, как обычных текстовых файлов в кодировке 1251.

наверное программа проверки? :)
ОтветитьУдалить
Ответы
Some1else31 января 2014 г. в 19:41
По- моему очевидно, что в данном случае не важно, соответствует ли длина перевода оригиналу. 2/3 если не 3/4 всего отчёта составляют заметки о том, что перевод длиннее оригинала :)
ОтветитьУдалить
Ответы

Добавить комментарий

Страницы

пятница, 31 января 2014 г.

Результаты проверки локализации игры Don't Starve

27 комментариев:

пятница, 31 января 2014 г.