«Локализатор исходного кода» предназначен для локализации программных продуктов путем изменения их исходных кодов без предварительной подготовки.
Программа может быть использована при разработке программного обеспечения на серверах сборки, для автоматической локализации исходного кода, но она может также применяться и на рабочих компьютерах пользователей для проверки орфографии в исходных кодах, текстовых файлах, буфере обмена и словарях переводов.
Специальная версия программы позволяет проводить обфускацию исходного кода.


 

понедельник, 25 августа 2014 г.

Проверка очень большого количества файлов субтитров (402шт) на примере Fairy Tale

Для проверки достаточно установить программу и скачать архив модулей орфографии (ссылка также указана в конце установки).

При очень больших объемах исходных данных желательно донастроить программу.
Если необходимо проверить 1-5-10-50 серий, то ничего донастраивать обычно не надо, но при проверке сотен серий необходимо отключить наиболее "прожорливые до памяти", и не нужные, в данном случае, функции программы.

Добавить в файл user.param (в каталоге программы) следующую строку:
-DISABLEGRAPH

Этот параметр отключает построение графов ошибок (см. "Граф орфографических ошибок")

В случае еще больших объемов (еще и всего Наруто с Бличем заодно проверить :) ) может понадобиться добавить:
-ENABLEGC
-USEGCTOCSSLOG_MINLENGTH=100000
-USECSSTOLOGMAXLENGTH=100000

ENABLEGC и USEGCTOCSSLOG_MINLENGTH - отслеживание потребления памяти программы и периодическая чистка уже обработанных объектов в памяти.
USECSSTOLOGMAXLENGTH - ограничение оформления CSS для разделов отчета больше 100000 символов.

Итак...

Изображение обложки Fairy Tail из Википедии.

Скачал архив субтитров с fansubs: http://www.fansubs.ru/forum/viewtopic.php?t=12241&start=4650
На момент скачивания в архиве было 4 каталога, 402 файла: 196 серий в двух вариантах, OVA, фильмы.

Порядок проверки:
1. Установил программу.
2. Скачал и распаковал архив модулей орфографии (в конце установки программы ссылка на архив).
3. Добавил параметр в user.param (для небольших объемов, в несколько десятков файлов, это не требуется).
4. Бросил каталог с файлами на ярлык "Проверка основных форматов...".
5. Подождал 600 секунд построения отчета.
6. В браузере открылся отчет.

Скачать (первый) отчет.

В отчете большое количество ложных срабатываний на различные "словечки" переводчиков (лажает, долазились,..) и имена персонажей (Крутоскал, Саблезуба, Руфус,..)

воскресенье, 24 августа 2014 г.

Обновление программы локализации до версии 0.12.0

Изменения в программе:

  • Убрал настройку "для переводчика" из инсталлятора (ярлык проверки словарей устанавливается как "основные ярлыки").
  • Добавил подробные debug-отчеты.
  • Добавил настройку при установке запускающую браузер со страницей скачивания дополнительных словарей орфографии.
  • Для ряда отчетов добавил указание контекста.
  • Скорректировал названия файлов отчетов и их заголовков. 
  • Перенастроил ярлыки для рабочего стола.
  • Добавил информацию про блог и сайт в заголовки отчетов.
  • Отключил проверку кавычек и тире при проверке файлов через ярлык "Основные файлы" (для словарей проверяется).
  • Добавил в debug-отчеты указание о текущем занятом программой объеме памяти.
  • Добавил отчет по проверке вероятных Е/Ё в отчет по исходным файлам (раньше использовался только по словарю).
  • Добавил отчет именно по проверке исходных файлов через ярлык.
  • Для ярлыков проверки файлов значительно повысил скорость работы за счет отключения не нужных для них функций в программе.
  • Улучшена работа программы с памятью на больших объемах исходных данных.
  • Добавил возможность настройки сборщика мусора (GC) для управления им программой при обработке очень больших объемов исходных данных.
  • Расширил информацию в сообщении об ошибках в программе.
  • Добавил настраиваемое ограничение для оформления логов через CSS при слишком большом размере лога.
  • Добавил возможность отключить проверку орфографии.
  • Добавил подсветку в отчете ошибок Е/Ё и содержащих латинские буквы.
  • Оформление замечаний в отчете сделал через "chk" вместо "orpho:..."
  • Добавил информацию к процессу обработки файлов.
  • Упростил названия ряда ярлыков.
  • Добавил поддержку субтитров форматов ASS/SSA.
  • Добавил ряд правил правописания.
  • Убрал правило (многоточие из одного символа).
  • Добавил настраиваемую статистику.

    суббота, 9 августа 2014 г.

    Настраиваемая статистика на примере Don't Starve

    Популярные программы локализации предоставляют пользователю множество различной статической информации, количество слов, букв, сколько осталось перевести и пр.

    Подобная информация присутствует и в "Локализаторе исходного кода", но в ряде случаев необходима возможность самостоятельно настроить правила статистики для получения требуемой информации, например, есть ли буквы "Ё", каким образом оформляются многоточия, точками или символом, как оформляются в переводе кавычки и пр.

    Определить наличие символов в тексте можно поиском, но необходимо запускать его по каждому вопросу и проводить раздельно по оригиналу и переводу.

    Лучше всего предоставить возможность пользователю формировать такие запросы через настройки, которые будут постоянно отслеживать такие правила.

    Принимая участие в локализации ряда проектов, сталкивался с различными требованиями у проектов к многоточию, тире и пр.
    Проверим какие правила написания многоточия и пр. используются в локализации игры Don't Starve.

    Для каждого правила в отчете указано количество найденных элементов для оригинала и перевода.

    После "броска" файлов локализации на ярлык проверки po-файлов был построен отчет. Фрагмент отчета см. на рисунке.