Локализатор исходного кода: Проверка очень большого количества файлов субтитров (402шт) на примере Fairy Tale

Для проверки достаточно установить программу и скачать архив модулей орфографии (ссылка также указана в конце установки).

При очень больших объемах исходных данных желательно донастроить программу.
Если необходимо проверить 1-5-10-50 серий, то ничего донастраивать обычно не надо, но при проверке сотен серий необходимо отключить наиболее "прожорливые до памяти", и не нужные, в данном случае, функции программы.

Добавить в файл user.param (в каталоге программы) следующую строку:
-DISABLEGRAPH

Этот параметр отключает построение графов ошибок (см. "Граф орфографических ошибок")

В случае еще больших объемов (еще и всего Наруто с Бличем заодно проверить :) ) может понадобиться добавить:
-ENABLEGC
-USEGCTOCSSLOG_MINLENGTH=100000
-USECSSTOLOGMAXLENGTH=100000

ENABLEGC и USEGCTOCSSLOG_MINLENGTH - отслеживание потребления памяти программы и периодическая чистка уже обработанных объектов в памяти.
USECSSTOLOGMAXLENGTH - ограничение оформления CSS для разделов отчета больше 100000 символов.

Итак...

Изображение обложки Fairy Tail из Википедии.

Скачал архив субтитров с fansubs: http://www.fansubs.ru/forum/viewtopic.php?t=12241&start=4650
На момент скачивания в архиве было 4 каталога, 402 файла: 196 серий в двух вариантах, OVA, фильмы.

Порядок проверки:
1. Установил программу.
2. Скачал и распаковал архив модулей орфографии (в конце установки программы ссылка на архив).
3. Добавил параметр в user.param (для небольших объемов, в несколько десятков файлов, это не требуется).
4. Бросил каталог с файлами на ярлык "Проверка основных форматов...".
5. Подождал 600 секунд построения отчета.
6. В браузере открылся отчет.

Скачать (первый) отчет.

В отчете большое количество ложных срабатываний на различные "словечки" переводчиков (лажает, долазились,..) и имена персонажей (Крутоскал, Саблезуба, Руфус,..)

Скопировал слова из раздела "Список фрагментов текста с ошибками орфографии оформленный для словаря (plaintext)" в файл пользовательского словаря исключений user.sld и стер все действительные ошибки.

Ошибок было больше 2000, поэтому проверял мельком, и лучше бы перепроверить переводчикам слова в словаре исключений, если сериал будет исправляться.

Скачать файл словаря.

Примечание:
Этот словарь будет использоваться и при проверке новых серий, т.е. достаточно его заполнить один раз и добавлять только новые слова, термины, имена и пр.

Порядок повторной проверки:
1. Бросил каталог с файлами на ярлык "Проверка основных форматов...".
2. Подождал 380 секунд (за счет добавленных слов в словаре исключений меньше проверок орфографии внешним модулем hunspell).
3. В браузере открылся отчет.

Скачать (второй) отчет.

Выводы:
Орфографических ошибок не так много.

анимой, атракционов, вчётвером, даётыквится, днищё, Здравстыквуйте,
оотношение, рыбфония, сведенью, сведенья, Сведенья, сведеньям, смоёт

Субтитры содержит Ё (20014 шт см. "Статистика (настраиваемая)"), поэтому ошибки с Ё надо исправить.

веревку, веселую, веселые, Врешь, втроем, даешь, доберешься-то,
емкость, еще, Еще, звездных, идет, легким, Легкой, Мертвые, мое,
нанес, нашептывал, обрел, ожесточенная, ожесточенной, перышко,
плюешь, побьешь, подметки, попрешь, пошел, Привьет, Придется,
прическу, пробьешь, пройдет, ребрами, рожден, сдаешься, се, семерок,
соплей, спецэффекты, Сплоченность, суешься, сушеные, тяжелая,
тяжелое, уберег, Уничтожители, утяжелить, чел, Чел, четвертый

Примечание: "чел" надо тоже было добавить в словарь исключений. Сразу он не добавлен, так как есть в словаре орфографии и не является ошибкой,
но нет его в словаре слов с Ё (подробней в следующих постах).

Слова с латинскими символами:
Cемерых, cобой, Cтоит, Милианa

Все ошибки орфографии сведены в разделе "Текст в исходных файлах с ошибками орфографии", а в схожих произведено разделение на обычные ошибки,
буквы Ё, содержащие латинские символы и пр.

Не обязательные в данном случае разделы "Маловероятные Ё" и т.п. указывают на слова пишущиеся с Е и Ё в зависимости от контекста,
чтобы автор перевода обратил на них внимание (подробней в следующих постах).

Раздел "Основные ошибки в оригинальном тексте" содержит ошибки оформления:
000267 text: Лю...си?
chk: многоточие расположено вплотную к следующему за ним слову
000079 text: Над субтитрами работали:\nМария Гостюхина, Jenia aka Zub , Blazing Wizard и sild
chk: пробел перед запятой
000206 text: С огнём в правой руке и с огнём в левой...
chk: двойной пробел между словами
...

Ошибки оформления заметны особенно на "железных" плеерах (см. "Необходимость проверки оформления субтитров на примере "железного" медиаплеера").

"Статистика (настраиваемая)" указывает на количество различных символов.
Вероятно ошибка оформления кавычек, т.к. "елочек" 602+602, а кавычек оформленных дюймами 14286. Надо кавычки привести к одном виду.
"Минус (отдельный)" и "тире (отдельное)" указывает на 2695 " - " и 169 " — ", тоже надо одинаково сделать.

Список ссылок на файлы:
1. Первый отчет
2. Файл словаря
3. Второй отчет

P.S. Если что-то не получается, то всегда можно сообщить мне.

Страницы

понедельник, 25 августа 2014 г.

Проверка очень большого количества файлов субтитров (402шт) на примере Fairy Tale

Комментариев нет:

Отправить комментарий

Страницы

понедельник, 25 августа 2014 г.

Проверка очень большого количества файлов субтитров (402шт) на примере Fairy Tale

Комментариев нет:

Отправить комментарий

понедельник, 25 августа 2014 г.