«Локализатор исходного кода» предназначен для локализации программных продуктов путем изменения их исходных кодов без предварительной подготовки.
Программа может быть использована при разработке программного обеспечения на серверах сборки, для автоматической локализации исходного кода, но она может также применяться и на рабочих компьютерах пользователей для проверки орфографии в исходных кодах, текстовых файлах, буфере обмена и словарях переводов.
Специальная версия программы позволяет проводить обфускацию исходного кода.


 

четверг, 4 сентября 2014 г.

Разговорный словарь жаргонов и "словечек"

При разработке поддержки субтитров и тестировании работы с ними на больших архивах субтитрах столкнулся с проблемой большого количества ложных срабатываний ошибок орфографии из-за жаргонов и "словечек", характерных для разговорной речи.

Пример:
ваще
вкурил
водопадище
звиняй
звиняйте
здарова
здоровится
здоровская
здоровское
зырит
зырить
хто

Из примера, думаю, всем видно, почему этих слов нет в обычных словарях, используемых в huspell/OpenOffice/FireFox/...
При этом, эти слова не являются ошибками.



Кроме того, есть еще ряд "слов":
Эм-м
Э-э
э?
Та-ак
Э-э
Э-Э-Это
л-ю-бо-вь

Эти "слова" являются по сути звуками или специально "растянутыми" словами.
В данном случае это именно не ошибочные переносы слова, а именно "произношение" слова.

Поэтому возник вопрос, как эти слова заносить в словарь... Пользователь всегда может любые слова занести в свой словарь user.sld, который программа использует при проверке и при этом не меняет при установке/обновлении.

Но перечисленные слова являются обычными разговорными словами, поэтому решил добавить специальный словарь (в новых версиях программы) для таких слов, который
можно отключить при установке, если требуется только проверка обычных, не разговорных текстов, без словечек и пр...

Словарь будет отдельным, так как он может не показать ошибок в "обычном" тексте, например, "не извиняйте его" и "не звиняйте его", не покажет пропущенную И (или ошибочный пробел в "и звиняйте"), за счет слова "звиняйте", и т.п.

Данный словарь, помимо уже применяемого словаря исключений, будет большим плюсом программы.

P.S. Матерные слова в общем-то тоже не являются ошибками, в ряде текстов, но пока не готов из них составлять словарь :) Пусть этим займется пользователь (user.sld), если уж будет работать с таким текстом :)

P.P.S. Проверив заново FairyTail нашел еще несколько ошибок, за счет уменьшения общего числа ложных срабатываний: слова "удасться", "ешё", "испытаньем", а также, возможно, специально "ё"-кающего персонажа "крёпкая", "сиё", "такоё", "Усёкла".

Комментариев нет:

Отправить комментарий