Локализатор исходного кода: Разговорный словарь жаргонов и "словечек"

четверг, 4 сентября 2014 г.

Разговорный словарь жаргонов и "словечек"

При разработке поддержки субтитров и тестировании работы с ними на больших архивах субтитрах столкнулся с проблемой большого количества ложных срабатываний ошибок орфографии из-за жаргонов и "словечек", характерных для разговорной речи.

Пример:
ваще
вкурил
водопадище
звиняй
звиняйте
здарова
здоровится
здоровская
здоровское
зырит
зырить
хто

Из примера, думаю, всем видно, почему этих слов нет в обычных словарях, используемых в huspell/OpenOffice/FireFox/...
При этом, эти слова не являются ошибками.

Кроме того, есть еще ряд "слов":
Эм-м
Э-э
э?
Та-ак
Э-э
Э-Э-Это
л-ю-бо-вь

Эти "слова" являются по сути звуками или специально "растянутыми" словами.
В данном случае это именно не ошибочные переносы слова, а именно "произношение" слова.

Поэтому возник вопрос, как эти слова заносить в словарь... Пользователь всегда может любые слова занести в свой словарь user.sld, который программа использует при проверке и при этом не меняет при установке/обновлении.

Но перечисленные слова являются обычными разговорными словами, поэтому решил добавить специальный словарь (в новых версиях программы) для таких слов, который
можно отключить при установке, если требуется только проверка обычных, не разговорных текстов, без словечек и пр...

Словарь будет отдельным, так как он может не показать ошибок в "обычном" тексте, например, "не извиняйте его" и "не звиняйте его", не покажет пропущенную И (или ошибочный пробел в "и звиняйте"), за счет слова "звиняйте", и т.п.

Данный словарь, помимо уже применяемого словаря исключений, будет большим плюсом программы.

P.S. Матерные слова в общем-то тоже не являются ошибками, в ряде текстов, но пока не готов из них составлять словарь :) Пусть этим займется пользователь (user.sld), если уж будет работать с таким текстом :)

P.P.S. Проверив заново FairyTail нашел еще несколько ошибок, за счет уменьшения общего числа ложных срабатываний: слова "удасться", "ешё", "испытаньем", а также, возможно, специально "ё"-кающего персонажа "крёпкая", "сиё", "такоё", "Усёкла".

Страницы

четверг, 4 сентября 2014 г.

Разговорный словарь жаргонов и "словечек"

Комментариев нет:

Отправить комментарий

Страницы

четверг, 4 сентября 2014 г.

Разговорный словарь жаргонов и "словечек"

Комментариев нет:

Отправить комментарий

четверг, 4 сентября 2014 г.