Виявлення прихованої лайки в текстових повідомленнях за аналізом візуально подібних символів
Анотація
Приховані лайливі слова – це слова, що зазнали певних замін символів, але під час їх читання пересічний користувач легко розуміє їх лайливий сенс. Такі заміни роблять навмисно, щоб обійти автоматичні фільтри повідомлень у чатах, коментарях тощо. Для прикладу можна навести таку просту заміну fool на f00l. У початковому слові замінено літери oo на нулі – 00. Слова залишилися візуально дуже схожими, тому і fool, і f00l сприймається як лайливі з тотожними значеннями. Автоматичні фільтри, які базуються на посимвольному порівнянні слів, слово fool ідентифікують як лайливе, а слово f00l – ні, бо воно відсутнє у словниках образливої лексики.
Посилання
Loomis, J. M. (1982). Analysis of tactile and visual confusion matrices. Perception & Psychophysics, 31, 41–52.
Geyer, L. H. (1977). Recognition and confusion of the lowercase alphabet. Perception & Psychophysics, 22, 487–490.
Townsend, J. T. (1971). Theoretical analysis of an alphabetic confusion matrix. Perception & Psychophysics, 9, 40–50.
Dunn-Rankin, P., Leton, D. A., Shelton, V. F. (1968). Congruency factors related to visual confusion of English letters. Perceptual and Motor Skills, 26(2), 659–666.