Оценка бинарного прогнозирования мошеннических объявлений в облачных системах для отслеживания кандидатов ATS
https://doi.org/10.37493/2307-910X.2025.1.4
Аннотация
Построение модели бинарной классификации для прогнозирования типа объявление в облачных ATS (системы отслеживания кандидатов) о приеме на работу (законные или мошеннические), может быть решено, в том числе, и с использованием различных алгоритмов машинного обучения. Для данной работы были выбраны традиционные алгоритмы классификации, включающие LSVC (Linear Support Vector Classifier), GBT (Gradient Boost Tree) и RF(Random Forest). Один из подходов к построению такой модели заключается в выявлении и сборе соответствующих атрибутов или особенностей, которые могут помочь отличить мошенническое объявление о приеме на работу от законного. Некоторые из функций, которые могут быть полезны при обнаружении мошеннических объявлений о вакансиях, включают местоположение работы, описание вакансии, требования к работе, должностные обязанности, информацию о компании и данные о рекрутере, после чего различные алгоритмы машинного обучения могут быть обучены на подготовленных наборах данных с использованием стандартных методов, таких как перекрестная проверка, для оценки их производительности. Производительность обученных моделей может быть оценена с использованием различных оценочных показателей, таких как точность, прецизионность и отзывчивость. Наконец, наиболее эффективная модель может быть выбрана на основе оценочных показателей, а затем внедрена в производственную среду, где ее можно использовать для классификации объявлений о вакансиях как мошеннических или нет. Важно отметить, что модель также должна постоянно оцениваться и обновляться с течением времени, чтобы обеспечить ее надежность и эффективность. Исходя из результатов метрик оценки, был сделан вывод, что классификатор GBT показывает более высокую производительность и точность по сравнению с классификаторами LinearSVC и RF на данном наборе. Однако стоит учитывать, что классификатор GBT требует больше времени на обучение и прогнозирование, у GBT время 208.738579 с, а у LSVC и RF (64.267132 и 71.024914, соответственно). Учитывая результаты оценок, для рабочей части программы использовали модель GBT. Для реализации прогнозирования было проведено машинное обучение на GBT, RF и LSVC на пользовательском наборе данных Job_Fraud, созданное на базе общедоступной EMSCAD. Для решения сильного дисбаланса данных была использована реализация на библиотеке синтетической передискретизации меньшинства (SMOTE). Сначала была получена модель, которую обучили на данных с помощью классификатора, удаление через TFIDFVectorizer стоп-слов в векторном пространстве, затем, уменьшая разрядность данных, перезагрузили данные, повторно обучили модель и векторайзер перед использованием их для прогнозирования. Для графического интерфейса использовался модуль tkinter. Функция predict() использует обученную модель для предсказаний на основе вектора признаков.
Ключевые слова
Об авторах
В. В. Лиджи-ГоряевРоссия
Владимир Викторович Лиджи-Горяев, начальник отдела
отдел «Цифровая кафедра»
Элиста
тел.: +79371935125
Г. А. Манкаева
Россия
Галина Алексеевна Манкаева, старший преподаватель
Элиста
Т. Б. Гольдварг
Россия
Татьяна Борисовна Гольдварг, доцент
кафедра экспериментальной физики
Элиста
тел.: +79093974451
С. С. Мучкаева
Россия
Светлана Сангаджиевна Мучкаева, доцент
кафедра алгебры и анализа
Элиста
тел.: +79054007024
Е. Н. Джахнаева
Россия
Елена Николаевна Джахнаева, старший преподаватель
Элиста
тел.: +79371927755
Список литературы
1. Настраиваемые рабочие процессы в облачных АТС в России. [Электронный ресурс]. URL: https://huntflow.ru/ (дата обращения 22. 08. 2023).
2. Исследование рынка рекрутинговых систем: функциональность облачных ATS в России. 02. 11. 2021. [Электронный ресурс]. URL: https://www.tadviser.ru/a/578060 (дата обращения 22. 08. 2023).
3. Скрининг-колл с рекрутером: вопросы, которые скорее всего вам зададут [Электронный ресурс]. URL: https://habr.com/ru/articles/689564//разборискринингрезюмевоблачныхатсвроссии (дата обращения 22. 08. 2023).
4. Swetha K., Sravani K. Fake job detection using machine learning approach // Journal of Engineering Sciences. 2023. Vol. 14. Issue 02. P. 67–74.
5. Бондарчук Д. В. Выбор оптимального метода интеллектуального анализа данных для подбора вакансий // Информационные технологии моделирования и управления. 2013. № 84 (6). С. 504–513.
6. Кудрявцев Р. В. Организация деятельности по раскрытию дистанционных мошенничеств // Молодой ученый. 2019. № 24 (262). С. 218–221. [Электронный ресурс]. URL: https://moluch.ru/archive/262/60528/ (дата обращения: 14. 08. 2023).
7. Горяев В. М., Бурлыков В. Д., Прошкин С. Н., Лиджи-Гаряев В. В., Джахнаева Е. Н. ROC-кривая и матрица путаницы как эффективное средство для оптимизации классификаторов машинного обучения // Вестник Башкирского университета. 2023. Т. 28. № 1. С. 22–28.
8. Лаборатория информационных и коммуникационных систем, Эгейский университет, Самос, Греция. Набор данных EMSCAD по мошенничеству при приеме на работу в Эгейском регионе. 2016. Доступно онлайн: http://icsdweb.aegean.gr/emscad (дата обращения 22. 08. 2023).
9. Горяев В. М., Басангова Е. О., Бембитов Д. Б., Мучкаева С. С., Сангаджиева С. В. Исследование производительности различных моделей машинного обучения при неинвазивном измерении артериального давления на основе сигналов PPG и ЭКГ // Вестник Башкирского университета. 2023. Т. 28. № 1. С. 36–44.
10. Wong Y., Kamel A. Classification of imbalanced data: a review. International Journal of Pattern Recognition and Artificial Intelligence. doi: 10.1142/S0218001409007326
11. Tabassum H, Ghosh G. Detecting Online Recruitment Fraud Using Machine Learning, 2021 9<sup>th</sup> Int. Conf. Inf. Commun. Technol. ICoICT 2021. P. 472–477. doi: 10.1109/ICoICT52021.2021.9527477
12. Борисов Е. С. Классификатор текстов на естественном языке. [Электронный ресурс]. URL: http://mechanoid.kiev.ua/neural-net-classifier-text.html
13. Коэльо Л. П., Ричарт В. Построение систем машинного обучения нa языке Python. 2-е издание / Пер. с англ. Слинкин А. А. М.: ДМК Пресс, 2016. 302 с.
14. Горяев В. М. Разработка методики профессионально-психологического подбора кадров в организацию с учётом аспектов информационной безопасности // Современные наукоемкие технологии. 2021. № 12-2. С. 342–347.
Рецензия
Для цитирования:
Лиджи-Горяев В.В., Манкаева Г.А., Гольдварг Т.Б., Мучкаева С.С., Джахнаева Е.Н. Оценка бинарного прогнозирования мошеннических объявлений в облачных системах для отслеживания кандидатов ATS. Современная наука и инновации. 2025;(1):51-62. https://doi.org/10.37493/2307-910X.2025.1.4
For citation:
Ligi-Goryaev V.V., Mankaeva G.A., Goldvarg T.B., Muchkaeva S.S., Dzhakhnaeva E.N. Assessment of binary prediction of fraudulent advertisements in ATS candidate tracking cloud systems. Modern Science and Innovations. 2025;(1):51-62. (In Russ.) https://doi.org/10.37493/2307-910X.2025.1.4