Оценка бинарного прогнозирования мошеннических объявлений в облачных системах для отслеживания кандидатов ATS
https://doi.org/10.37493/2307-910X.2024.1.3
Аннотация
Построение модели бинарной классификации для прогнозирования типа объявление в облачных ATS (системы отслеживания кандидатов) о приеме на работу (законные или мошеннические), может быть решено, в том числе, и с использованием различных алгоритмов машинного обучения. Для данной работы были выбраны традиционные алгоритмы классификации, включают LSVC (Linear Support Vector Classifier), GBT (Gradient Boost Tree) и RF(Random Forest). Один из подходов к построению такой модели заключается в выявлении и сборе соответствующих атрибутов или особенностей, которые могут помочь отличить мошенническое объявление о приеме на работу от законного. Некоторые из функций, которые могут быть полезны при обнаружении мошеннических объявлений о вакансиях, включают местоположение работы, описание вакансии, требования к работе, должностные обязанности, информацию о компании и данные о рекрутере. После чего различные алгоритмы машинного обучения могут быть обучены на подготовленных наборах данных с использованием стандартных методов, таких как перекрестная проверка, для оценки их производительности. Производительность обученных моделей может быть оценена с использованием различных оценочных показателей, таких как точность, прецизионность и отзывчивость. Наконец, наиболее эффективная модель может быть выбрана на основе оценочных показателей, а затем внедрена в производственную среду, где ее можно использовать для классификации объявлений о вакансиях как мошеннических или нет. Важно отметить, что модель также должна постоянно оцениваться и обновляться с течением времени, чтобы обеспечить ее надежность и эффективность. Исходя из результатов метрик оценки, был сделан вывод, что классификатор GBT показывает более высокую производительность и точность по сравнению с классификаторами LinearSVC и RF на данном наборе. Однако стоит учитывать, что классификатор GBT требует больше времени на обучение и прогнозирование, у GBT время 208.738579 с, а у LSVC и RF (64.267132 и 71.024914, соответственно). Учитывая результаты оценок для рабочей части программы использовали модель GBT. Для реализации прогнозирования было проведено машинное обучение на GBT, RF и LSVC на пользовательском наборе данных Job_Fraud, созданный на базе общедоступной EMSCAD. Для решения сильного дисбаланса данных была использована реализация на библиотеке синтетической передискретизации меньшинства (SMOTE). Сначала была получена модель, которую обучили на данных с помощью классификатора, удаление через TFIDFVectorizer стоп-слов в векторном пространстве, затем уменьшая разрядность данных перезагрузили данные, повторно обучили модель и векторайзер перед использованием их для прогнозирования. Для графического интерфейса использовался модуль tkinter. Функция predict() использует обученную модель для предсказаний на основе вектора признаков.
Ключевые слова
Об авторах
В. В. Лиджи-ГаряевРоссия
Владимир Викторович Лиджи-Гаряев – начальник отдела «Цифровая кафедра»
г. Элиста
+79371935125
Г. А. Манкаева
Россия
Галина Алексеевна Манкаева – старший преподаватель кафедры теоретической физики
г. Элиста
+79061764200
Т. Б. Гольдварг
Россия
Татьяна Борисовна Гольдварг – доцент кафедры экспериментальной физики
г. Элиста
+79093974451
С. С. Мучкаева
Россия
Светлана Сангаджиевна Мучкаева – доцент кафедры алгебры и анализа
г. Элиста
+79054007024
В. В. Джахнаев
Россия
Виктор Владиславович Джахнаев – магистрант 2 курса
г. Элиста
+79886836554
Список литературы
1. Настраиваемые рабочие процессы в облачных АТС в России [Электронный ресурс]. URL: https://huntflow.ru/ (дата обращения: 14.08.2023).
2. Исследование рынка рекрутинговых систем: функциональность облачных ATS в России. 02.11.2021 [Электронный ресурс]. URL: https://www.tadviser.ru/a/578060 (дата обращения: 14.08.2023).
3. Скрининг-колл с рекрутером: вопросы, которые скорее всего вам зададут [Электронный ресурс]. URL: https://habr.com/ru/articles/689564// разбор и скрининг резюме в облачных атс в россии (дата обращения: 14.08.2023).
4. Swetha K., Sravani K. Fake job detection using machine learning approach // Journal of Engineering Sciences. 2023. Vol 14. Issue 02. P. 67–74.
5. Бондарчук Д. В. Выбор оптимального метода интеллектуального анализа данных для подбора вакансий // Информационные технологии моделирования и управления. 2013. № 84 (6). С. 504-513.
6. Кудрявцев Р. В. Организация деятельности по раскрытию дистанционных мошенничеств // Молодой ученый. 2019. № 24 (262). С. 218–221. [Электронный ресурс]. URL: https://moluch.ru/archive/262/60528/ (дата обращения: 14.08.2023).
7. Горяев В. М., Бурлыков В. Д., Прошкин С. Н., Лиджи-Гаряев В. В., Джахнаева Е. Н. ROC-кривая и матрица путаницы как эффективное средство для оптимизации классификаторов машинного обучения // Вестник Башкирского университета. 2023. Т. 28. № 1. С. 22–28.
8. Лаборатория информационных и коммуникационных систем, Эгейский университет, Самос, Греция. Набор данных EMSCAD по мошенничеству при приеме на работу в Эгейском регионе. 2016. [Электронный ресурс]. URL: http://icsdweb.aegean.gr/emscad (дата обращения 22.08.2023).
9. Горяев В. М., Басангова Е. О., Бембитов Д. Б., Мучкаева С. С., Сангаджиева С. В. Исследование производительности различных моделей машинного обучения при неинвазивном измерении артериального давления на основе сигналов PPG и ЭКГ // Вестник Башкирского университета. 2023. Т. 28. № 1. С. 36-44.
10. Wong Y., Kamel A. Classification of imbalanced data: a review // International Journal of Pattern Recognition and Artificial Intelligence. 2011. https://doi.org/23.10.1142/S0218001409007326
11. Tabassum H., Ghosh G. Detecting Online Recruitment Fraud Using Machine Learning, 2021 9th Int. Conf. Inf. Commun. Technol. ICoICT 2021.2021. P. 472–477. https://doi.org/10.1109/ICoICT52021.2021.9527477
12. Борисов Е. С. Классификатор текстов на естественном языке. [Электронный ресурс]. URL: http://mechanoid.kiev.ua/neural-net-classifier-text.html (дата обращения: 14.08.2023).
13. Коэльо Л. П., Ричарт В. Построение систем машинного обучения нa языке Python. 2-е издание / Пер. с англ. Слинкин А. А.- М.: ДМК Пресс, 2016. 302 с.
14. Горяев В. М. Разработка методики профессионально-психологического подбора кадров в организацию с учётом аспектов информационной безопасности // Современные наукоемкие технологии. 2021. № 12–2. С. 342–347.
Рецензия
Для цитирования:
Лиджи-Гаряев В.В., Манкаева Г.А., Гольдварг Т.Б., Мучкаева С.С., Джахнаев В.В. Оценка бинарного прогнозирования мошеннических объявлений в облачных системах для отслеживания кандидатов ATS. Современная наука и инновации. 2024;(1):32-41. https://doi.org/10.37493/2307-910X.2024.1.3
For citation:
Ligi-Goryaev V.V., Mankaeva G.A., Goldvarg T.B., Muchkaeva S.S., Dzhakhnaev V.V. Assessment of binary prediction of fraudulent advertisements in ATS candidate tracking cloud systems. Modern Science and Innovations. 2024;(1):32-41. (In Russ.) https://doi.org/10.37493/2307-910X.2024.1.3