Багатокритеріальне розпізнавання відповідності текстів темі на основі алгоритму TF-IDF

DOI: 10.31673/2412-9070.2025.027728

  • Данильченко В. М. (Danylchenko V. M.) Державний університет інформаційно – комунікаційних технологій, Київ
  • Отрох С. І. (Otrokh S. I.) Національний технічний університет України “Київський політехнічний інститут імені Ігоря Сікорського”, Україна
  • Шалигін М. О. (Shaligin M. O.) Національний технічний університет України “Київський політехнічний інститут імені Ігоря Сікорського”, Україна
  • Донець А. Г. (Donets A. G.) Національний технічний університет України “Київський політехнічний інститут імені Ігоря Сікорського”, Україна

Анотація

Досліджено актуальність застосування статистичних методів для оцінки приналежності документів до тематики, обраної користувачем. Проаналізовано можливості та імплементовано використання модифікованого алгоритму на основі метрики TF-IDF для ефективного аналізу та класифікації текстових документів. Описано процес розроблення програми з використанням багатокритеріального підходу до розпізнавання відповідності тексту темі, а також розглянуто методи нормалізації та фільтрації текстових даних для вдосконалення точності класифікації. Запропоновано високоефективне вирішення для виявлення релевантних документів, яке може бути застосовано у різних сферах: від пошукових систем та інформаційних фільтрів до рекомендаційних платформ і аналітичних інструментів. Відображено важливість використання інноваційних методів для автоматизованої фільтрації даних.

Ключові слова: обробка; дані; метод TF-IDF; класифікація документів; багатокритеріальне розпізнавання; стоп-слова; нормалізація тексту; масив даних; глибоке навчання; технологія.

Номер
Розділ
Статті