The problem of semantic contradictions in large volumes of data

DOI: 10.31673/2412-9070.2022.033133

Authors

  • С. С. Коротков, (Korotkov S. S.) State University of Telecommunications, Kyiv
  • А. О. Барабаш, (Barabash A. O.) National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Kyiv

DOI:

https://doi.org/10.31673/2412-9070.2022.033133

Abstract

The problem of eliminating the redundancy of semantically close textual information based on latent semantic analysis and one of the fuzzy inference algorithms is considered. A description of latent semantic analysis as a method of detecting the semantic proximity of documents is given. A variant of fuzzy inference rules for solving the task of eliminating the redundancy of semantically close information is formulated. It is proposed to evaluate the degree of impact of the contradiction elimination module on the operational efficiency of information systems.
In order to assess the efficiency of the functioning of such systems, two approaches to the implementation of the function of eliminating contradictions are proposed:
1. Initially, the request is executed in its pure form without the participation of the contradiction elimination module. If as a result of the query we receive no more than one fact, then the result is passed to the upper level. When receiving more than one fact, there is a contradiction, the result is transferred to the contradiction elimination module.
2. All obtained results are transferred immediately to the contradiction elimination module, regardless of the number of obtained facts.
It is obvious that the application of different approaches will affect the operational efficiency of the information system in different ways. In the first approach, the degree of influence of the heating module will depend on the number of contradictions. The article proposes to evaluate the degree of influence of the module of elimination of contradictions on the efficiency of the functioning of information systems.
Redundancy in large volumes of data based on latent semantic analysis and fuzzy inference can, in our opinion, significantly reduce the amount of data stored.

Keywords: latent semantic analysis; elimination of redundancy; fuzzy inference rules; semantically close text information.

References
1. Шрам Г. Оптимальне використання ресурсів пам’яті // Журнал мережних рішень LAN. 2011. № 3.
2. Щербінін А. Рішення щодо дедуплікації даних // Storage News. 2008. № 2. С. 2–7.
3. Хорошилов А. А. Методи автоматичного встановлення смислової близькості документів на основі їх концептуального аналізу // Праці 15-ї всерос. наук. конф. «Електронні бібліотеки: перспективні методи та технології, електронні колекції». Ярославль, 14–17 жовтня 2013 р. Секція 6.
4. Штовба С. Д. Введення в теорію нечітких множин та нечітку логіку. Вінниця: Вид-во Вінницького держ. техн. ун-ту, 2001. 198 с.
5. Інтелектуальне інформаційно-керівне середовище для організації перевезень та транспортного обслуговування // Праці 2-ї наук.-техн. конф. «Інтелектуальні системи управління залізничним транспортом». М., 15–16 листопада 2012 р. С. 66–72.
6. Кураленок І. Є., Некрестьянов І. С. Автоматична класифікація документів на основі латентно-семантичного аналізу // Праці 1-ї всерос. наук.-метод. конф. «Електронні бібліотеки: перспективні методи та технології, електронні колекції». СПб, 1999. C. 89–96.
7. Landauer T., Foltz P., Laham D. An introduction to Latent Semantic Analysys // Discourse Processes, 1998. 25. Р. 259–284.
8. Хомоненко А. Д., Краснов С. А. Застосування методів латентно-семантичного аналізу для автоматичної рубрикації документів // Вісті ПГУПС. 2012. №2 (31). С. 124–132.
9. Агєєв М. С., Добров Б. В., Лукашевич Н. В. Автоматична рубрикація текстів: методи та проблеми // Навч. записки Казан. держ. ун-ту. Фізико-математичні науки. 2008. Т. 150. Кн. 4. С. 25-40.
10. Войцеховський С. В., Хомоненко А. Д. Виявлення шкідливих програмних впливів на основі нечіткого висновку // Проблеми інформаційної безпеки. Комп’ютерні системи. 2011. № 3. С. 81–91.

Published

2023-04-13

Issue

Section

Articles