|
Гонтарук, І. В. Проектування і розробка програмного засобу для визначення ступеня подібності текстів [Текст] : магістерська робота / І. В. Гонтарук ; ТНПУ ім. В. Гнатюка, фізико-математичний ф-т. ; наук. кер. Н. Р. Балик. – Тернопіль, 2012.
У першому розділі з'ясовано поняття текстового дублікату та нечіткого текстового дублікату, розглянуто основні праці з обраної тематики, виділено два основних види алгоритмів: "синтаксичні" алгоритми, "лексичні" алгоритми. З'ясовано основні характеристики алгоритмів та сфери їх застосування.
У другому розділі, на основі проведеного аналізу існуючих алгоритмів, обрано алгоритм "шинглів" для визначення відсоткової подібності текстів. Визначено параметри, що вливають на роботу алгоритму, дібрано їх значення.
Ключові слова: Нечіткий дублікат, "синтаксичні" та "лексичні" методи оцінювання схожості текстів, алгоритм "шинглів".
|