Лично подоходно облагане


Категория на документа: Финанси




Класификация на образи посредством кластери

4.1.Въведение

Един от ефективните и често използвани подходи за групиране на входни данни, формиране на класове и класификация на образи се основава на кластерния анализ на входните данни. За разлика от разгледаните досега методи за разпознаване, при класификация на образи посредством кластери не се строят граници между отделните класове, не се използват обучаващи извадки за формиране на еталони, липсва предварително обучение на системата за РО от учител посредством коректни входно-изходни двойки. При този подход в СРО се въвеждат векторите на образите на всички входни образци. Системата сама групира входните данни в съответствие с приета мярка за близост и въз основа на определени критерии (правила) за групиране на входните вектори.

В този раздел ще разгледаме няколко метода за формиране на кластери [....]. Трябва да се отбележи, че формирането на кластерите в много отношения се базира на емпирични предпоставки, тъй като качеството на работа на определен алгоритъм зависи не само от характера на анализираните данни, но и в значителна степен се определя от избраната мярка за подобие на образите и от методите, използвани за идентификация на кластерите в системата от данни.

При разработването на процедури за кластеризация са характерни два основни етапа:

- избор на мярка за сходство (близост, подобие) на образите, подлежащи на класификация;

- избор на критерии (правила за кластеризация).

4.2. Мерки за сходство

За да се формира от множеството данни за образите кластер, най-напред е необходимо да се въведе мярка за сходство (подобие). Тази мярка лежи в основата на правилата за отнасяне на образите към областта, характеризираща се с някакъв център на кластера [...]. Една от най-често използваните мерки за сходство между два образа Х и Z е евклидовото разстояние между тях:

D=||X-Z||. 4.1
Колкото е по-малко разстоянието между образите, толкова е по-голямо сходството между тях. Количествено сходство може да се изрази във вида .

Съществуват и други начини за дефиниране на разстоянието между образи, които в много случаи се оказват полезни. Например, такова е разстоянието на Махаланобис, определяно за образите Х и m от зависимостта

D=(X-m)T.C-1(X-m) . 4.2

Това разстояние се оказва полезна мярка за сходство в тези случаи, когато статистическите характеристики на образите са от съществено знацхение. Във зависимостта (4.2) с С е означена ковариационната матрица на съвкупността от образи, m е векторът на средните стойности, а Х е образът, подлежащ на разпознаване .

Мерките за сходство не се изчерпват само с разстоянието между образите. Като пример може да бъде предоставена неметричната функция за сходство

, 4.3
представляваща косинуса на ъгъла, образуван от векторите Х и Z _ достигаща max., когато посоките на векторите съвпадат. Тази мярка за сходство е удобна за ползване в случаите, когато кластерите имат тенденция да се разполагат по направление на главните оси, както е показано на фиг.4.1. . Тази фигура показва, че образът Z1 притежава

Фиг 4.1. Илюстрация на понятиeто мярка за сходство

по-голямо сходство с образа Х отколкото образа Z2, доколкото стойността на S(X,Z1) е по-голяма от стойността S(X,Z2). Трябва да се отбележи, че приложението на тази мярка за сходство (МС) в свързана с определени ограничения, например такова, като достатъчно отстояние на кластерите един от друг и от началото на координатите.

Когато се разглеждат двоични образи и техните елементи са стойности от множеството {0,1}, функцията за сходство ( 4.3) може да даде интересна негеометрична интерпретация. Ако xi=1 се счита, че двоичният образ Х притежава i-тия признак. В този случай членът ХT.Z в (4.3) просто характеризира броят на общите за образите Х и Z признаци, а - средно геометричен брой признаци, които притежава образът Z. Понятно е, че функцията S(X,Z) е мярка за наличието на общи признаци у двоичните вектори Х и Z.

Двоичен вариант на формулата (4.3), намиращ широко разпространение в информационното търсене, нозологията (класификация на болести) и таксономията (класификация на видовете животни и растения) е т.нар. мярка на Танимото, която се определя от съотношението

, 4.4

Когато се използват общи признаци за образите, образите се представят посредством суперпозиции от елементите на цялото множество от признаци:

Х1=(101...1...01)=(х1х2 х3...хк...хn-1 хn), 4.5
т.е хn(0,1). От поразрядното сравняване на елементите на двоичните вектори за два образа Х и Z могат да се определят следните показатели съгласно табл 4.1 [...].
; ;

4.6 ; ;



Сподели линка с приятел:





Яндекс.Метрика
Лично подоходно облагане 9 out of 10 based on 2 ratings. 2 user reviews.