Лично подоходно облагане


Категория на документа: Финанси


2.00
Х1Х3
0.25
0.25
0.25
0.33
Х2Х3
0.25
0.33
0.50
0.50


В табл. 4.3. са дадени резултатите от изчислението на функциите за подобие между двоични вектори Х1=(1110), Х2=(1100), X3=(1001). Стойностите на функциите S1, S2, S3, са единици при сходни образи (а=n), а стойността на S4 --> и в този смисъл не е удобна за работа. Използването на дадена функция зависи от конкретната задача.

Разглежданите функции за сходство не да единствени - това са просто типични примери. По-нататъшните разглеждания ще са базирани на използването на евклидовата мярка за подобие (4.1).

4.3. Критерии (правила) за кластеризация

Проблемът за определяне на процедурата за разбиване на анализираните данни в кластери остава открит и след избора на мярка за сходство на образите. Критериите (правилата) за кластеризация могат или да възпроизвеждат някакви евристични съображения, или да се основават на минимизация (или максимизация) на някакъв показател за качество.

При евристичния подход решаваща роля играе интуицията и опита на експерта. Той синтезира набор от правила, които осигуряват отнасяне на образите към един от кластерите въз основа на избраната мярка за сходство. Най-често като мярка за сходство при този подход се използва евклидовото разстояние (4.1). Доколкото обаче близостта на два образа е относителна мярка за тяхното подобие, обикновено се налага да се въвежда праг, чрез който се установява приемлива степен на сходство за процеса на формиране на кластерите .

Евклидовото разстояние между два вектора в n-мерното пространство се определя от зависимостта

, 4.7
където с хк и zk са означени к-тите компоненти на векторите Х и Z. Ако чрез вектора Z е представен центърът на даден кластер, формулата 4.7. може да се използва за определяне на разстоянието между вектора Х и центъра на този кластер.

Когато класовете са представени чрез своите кластери ( с точките, участващи в тях ), то за класифицираният образ Х се изчислява средноквадратичното разстояние до множеството точки {aji} за всеки кластер

, 4.8
където i=1,2...m (m е броят на кластерите), r-брой на точките в съответния кластер; хк и ак са к-тите компоненти на точките в n-мерното пространство.

Подходът за кластеризация, предвиждащ използването на показател за качество, е свързан с разработването на процедури, които осигуряват минимизация или максимизация на избрания показател за качество. Един от най-често използваните показатели представлява сума от квадратите на грешките

, 4.9
където Nc e броят на кластерите, Sj - множеството от образи, отнасящи се за j-ия кластер, а

4.10
е вектор на средните стойности на извадката за множеството Sj; Nj характеризира броят на образите, влизащи в множеството Sj. Показателят за качество (4.9) определя общата сума на квадратите на отклоненията на характеристиките на всички образи, влизащи в някакъв кластер, от съответстващите средни стойности на характеристиките на векторите на образите за този кластер. Алгоритъм, основан на този показател, ще бъде разгледан по-късно.

Съществуват редица показатели за качество, подобни на разгледания [...]. Някои от по-широкo разпространените показатели са: средната стойност на квадратите на разстоянията между образите, влизащи в различните кластери; показатели, основани на понятието матрици на разсейването; минимум и максимум на дисперсията и др.

Нерядко се използват алгоритми за отделяне на кластери, основани на съвместно използване на евристичния подход и показатели на качество. Подобна комбинация е в алгоритъмът Isodate (Iterative Self-Organizing Data Analysis Techniques), който ще бъде представен по-късно.

4.4. Примери на процедури за кластеризация

1. Прост алгоритъм за отделяне на кластери

Нека е зададено множеството от N образи {X1,X2...XN}. Нека центърът на първия кластер Z1 да съвпада с някой от зададените образи и освен това да е определена произволна неотрицателна прагова стойност Т. За удобство ще считаме, че Z1=X1. Изчислява се разстоянието D21 между образа Х2 и центъра Z1 пo (4.7). Ако това разстояние е по-голямо от праговата стойност Т, това означава, че образът Х2 не принадлежи към класа, чиито център съвпада с Z1 (първия клас). Формира се нов кластер чийто център Z2=X2. Aко D21



Сподели линка с приятел:





Яндекс.Метрика
Лично подоходно облагане 9 out of 10 based on 2 ratings. 2 user reviews.