Лично подоходно облагане


Категория на документа: Финанси


Ст.11. Както и преди това, получаваме

D12=||Z1-Z2||=4,72
Ст.12 Полученият резултат е идентичен на резултата от предишната итерация.
Ст.13 Резултатът от ст.12 показва, че обединението на кластерите е невъзможно.
Ст.14 Тъй като това е последният итерационен цикъл, процедурата се прекратява.

Дори и от този прост пример личи, че алгоритъмът Isodate, приложен към набор от данни с умерена сложност, може да даде задоволителни резултати след провеждане на обширни експерименти.

Процедурата може да се ускори благодарение на ефективното използване на информацията, получавана след всеки цикъл от итерационният процес. Тя може да бъде използвана за корекция на параметрите на процеса на кластеризация.

4.5. Оценка на резултатите от процеса на кластеризация

Принципната трудност за оценяване на резултатите на алгоритмите за кластеризация е свързана с това, че не сме в състояние зрително да представим геометричните особености в n-мерното пространство. Обикновено размерността на образите е по-голяма от 3. Затова с цел да се даде възможност за интерпретиране на процедурата за формиране на кластери трябва да се използват схеми, които осигуряват някакво представяне за геометричните свойства на получаваните кластери. Ще разгледаме няколко метода за интерпретация на резултатите от кластеризацията [....].

При интерпретацията е полезно да се използва разстоянието между центровете на кластеритe. Най-често подобна информация се представя с таблици от вида 4.4, съставена за разглеждания числов пример. От нея могат да се извлекат редица важни свойства. Най-важното е ,че центърът на кластера Z5 е съществено отместен относно четирите други центрове на кластери. Освен това разстоянията

таблица за разстоянията 4.4 таблица за дисперсиите 4.5

между центровете на кластери Z1 и Z2, както и между Z1 и Z4 , са относително еднакви, ако разделянето става само на близко и далеко разположени кластери. Обикновено данните от таблицата за разстоянията се допълват с допълнителни данни, например броят на образите от извадката, влизащи във всеки кластер. Така например, имайки предвид, че центърът Z5 e значително отдалечен от центровете на останалите кластери, и ако е известно, че в този кластер влизат значителен брой образи, може да се приеме, че Z5 e център на действителен кластер. Ако в множеството S5 влизат само няколко образа (2 или 3), може да се счита, че тяхното разположение се дължи на действието на смущения и след съответния анализ да се отстрани този център на кластер.

Информацията за образите, съдържащи се в кластерите, може да се използва и при обединяването на кластерите. Ако центровете на два кластера са разположени сравнително близко един до друг и в един от тях има малък брой образи, то тези два кластера могат да се слеят.

Разсейването на характеристиките на кластера относно средните стойности може да се използва за получаване на представа за относителното разположение на образите вътре в кластера. Тази информация лесно може да се оформи в таблица, подобна на табл. 4.5, построена за разглеждания пример (за простота е прието, че образите са четиримерни). Si представлява i-тия кластер. Счита се, че всяка компонента на дисперсията представя отклонението по една от координатните оси. Въз основа на тази таблица може да се установят някой свойства на образите. Например, доколкото кластера S1, се характеризира примерно с еднакви дисперсии по всички координатни оси, може да се предположи, че неговата форма е близка до сферична. От друга страна, кластерът S5 се отличава със значителна разтегленост по направление на третата координатна ос.

Съществуват и множество други количествени оценки за кластерната структура. Например, полезни са сведения за най-близките и най-отдалечените точки до центъра на всеки кластер. Ковариационната матрица, построена за множество образи от всеки кластер, също носи полезна информация.

Характерът на алгоритмите за формиране на кластери показва, че най-добрият начин за тяхната реализация е диалоговия режим. Резултатите от всеки итерационен цикъл се предават на ползвателя в такъв вид, че той, избирайки нужните параметри, да може да управлява процеса на кластеризация.

4.6. Кластеризация, основана на теорията на графите.

Алгоритмите, разглеждани в предния раздел, използват мерки за сходство, в основата на които лежи понятието разстояние. Тези алгоритми са полезни при задаване на класифицираните образи във вид на числови вектори. Кластерите се избират така, че разстоянията между отделните образи във всеки кластер се минимизира, а разстоянията между образите, отнасящи се към два различни класа, да са възможно по-големи.

Друг възможен подход за отделяне на кластери е свързан с използването на редица фундаментални понятия от теорията за графите [....]. Този подход предвижда първоначално да бъде построен граф на образите на дадена извадка. Образите се представят като върхове (възли) в графа, при което върховете j и k се свързват с дъги (ребра), ако съответните образи са сходни или между тях съществува някакво отношение. Счита се, че образите Xj и Xk са сходни, ако стойността на съответната мярка за сходство S(Xj,Xk) се оказва по-голяма от зададен праг. Мерките за сходство могат да се използват за построяване на матрица за сходство S, елементите на каятo са 0 и 1. Матрицата за сходство позволява при построяването на графа на образите да се използва системна процедура. Този теоретичен подход, основан на теорията на графите, може да се използва в тези случаи, когато образите сe характеризират не с числови оценки, а посредством определени отношения.

??

??

??

??





Сподели линка с приятел:





Яндекс.Метрика
Лично подоходно облагане 9 out of 10 based on 2 ratings. 2 user reviews.