Разработка программно-технологического обеспечения статистического описания объектов посредством Visual Basic for Application Excel
1 МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ Учреждение образования«Гомельский государственный университет имени Франциска Скорны»Математический факультетКафедра математических проблем управленияДопущена к защитеЗав. кафедрой_____________Максимей И.В. «____»_____________ 200 _ г.Разработка программно-технологического обеспечения статистического описания объектов посредством Visual Basic for Application Excel ДИПЛОМНАЯ РАБОТА Исполнитель: студентка группы М-52 ______Бондарева Юлия Викторовна Научный руководитель: кандидат физико- математических наук доцент кафедры МПУ____________Осипенко Наталья Борисовна Рецензент: доктор технических наук, профессор, профессор кафедры ВМП____________Можаровский В.В. Гомель 2007РЕФЕРАТ Ключевые слова: кластер - анализ, близость между объектами, расстояние, нормировка, алгоритм прямой классификации, нормальная вероятностная бумага, математическое ожидание, дисперсия, макрос, средства автоматизации, лабораторная работа. Объект исследования: статистическое описание экспериментальных данных. Методы исследования: метод K - ближайших соседей, метод нормальной вероятностной бумаги, непараметрические методы оценки плотности распределения Цель дипломной работы: разработка комплекса обучающих средств для студентов, помогающих в изучении и освоении проблематики: ѕ теории классификации на примере алгоритма прямой классификации упрощенным методом K - ближайших соседей; ѕ оценки функции плотности распределения вероятностей с помощью непараметрических методов; ѕ параметрической аппроксимации функции плотности распределения вероятностей с помощью нормальной вероятностной бумаги; ѕ интерпретации полученных результатов эмпирической статистической обработки данных. Выводы: разработаны обучающие средства, позволяющие: ѕ преподавателю упростить процедуру проверки правильности выполнения работ; ѕ студентам упростить решение задачи статистического описания; ѕ студентам предоставить наглядные обучающие средства для изучения влияния нормировки, начального разбиения выборки, выбора расстояния на результаты классификации. СОДЕРЖАНИЕ - Введение 5
- 1 Типы задач статистической обработки 7
- 1.1 Статистическая аппроксимация законов распределения 7
- 1.1.1 Гистограмма и полигон частот 7
- 1.1.2 Оценка плотности распределения вероятностей «ядерного» типа 8
- 1.2 Основные теоретические сведения по теории классификации 10
- 1.2.1 Основные понятия кластерного анализа и проблема измерения близости между объектами 10
- 1.2.2 Типы методов кластер - анализа 13
- 1.2.3 Систематизация алгоритмов 14
- 1.2.4 Алгоритмы прямой классификации 15
- 1.2.5 Алгоритм иерархической классификации. 16
- 1.2.6 Алгоритм k-средних 17
- 2 Алгоритмы методов статистического описания выборки 18
- 2.1 Алгоритмы непараметрической аппроксимации функции плотности распределения вероятностей 18
- 2.2 Алгоритм параметрической аппроксимации функции плотности распределения вероятностей на основе вероятностной бумаги 20
- 2.3 Упрощенная схема алгоритма прямой классификации 20
- 3 Статистическое описание выборки на основе VBA 22
- 3.1 Описание средств автоматизации непараметрической аппроксимации функции плотности распределения вероятностей 22
- 3.1.1 Описание средств автоматизации равноинтервальной гистограммы и полигона частот 22
- 3.1.2 Описание средств автоматизации равнонаполненной гистограммы и полигона частот. 22
- 3.1.3 Описание средств автоматизации «ядерной» функции плотности 23
- 3.2 Описание средств автоматизации параметрической аппроксимации функции плотности распределения вероятностей на основе нормальной вероятностной бумаги 24
- 3.3 Описание средств автоматизации алгоритма прямой классификации 25
- 4 Апробация средств автоматизации в виде макросов 28
- 4.1 Апробация программного обеспечения средствами встроенного пакета анализа данных Excel 28
- 4.1.1 Апробация программного обеспечения алгоритма прямой классификации 28
- 4.1.2 Апробация программного обеспечения параметрической аппроксимации функции плотности распределения вероятностей на основе нормальной вероятностной бумаги 31
- 4.1.3 Апробация программного обеспечения непараметрических методов статистической аппроксимации законов распределения 33
- Заключение 35
- Список использованных источников 36
Приложение А Апробация программного обеспечения алгоритма прямой классификации средствами пакета анализа данных STATISTICA………. 37 Приложение Б Текст программы макроса для параметрической аппроксимации функции плотности распределения вероятностей на основе нормальной вероятностной бумаги………………………………………. 45 Приложение В Текст программы макроса для алгоритма прямой классификации ……………………………………………………………….. 47 Приложение Г Текст программы макроса для непараметрических методов статистического описания выборки............................................................... 57 - ВВЕДЕНИЕ
- Всё множество задач статистической обработки данных сводится к задачам описания и прогноза. На начальном этапе статистического исследования ставится цель определения объекта и его описания. В том случае, если объектом исследования является выборка, то методами разведочного (предмодельного) статистического анализа данных необходимо определить вероятностную и геометрическую природу обрабатываемых данных, а также выяснить, однородны ли имеющиеся эмпирические данные, т.е. целесообразно ли разбиение совокупности на части, представляющие собой кластеры. В последствии на основе этих заключений формируются адекватные реальности рабочие допущения, на основе которых осуществляется дальнейшее исследование. Поэтому стала актуальной проблема разработки средств автоматизации, позволяющих построить статистическую модель в виде эмпирического описания структуры данных, которую необходимо в ходе статистического исследования верифицировать.
- Если объектом исследования является выборка, которая принадлежит к нормальному распределению, то задача статистической обработки сводится к оценке её параметров. Для оценки параметров выборки можно воспользоваться методом нормальной вероятностной бумаги. В том же случае, когда конкретный вид функции распределения неизвестен, и о виде распределения можно сделать лишь самые общие предположения, то при таких условиях можно воспользоваться аппроксимациями неизвестной функции распределения на основе выборки , называемыми непараметрическими, а именно - гистограммой и полигоном частот для статистических данных с разбиением на интервалы равной длины, или с разбиением на равнонаполненные интервалы, непараметрической оценкой функции плотности распределения вероятности для статистических данных методом прямоугольных вкладов.
- Эти методы предусматривают однообразные и рутинные вычисления, поэтому стала актуальной разработка средств автоматизации проверки правильности производимых расчётов.
- Работа посвящена созданию обучающих средств, помогающих студентам в изучении и освоении метода оценки параметров выборки с помощью нормальной вероятностной бумаги, непараметрических методов аппроксимации функции распределения и метода классификации экспериментальных данных упрощенным алгоритмом K - ближайших соседей.
- В качестве среды реализации алгоритма был выбран встроенный пакет анализа данных Excel, потому что он является базовым компонентом Microsoft Office и доступен большинству обычных пользователей.
- Постановка задачи:
- Изучить литературу о типах методов кластерного анализа, об алгоритмах прямой классификации.
- Изучить литературу о статистической аппроксимации законов распределения, гистограмме и полигоне частот, оценке плотности распределения вероятностей «ядерного» типа, о параметрических методах оценки плотности распределения вероятностей.
- Разработать алгоритмы программной реализации: алгоритма прямой классификации упрощенным методом K - ближайших соседей, метода нормальной вероятностной бумаги и непараметрических методов аппроксимации функции плотности распределения.
- Разработать макросы, позволяющие реализовать алгоритм прямой классификации упрощенным методом K - ближайших соседей.
- Разработать макрос для оценки параметров выборки методом нормальной вероятностной бумаги.
- Разработать макросы для непараметрических методов оценки функции плотности распределения.
- Разработать обучающие средства по первичной статистической обработке данных на основе созданных макросов.
- В первой главе дипломной работы сделан обзор задач статистического описания.
- Во второй главе приведены алгоритмы прямой классификации упрощенным методом K - ближайших соседей, оценки параметров выборки методом нормальной вероятностной бумаги и алгоритмы непараметрической оценки функции плотности распределения.
- Третья глава посвящена статистическому описанию выборки на основе Visual Basic for Application.
- В четвертой главе работы описана апробация средств автоматизации в виде макросов.
- 1 Типы задач статистической обработки
1.1 Статистическая аппроксимация законов распределенияПервичные данные, полученные при наблюдении, обычно трудно обозримы. Для того чтобы начать анализ, в них надо внести некоторый порядок и придать им удобный для исследователя вид. В частности, для начала желательно получить представление об одномерных распределениях случайных величин, входящих в данные. Существуют два типа задач аппроксимации распределений [2,4]. Если вид функции распределения известен, но не известны ее параметры, тогда задача сводится к параметрическому оцениванию. Бывают ситуации, когда конкретный вид функции распределения неизвестен, и о виде распределения можно сделать лишь самые общие предположения. При таких условиях аппроксимацию неизвестной функции распределения на основе выборки называют непараметрической. 1.1.1 Гистограмма и полигон частот. Классическими методами статистической аппроксимации функции плотности являются гистограмма (равноинтервальная и равнонаполненная) и полигон частот.Выборочная функция плотности распределения или гистограмма (равноинтервальная) строится следующим образом. Делим промежуток [a,b], на котором сосредоточены данные выборки на S интервалов , равной длины h=(b-a)/S. Подсчитываем число наблюдений , попавших в интервал , соответственно. Полагаем , (1.1) Полигон частот получают путем сглаживания гистограммы , , (1.2) где - середина промежутка , -правый конец промежутка . Очевидно, что . Выборочная функция плотности распределения или гистограмма (равнонаполненная) строится исходя из предположения, что вся площадь под графиком оценки функции разбивается на k равных частей. Тогда площадь каждой части равна , . Для конкретной выборки рассчитываются длины интервалов , а затем, опираясь на формулу , (1.3) определяется . На основании полученных значений длины и высоты каждого прямоугольника гистограммы получаем оценку . 1.1.2 Оценка плотности распределения вероятностей «ядерного» типа. Для малых выборок (N<30) гистограмма и полигон частот оказываются обычно искаженными за счет тех или иных случайных локальных отклонений, связанных с отсутствием необходимого числа объектов. Одним из способов частично ликвидировать этот пробел явилась «ядерная» аппроксимация, которая путем «размазывания» имеющихся точек заполняет на гистограмме «впадины» и срезает «пики». Отметим, что «ядерное» сглаживание учитывает особенность функции плотности распределения и потому из всех методов сглаживания является наиболее корректным.Оценка плотности распределения для большинства методов «ядерного» типа обобщенно может быть выражена линейной суммой двух компонент: априорной и эмпирической: (1.4) где - априорная компонента; - составляющая эмпирической компоненты, связанная с i- той реализацией выборки; - вес априорной компоненты. Различным методам исследования соответствуют разные значения и разные виды функции . Широко известны оценки f(x) типа (1.3) при значении . В методе прямоугольных вкладов. (1.5) (1.6) (1.7) где [a,b] -интервал изменения случайной величины x; d - ширина функции вклада. В качестве d может быть взято, например: (1.8)
Страницы: 1, 2, 3, 4, 5, 6, 7, 8
|