на тему рефераты Информационно-образоательный портал
Рефераты, курсовые, дипломы, научные работы,
на тему рефераты
на тему рефераты
МЕНЮ|
на тему рефераты
поиск
Разработка программно-технологического обеспечения статистического описания объектов посредством Visual Basic for Application Excel

Разработка программно-технологического обеспечения статистического описания объектов посредством Visual Basic for Application Excel

1

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

Учреждение образования

«Гомельский государственный университет имени Франциска Скорны»

Математический факультет

Кафедра математических проблем управления

Допущена к защите

Зав. кафедрой_____________Максимей И.В.

«____»_____________ 200 _ г.

Разработка программно-технологического обеспечения статистического описания объектов посредством Visual Basic for Application Excel

ДИПЛОМНАЯ РАБОТА

Исполнитель:

студентка группы М-52 ______Бондарева Юлия Викторовна

Научный руководитель:

кандидат физико-

математических наук

доцент кафедры МПУ____________Осипенко Наталья Борисовна

Рецензент:

доктор технических наук,

профессор, профессор

кафедры ВМП____________Можаровский В.В.

Гомель 2007

РЕФЕРАТ

Ключевые слова: кластер - анализ, близость между объектами, расстояние, нормировка, алгоритм прямой классификации, нормальная вероятностная бумага, математическое ожидание, дисперсия, макрос, средства автоматизации, лабораторная работа.

Объект исследования: статистическое описание экспериментальных данных.

Методы исследования: метод K - ближайших соседей, метод нормальной вероятностной бумаги, непараметрические методы оценки плотности распределения

Цель дипломной работы: разработка комплекса обучающих средств для студентов, помогающих в изучении и освоении проблематики:

ѕ теории классификации на примере алгоритма прямой классификации упрощенным методом K - ближайших соседей;

ѕ оценки функции плотности распределения вероятностей с помощью непараметрических методов;

ѕ параметрической аппроксимации функции плотности распределения вероятностей с помощью нормальной вероятностной бумаги;

ѕ интерпретации полученных результатов эмпирической статистической обработки данных.

Выводы: разработаны обучающие средства, позволяющие:

ѕ преподавателю упростить процедуру проверки правильности выполнения работ;

ѕ студентам упростить решение задачи статистического описания;

ѕ студентам предоставить наглядные обучающие средства для изучения влияния нормировки, начального разбиения выборки, выбора расстояния на результаты классификации.

СОДЕРЖАНИЕ

  • Введение 5
  • 1 Типы задач статистической обработки 7
    • 1.1 Статистическая аппроксимация законов распределения 7
    • 1.1.1 Гистограмма и полигон частот 7
    • 1.1.2 Оценка плотности распределения вероятностей «ядерного» типа 8
    • 1.2 Основные теоретические сведения по теории классификации 10
    • 1.2.1 Основные понятия кластерного анализа и проблема измерения близости между объектами 10
    • 1.2.2 Типы методов кластер - анализа 13
    • 1.2.3 Систематизация алгоритмов 14
    • 1.2.4 Алгоритмы прямой классификации 15
    • 1.2.5 Алгоритм иерархической классификации. 16
    • 1.2.6 Алгоритм k-средних 17
  • 2 Алгоритмы методов статистического описания выборки 18
  • 2.1 Алгоритмы непараметрической аппроксимации функции плотности распределения вероятностей 18
  • 2.2 Алгоритм параметрической аппроксимации функции плотности распределения вероятностей на основе вероятностной бумаги 20
    • 2.3 Упрощенная схема алгоритма прямой классификации 20
  • 3 Статистическое описание выборки на основе VBA 22
  • 3.1 Описание средств автоматизации непараметрической аппроксимации функции плотности распределения вероятностей 22
    • 3.1.1 Описание средств автоматизации равноинтервальной гистограммы и полигона частот 22
    • 3.1.2 Описание средств автоматизации равнонаполненной гистограммы и полигона частот. 22
    • 3.1.3 Описание средств автоматизации «ядерной» функции плотности 23
    • 3.2 Описание средств автоматизации параметрической аппроксимации функции плотности распределения вероятностей на основе нормальной вероятностной бумаги 24
    • 3.3 Описание средств автоматизации алгоритма прямой классификации 25
  • 4 Апробация средств автоматизации в виде макросов 28
  • 4.1 Апробация программного обеспечения средствами встроенного пакета анализа данных Excel 28
    • 4.1.1 Апробация программного обеспечения алгоритма прямой классификации 28
    • 4.1.2 Апробация программного обеспечения параметрической аппроксимации функции плотности распределения вероятностей на основе нормальной вероятностной бумаги 31
    • 4.1.3 Апробация программного обеспечения непараметрических методов статистической аппроксимации законов распределения 33
  • Заключение 35
  • Список использованных источников 36

Приложение А Апробация программного обеспечения алгоритма прямой классификации средствами пакета анализа данных STATISTICA………. 37

Приложение Б Текст программы макроса для параметрической аппроксимации функции плотности распределения вероятностей на основе нормальной вероятностной бумаги………………………………………. 45

Приложение В Текст программы макроса для алгоритма прямой классификации ……………………………………………………………….. 47

Приложение Г Текст программы макроса для непараметрических методов статистического описания выборки............................................................... 57

  • ВВЕДЕНИЕ
  • Всё множество задач статистической обработки данных сводится к задачам описания и прогноза. На начальном этапе статистического исследования ставится цель определения объекта и его описания. В том случае, если объектом исследования является выборка, то методами разведочного (предмодельного) статистического анализа данных необходимо определить вероятностную и геометрическую природу обрабатываемых данных, а также выяснить, однородны ли имеющиеся эмпирические данные, т.е. целесообразно ли разбиение совокупности на части, представляющие собой кластеры. В последствии на основе этих заключений формируются адекватные реальности рабочие допущения, на основе которых осуществляется дальнейшее исследование. Поэтому стала актуальной проблема разработки средств автоматизации, позволяющих построить статистическую модель в виде эмпирического описания структуры данных, которую необходимо в ходе статистического исследования верифицировать.
  • Если объектом исследования является выборка, которая принадлежит к нормальному распределению, то задача статистической обработки сводится к оценке её параметров. Для оценки параметров выборки можно воспользоваться методом нормальной вероятностной бумаги. В том же случае, когда конкретный вид функции распределения неизвестен, и о виде распределения можно сделать лишь самые общие предположения, то при таких условиях можно воспользоваться аппроксимациями неизвестной функции распределения на основе выборки , называемыми непараметрическими, а именно - гистограммой и полигоном частот для статистических данных с разбиением на интервалы равной длины, или с разбиением на равнонаполненные интервалы, непараметрической оценкой функции плотности распределения вероятности для статистических данных методом прямоугольных вкладов.
  • Эти методы предусматривают однообразные и рутинные вычисления, поэтому стала актуальной разработка средств автоматизации проверки правильности производимых расчётов.
  • Работа посвящена созданию обучающих средств, помогающих студентам в изучении и освоении метода оценки параметров выборки с помощью нормальной вероятностной бумаги, непараметрических методов аппроксимации функции распределения и метода классификации экспериментальных данных упрощенным алгоритмом K - ближайших соседей.
  • В качестве среды реализации алгоритма был выбран встроенный пакет анализа данных Excel, потому что он является базовым компонентом Microsoft Office и доступен большинству обычных пользователей.
  • Постановка задачи:
  • Изучить литературу о типах методов кластерного анализа, об алгоритмах прямой классификации.
  • Изучить литературу о статистической аппроксимации законов распределения, гистограмме и полигоне частот, оценке плотности распределения вероятностей «ядерного» типа, о параметрических методах оценки плотности распределения вероятностей.
  • Разработать алгоритмы программной реализации: алгоритма прямой классификации упрощенным методом K - ближайших соседей, метода нормальной вероятностной бумаги и непараметрических методов аппроксимации функции плотности распределения.
  • Разработать макросы, позволяющие реализовать алгоритм прямой классификации упрощенным методом K - ближайших соседей.
  • Разработать макрос для оценки параметров выборки методом нормальной вероятностной бумаги.
  • Разработать макросы для непараметрических методов оценки функции плотности распределения.
  • Разработать обучающие средства по первичной статистической обработке данных на основе созданных макросов.
  • В первой главе дипломной работы сделан обзор задач статистического описания.
  • Во второй главе приведены алгоритмы прямой классификации упрощенным методом K - ближайших соседей, оценки параметров выборки методом нормальной вероятностной бумаги и алгоритмы непараметрической оценки функции плотности распределения.
  • Третья глава посвящена статистическому описанию выборки на основе Visual Basic for Application.
  • В четвертой главе работы описана апробация средств автоматизации в виде макросов.
  • 1 Типы задач статистической обработки

1.1 Статистическая аппроксимация законов распределения

Первичные данные, полученные при наблюдении, обычно трудно обозримы. Для того чтобы начать анализ, в них надо внести некоторый порядок и придать им удобный для исследователя вид. В частности, для начала желательно получить представление об одномерных распределениях случайных величин, входящих в данные.

Существуют два типа задач аппроксимации распределений [2,4]. Если вид функции распределения известен, но не известны ее параметры, тогда задача сводится к параметрическому оцениванию. Бывают ситуации, когда конкретный вид функции распределения неизвестен, и о виде распределения можно сделать лишь самые общие предположения. При таких условиях аппроксимацию неизвестной функции распределения на основе выборки называют непараметрической.

1.1.1 Гистограмма и полигон частот. Классическими методами статистической аппроксимации функции плотности являются гистограмма (равноинтервальная и равнонаполненная) и полигон частот.

Выборочная функция плотности распределения или гистограмма (равноинтервальная) строится следующим образом. Делим промежуток [a,b], на котором сосредоточены данные выборки на S интервалов , равной длины h=(b-a)/S. Подсчитываем число наблюдений , попавших в интервал , соответственно. Полагаем

, (1.1)

Полигон частот получают путем сглаживания гистограммы

, , (1.2)

где - середина промежутка , -правый конец промежутка .

Очевидно, что .

Выборочная функция плотности распределения или гистограмма (равнонаполненная) строится исходя из предположения, что вся площадь под графиком оценки функции разбивается на k равных частей. Тогда площадь каждой части равна , . Для конкретной выборки рассчитываются длины интервалов , а затем, опираясь на формулу

, (1.3)

определяется . На основании полученных значений длины и высоты каждого прямоугольника гистограммы получаем оценку .

1.1.2 Оценка плотности распределения вероятностей «ядерного» типа.

Для малых выборок (N<30) гистограмма и полигон частот оказываются обычно искаженными за счет тех или иных случайных локальных отклонений, связанных с отсутствием необходимого числа объектов. Одним из способов частично ликвидировать этот пробел явилась «ядерная» аппроксимация, которая путем «размазывания» имеющихся точек заполняет на гистограмме «впадины» и срезает «пики». Отметим, что «ядерное» сглаживание учитывает особенность функции плотности распределения и потому из всех методов сглаживания является наиболее корректным.

Оценка плотности распределения для большинства методов «ядерного» типа обобщенно может быть выражена линейной суммой двух компонент: априорной и эмпирической:

(1.4)

где - априорная компонента; - составляющая эмпирической компоненты, связанная с i- той реализацией выборки; - вес априорной компоненты.

Различным методам исследования соответствуют разные значения и разные виды функции . Широко известны оценки f(x) типа (1.3) при значении . В методе прямоугольных вкладов.

(1.5)

(1.6)

(1.7)

где [a,b] -интервал изменения случайной величины x; d - ширина функции вклада.

В качестве d может быть взято, например:

(1.8)

Страницы: 1, 2, 3, 4, 5, 6, 7, 8



© 2003-2013
Рефераты бесплатно, курсовые, рефераты биология, большая бибилиотека рефератов, дипломы, научные работы, рефераты право, рефераты, рефераты скачать, рефераты литература, курсовые работы, реферат, доклады, рефераты медицина, рефераты на тему, сочинения, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент.