p align="left">ѕ Discriminant Function Analysis - дискриминантный анализ (sta_dis); ѕ Survival Analysis - анализ процессов гибели и размножения: описание и сравнение развития; анализ таблиц развития; тест Каплан-Мейера и тесты для двух и более выборок, определение типа распределения (Вейбул, Гомпертц, ...), построение регрессионных моделей (лог-нормальная, экспоненцияльная и другие формы) (sta_sur); ѕ Quality Control - контроль качества, анализ различных диаграмм (X, R, S, Si, CUSUM, Парето и др.) (sta_qua); ѕ Process Analysis - анализ процессов: расчет плана по среднему, по пропорциям и Пуассоновским частотам, анализ совместности процессов и интервалов толерантности и другое (sta_pro); ѕ Experimental Design - планирование экспериментов, построение ДФП, ЦКП и др. (sta_exp); 5 Модуль визуализации. Данный модуль обеспечивает отображение результатов работы статистических процедур. Предлагается два режима отображения - табличный и графический. Для графического отображения предусмотрены следующие возможности: ѕ 2-мерная графика: гистограмма, XY-проекция, вероятностная бумага (нормальная, полунормальная), ящики с “усами”, круговые диаграммы и другое; ѕ 3-мерная графика: проекции, гистограммы, ящики с “усами” и т.д.; ѕ различные 3-мерные проекции; ѕ отображение многомерной выборки в виде “лиц Чернова”, графиков Кивиата, полигонов, профилей и т.д. Имеется возможность сохранения результатов в виде файлов данных (для таблиц), STG-файлов (для графики) либо в виде твердой копии с помощью функций печати. Используя стандартные OLE-операции можно также вставлять результаты в документы и электронные таблицы (Word, PageMaker, Exсel и другие приложения Windows, поддерживающие стандарт OLE). Технология статистического анализа данных пакета STATISTICA Данная работа в пакете Statistica апробирована среди студентов математического факультета группы ПОИТ-36. Для начала работы с пакетом Statistica необходимо подготовить данные измерений в виде файла формата dBase или в Excel. Дальнейшее выполнение технологических цепочек с использованием пакета Statistica предполагает предварительный импорт данных во внутренний формат данных пакета. Для этого необходимо выполнить следующую цепочку действий: 1 Вызов пакета Statistica из Windows: \Пуск \Программы \Statistica. После этого пользователю будет предложено выбрать раздел, с которым он будет работать. 2 Выбор раздела управления данными: \Data Management MFM \Switch To \Cancel. 3 Выбор операции импорта исходных данных: \File \Import \ODBC. 4 Выбор типа импортируемого файла: \dBase Files \OK; 5 Указание пути к данным: \Выбор диска \Выбор папки \OK. 6 Указание импортируемой таблицы: \Tables \<выбор>. 7 Выбор списка рабочих полей: \Fields \<выбор> \ADD. 8 Импорт данных: \OK \<ввод имени: data > \OK. Если появиться окно диалога `File exist...', то нажать кнопку `OK'. 9 Выход: \File \Exit. Методы автоматической классификации требуют предварительной нормировки данных. Технологическая цепочка нормировки данных имеет вид: 1 Нормирование данных: \Statistica \Data Management MFM \<выбор всех признаков> \Edit \Fill/Standardize Block \Standardize Columns. При этом осуществляется стандартная нормировка , где - среднее по признаку (столбцу) х, - стандартное отклонение по признаку х. 2 Сохранение нормированной выборки: \File \Save As \File Name: normir \OK. 3 Выбор раздела кластерного анализа: \Statistica \Cluster Analysis \Switch To. Таким образом, следующие методы классификации ориентированы на рабочий файл `normir.sta'. Алгоритмы прямой классификации методом иерархической классификации и методом К-средних приведены в пунктах 1.2.5 и 1.2.6. Технологическая цепочка автоматической классификации методом иерархической классификации имеет вид: 1 Выбор метода иерархической классификации: \Joining (tree clustering). 2 Выбор признаков для классификации: \Variables \<выбор> \OK \OK. 3 В результате будет предложено графическое отражение процесса иерархической классификации. График можно распечатать (\File \Print Graph \OK) или сохранить в файле (\File \Save as). С помощью комбинации клавиш Ctrl+Ins, график можно сохранить в буфере обмена Windows и далее с помощью вставки данных буфера обмена (Shift+Ins) использовать его в редакторах отчетов. 4 По полученной графической проекции визуально определяется состав классов, который заносится в общий отчет в виде таблицы. 5 Выход: \Ctrl+F4 \Cancel \Cancel. Технологическая цепочка автоматической классификации методом К-средних имеет вид: 1 Выбор метода К-средних: \K-means clustering. 2 Выбор признаков для классификации: \Variables \<выбор> \OK. 3 Указание возможного количества классов: \Number of clusters: <ввод количества> \OK. 4 Просмотр признакового состава классов: \Members of each cluster & distances. 5 В результате будут выведены таблицы, отражающие состав признаков по классам. 6 Формирование выходного отчета с использованием операций обмена с буфером Windows (полученные таблицы вставляются в выходной документ). 7 Выход: \File \Exit. Апробация программного обеспечения алгоритма прямой классификации средствами пакета анализа данных Statistica В ряде практических случаев для проведения законченного статистического исследования не требуется разрабатывать дополнительное, а достаточно использовать стандартное программное обеспечение, например, систему STATISTICA. Все этапы статистического анализа, начиная от ввода исходных данных, их преобразования и заканчивая подготовкой отчета или написания собственных процедур обработки, можно выполнить, используя только систему STATISTICA. Для сравнения результатов, полученных при помощи разработанных в среде пакета анализа данных EXCEL макросов для алгоритма прямой классификации упрощенным методом K - ближайших соседей, используются средства Statistica. С этой целью разработана методика и рекомендации по работе в Statistica. В пакете анализа данных для экспериментальных данных выбран инструмент исследования Kluster analis/K - means klustering. Получены следующие результаты. Рисунок 5.1 - Определение классов Как видно из полученных отчетов (см. рисунки 5.1, 5.2, 5.3) к первому классу отнесены элементы выборки под порядковыми номерами 1,2,4,5,6,7,9,10, ко второму классу - 3,8,11,12,13,14.!5,16,17,18,19,20. После сравнения этих данных с результатами работы макросов, разработанных в Excel, можно заметить, что наиболее близкие результаты были получены при первоначальном разбиении выборки на две части путем присвоения к первому классу первой половины элементов, ко второму классу - второй половины выборки, независимо от выбора расстояния. Рисунок 5.2 - Состав первого класса и расстояние для классового центра Рисунок 5.3 - Состав первого класса и расстояние для классового центра Приложение БТекст программы макроса для параметрической аппроксимации функции плотности распределения вероятностей на основе нормальной вероятностной бумаги Function RndN(ByVal a As Single, s2 As Single) As Single 'возвр. число, нормально распределенное со средним a и дисперсией s2 Dim usum As Single Dim i As Integer usum = -6 For i = 1 To 12 usum = usum + Rnd Next i RndN = a + usum * Sqr(s2) End Function Private Sub CommandButton1_Click() Dim i As Integer Dim min As Double Dim max As Double Dim imax As Integer Dim imin As Integer Dim x084 As Double Dim x05 As Double Cells(7, 2) = "Ждите..." 'Очистка ячеек n = Cells(2, 2) For i = 2 To n + 2 Cells(i, 3) = "" Cells(i, 4) = "" ' Cells(i, 5) = "" Cells(i, 7) = "" Cells(i, 8) = "" Next i 'генерация элементов выборки 2 m = InputBox("Введите количество элементов выборки", "Ввод") For i = 1 To m Randomize Cells(i + 2, 1) = RndN(0, 1) Next i For i = 1 To n Application.Cells(i + 1, 3) = i Next i For i = 1 To n Application.Cells(i + 1, 4) = i / n Next i 'Построение прямой min = Cells(2, 1) For i = 3 To n + 1 If Cells(i, 1) < min Then min = Cells(i, 1) Next i max = Cells(2, 1) For i = 2 To n If Cells(i, 1) > max Then max = Cells(i, 1) Next i Cells(2, 7) = min Cells(3, 7) = max imin = 1 min = Application.Cells(2, 1) For i = 3 To n If Application.Cells(i, 1) > min Then imin = i - 1 If Application.Cells(i, 1) > min Then min = Application.Cells(i, 1) Next i imax = 1 max = Application.Cells(2, 1) For i = 3 To n If Application.Cells(i, 1) < max Then imax = i - 1 If Application.Cells(i, 1) < max Then max = Application.Cells(i, 1) Next i vmin = Application.Cells(imin + 1, 5) vmax = Application.Cells(imax + 1, 5) Application.Cells(4, 7) = vmax Application.Cells(5, 7) = vmin 'Уравнение прямой имеет вид: 'x=(y-vmin)*(max-min)/(vmax-vmin)+min x05 = (0.5 - vmin) * (max - min) / (vmax - vmin) + min Cells(7, 7) = x05 x084 = (0.84 - vmin) * (max - min) / (vmax - vmin) + min Cells(8, 7) = x084 - x05 Cells(7, 2) = "Готово." End Sub Приложение В Текст программы макроса для алгоритма прямой классификации Private Sub CommandButton2_Click() Dim i, j As Integer Dim SUM As Integer Dim flag As Integer Dim max As Integer Dim maxi As Double Dim maxu As Double Dim sr As Double Dim sri As Double Dim sru As Double Dim l As Integer Dim m As Integer Dim jmin As Integer Dim imin As Integer Dim k(20) As Integer SUM = 0 flag = 0 If OptionButton1.Value = True Then Cells(19, 4) = "Ждите..." n = Cells(1, 5) ' среднее по выборкам For i = 1 To n sr = sr + Cells(i + 1, 1) Next i Application.Cells(4, 4) = sr / n For i = 1 To n sri = sri + Cells(i + 1, 2) Next i Application.Cells(4, 5) = sri / n For i = 1 To n sru = sru + Cells(i + 1, 3) Next i Application.Cells(4, 6) = sru / n 'Максимальное значение max = Cells(2, 1) For i = 2 To n If Cells(i, 1) > max Then max = Cells(i, 1) Next i Cells(7, 4) = max maxi = Cells(2, 2) For i = 2 To n If Cells(i, 2) > maxi Then maxi = Cells(i, 2) Next i Cells(7, 5) = maxi maxu = Cells(2, 3) For i = 2 To n If Cells(i, 3) > maxu Then maxu = Cells(i, 3) Next i Cells(7, 6) = maxu maxu = Cells(2, 1) For i = 2 To n If Cells(i, 3) > maxu Then maxu = Cells(i, 1) Next i Cells(7, 4) = maxu 'Нормировка по формуле(6) n = Cells(1, 5) For i = 1 To n Application.Cells(i + 2, 7) = Cells(i + 1, 1) / Cells(7, 4) Next i For i = 1 To n Application.Cells(i + 2, 8) = Cells(i + 1, 2) / Cells(7, 5) Next i For i = 1 To n Application.Cells(i + 2, 9) = Cells(i + 1, 3) / Cells(7, 6)
Страницы: 1, 2, 3, 4, 5, 6, 7, 8
|