
We are searching data for your request:
Upon completion, a link will appear to access the found materials.
Нормалната дистрибуција, позната и како Гаусова дистрибуција, е дистрибуција на веројатност која е симетрична во однос на средната вредност, што покажува дека податоците близу до просекот се почести по појавата отколку податоците далеку од просечната. Во форма на графикон, нормалната дистрибуција ќе се појави како крива на ellвонче.
Клучни полетувања
- Нормалната дистрибуција е соодветен термин за кривата на веројатноста на ellвончето.
- Во нормална дистрибуција просекот е нула и стандардното отстапување е 1. Има нула накривување и куртоза од 3.
- Нормалните дистрибуции се симетрични, но не сите симетрични дистрибуции се нормални.
- Во реалноста, повеќето дистрибуции на цени не се сосема нормални.
Нормална дистрибуција
Содржина
Нотација и параметризација Уреди
Мултиваријантната нормална дистрибуција на a к-димензионален случаен вектор X = (X 1,…, X k) T < displaystyle mathbf или експлицитно да се каже дека X е к-димензионални, Сферната нормална дистрибуција може да се карактеризира како единствена дистрибуција каде компонентите се независни во кој било ортогонален координатен систем. [3] [4] За мултиваријантната нормална дистрибуција се вели дека е „не-дегенерирана“ кога симетричната матрица на коваријанса Σ < displaystyle < boldsymbol < Sigma >>> е позитивна дефинитивна. Во овој случај, дистрибуцијата има густина [5] Кружно симетричната верзија на комплексната нормална дистрибуција има малку поинаква форма. Секој локус на изо-густина - локус на точки во к-димензионален простор од кои секоја ја дава истата посебна вредност на густината - е елипса или нејзино повисоко-димензионално генерализирање, па затоа мултиваријантната норма е посебен случај на елиптичните дистрибуции. Во биваријантен случај, првиот еквивалентен услов за повеќе варијатна реконструкција на нормалноста може да се направи помалку ограничувачки бидејќи е доволно да се потврди дека многу различни линеарни комбинации на X < displaystyle X> и Y < displaystyle Y> се нормални за да се заклучи дека векторот на [XY] ′ < displaystyle < text <[XY] ′ >>> е биваријантен нормален. [6] Биваријантните локуси со изолација на густината, претставени во x, y < дисплејот стил x, y>, се елипси, чии главни оски се дефинирани од сопствените вектори на матрицата на коваријанса Σ < displaystyle < boldsymbol < Sigma >>> ( големите и помалите полудиаметри на елипсата се еднакви на квадратниот корен на подредените сопствени вредности). Ако матрицата коваријанса Σ < displaystyle < boldsymbol < Sigma >>> не е полн ранг, тогаш мултиваријантната нормална дистрибуција е дегенерирана и нема густина. Поточно, нема густина во однос на к-димензионална мерка Лебес (која е вообичаена мерка претпоставена во курсевите за веројатност на ниво на камен). За само случајните вектори, чии распределби се апсолутно континуирани во однос на одредена мерка, се вели дека имаат густина (во однос на таа мерка). Да се зборува за густините, но да се избегне справување со теоретските компликации, може да биде поедноставно да се ограничи вниманието на подмножество на ранг (Σ) < displaystyle operatorname Поимот кумулативна функција на дистрибуција (cdf) во димензијата 1 може да се прошири на два начина до повеќедимензионалниот случај, заснован на правоаголни и елипсоидни региони. Интервалот за мултивариантната нормална дистрибуција дава регион кој се состои од тие вектори x задоволувачки Иако не постои едноставна затворена формула за пресметување на ccdf, максимумот на зависни Гаусови променливи може точно да се процени преку методот Монте Карло. [13] [14] На кмоменти од та-ред x се дадени од каде р1 + р2 + ⋯ + рН. = к. На кЦентралните моменти од редоследот се како што следува Ако се познати просечната и коваријантната матрица, веројатноста за најавување на набудуваниот вектор x < displaystyle < boldsymbol Кружно симетрична верзија на нецентралниот комплексен случај, каде што z < displaystyle < boldsymbol Бидејќи веројатноста за најавување на нормален вектор е квадратна форма на нормалниот вектор, тој се дистрибуира како генерализирана хи-квадратна променлива. [15] Диференцијалната ентропија на мултиваријантната нормална дистрибуција е [17] каде што прачките ја означуваат детерминантата на матрицата и к е димензионалноста на векторскиот простор. Логаритмот мора да се земе во основа д бидејќи двата поима што го следат логаритмот се самид логаритми на изрази кои се или фактори на функцијата на густината или на друг начин се јавуваат природно. Затоа, равенката дава резултат измерен во род. Делење на целиот израз погоре со дневникд 2 ја дава дивергенцијата во битови. Во биваријантен случај, изразот за заемна информација е: Општо, случајните променливи можат да бидат некорелетирани, но статистички зависни. Но, ако случаен вектор има повеќеменлива нормална дистрибуција, тогаш кои било две или повеќе негови компоненти кои не се поврзани, се независни. Ова подразбира дека какви било две или повеќе од нејзините компоненти кои се независни во парови се независни. Но, како што беше посочено веднаш погоре, тоа е не точно дека две случајни променливи се (одделно, маргинално) нормално распределени и некорелирани се независни. Ако Н.-димензионални x е поделена на следниов начин и соодветно на тоа μ и Σ се поделени на следниов начин потоа дистрибуцијата на x1 условно со x2 = а е мултиваријантна нормална (x1 | x2 = а) Н.( μ , Σ ) каде Оваа матрица е додаток на Шур Σ22 во Σ. Ова значи дека за да се пресмета матрицата на условена коваријанса, се превртува вкупната матрица на коваријанса, се испуштаат редовите и колоните што одговараат на променливите со кои се условувани, а потоа се превртуваат назад за да се добие матрицата на условната коваријанса. Еве Σ 22 - 1 < displaystyle < boldsymbol < Sigma >> _ <22> ^ <-1>> е генерализирана инверзна на Σ 22 < displaystyle < boldsymbol < Sigma >> _ <22>>. Матрицата Σ12Σ22 −1 е позната како матрица на коефициенти на регресија. Условното очекување на Х.1 со оглед на Х.2 е: Доказ: резултатот се добива со земање на очекувањата за условната распределба X 1 ∣ X 2 < displaystyle X_ <1> mid X_ <2>> погоре. Условното очекување на X1 дадени X2 е а условната варијанса е така условната варијанса не зависи од x2. Условното очекување на X1 со оглед на тоа X2 е помал / поголем од z е: [21]: 367 каде што крајниот сооднос тука се нарекува инверзен сооднос на Милс. Доказ: последните два резултати се добиени со користење на резултатот E (X 1 ∣ X 2 = x 2) = ρ x 2 < displaystyle operatorname За да се добие маргинална дистрибуција над подмножество на повеќе варијатни нормални случајни променливи, треба само да се исфрлат ирелевантните променливи (варијаблите што некој сака да ги маргинализира) од просечниот вектор и матрицата на коваријанса. Доказот за ова произлегува од дефинициите за повеќе варијатни нормални дистрибуции и линеарна алгебра. [22] Нека X = [X1, X2, X3] да бидат повеќеменливи нормални случајни променливи со среден вектор μ = [μ1, μ2, μ3] и коваријантна матрица Σ (стандардна параметризација за повеќе варијатни нормални дистрибуции). Потоа заедничката дистрибуција на X = [X1, X3] е мултиваријантен нормален со среден вектор μ = [μ1, μ3] и коваријантна матрица Σ ′ = [Σ 11 Σ 13 Σ 31 Σ 33] < стил на прикажување < boldsymbol < Sigma >> '= < започне што директно ги извлекува посакуваните елементи. Друг заклучок е дека дистрибуцијата на З. = б · X , каде б е постојан вектор со ист број на елементи како и X и точката го означува производниот точка, е еднообразен Гаусов со Z ∼ N (b ⋅ μ, b T Σ b) < displaystyle Z sim < mathcal Набудувајте како позитивно-определеноста на Σ имплицира дека варијансата на производот со точки мора да биде позитивна. Афинска трансформација на X како што е 2X не е иста со збирот на две независни реализации на X. Контурите на рамномерноста на не-еднина мултиваријатна нормална дистрибуција се елипсоиди (т.е. линеарни трансформации на хиперсфери) центрирани на средната вредност. [23] Оттука, мултиваријантната нормална дистрибуција е пример за класата на елипсовидна дистрибуција. Насоките на главните оски на елипсоидите се дадени од сопствените вектори на матрицата на коваријанса Σ < displaystyle < boldsymbol < Sigma >>>. Квадратираните релативни должини на главните оски се дадени според соодветните сопствени вредности. Ако Σ = UΛU Т = UΛ 1/2 (UΛ 1/2) Т е еигено-состав кога колоните од У се единични сопствени вектори и Λ е дијагонална матрица на сопствените вредности, тогаш имаме Згора на тоа, У може да се избере како ротација матрица, бидејќи превртувањето на оската нема никакво влијание врз Н.(0, Λ), но превртувањето на колоната го менува знакот на Удетерминанта. Дистрибуцијата Н.(μ, Σ) е во сила Н.(0, Јас) намалена од Λ 1/2, ротиран од У и во превод на μ. И обратно, секој избор од μ, матрица со целосен ранг У, и позитивни дијагонални записи Λјас дава не-единствена мултиваријатна нормална дистрибуција. Доколку има Λјас е нула и У е квадрат, како резултат на матрицата на коваријанса UΛU Т е еднина. Геометриски, ова значи дека секој елипсоид во контурата е бесконечно тенок и има нула волумен н-димензионален простор, бидејќи барем една од главните оски има должина од нула, ова е дегенериран случај. "Радиусот околу вистинската средина во биваријална нормална случајна променлива, препишан во поларни координати (радиус и агол), следи распределба на Хојт." [24] Изводот на проценувачот на максимална веројатност на матрицата на коваријанса на мултиваријатната нормална дистрибуција е јасен. Накратко, функцијата на густина на веројатност (pdf) на повеќе варијатна норма е и проценувач на МЛ на матрицата на коваријанса од примерок од н набудувања е што е едноставно примерокот матрица на коваријанса. Ова е пристрасен проценувач чие очекување е Непристрасен примерок коваријанса е Информациската матрица на Фишер за проценка на параметрите на мултиваријантната нормална дистрибуција има израз на затворена форма. Ова може да се искористи, на пример, за пресметување на Cramér – Rao врзаниот за проценка на параметарот во оваа поставка. Погледнете ги информациите за Фишер за повеќе детали. Во баезиската статистика, конјугатот пред средниот вектор е друга повеќеваријатна нормална дистрибуција, а конјугатот пред матрицата на коваријанса е обратна дистрибуција на Вишарт W - 1 < displaystyle < mathcal
и дека е доделен претходник, каде Тестовите за повеќенаменска нормалност проверуваат даден сет на податоци за сличност со мултиваријантната нормална дистрибуција. Нулта хипотеза е дека множеството податоци е слично на нормалната дистрибуција, затоа е доволно мала стр-вредност означува ненормални податоци. Тестовите за повеќенаменска нормалност вклучуваат тест Кокс – Смол [26] и адаптација на Смит и ainејн [27] на тестот Фридман - Рафски создаден од Лари Рафски и omeером Фридман. [28] Тест на Мардија [29] се заснова на повеќе варијатни проширувања на мерните мерки и курзозата. За примерок <x1, . xн> на к-димензионални вектори што ги пресметуваме Под нултата хипотеза за повеќе варијатна нормалност, статистиката А. ќе има приближно дистрибуција на чи-квадрат со 1/6к(к + 1)(к + 2) степени на слобода, и Б. ќе биде приближно стандардно нормално Н.(0,1). Тестовите на Мардија се непроменливи, но не се конзистентни. На пример, мултивариантниот тест на закосеност не е во согласност со симетричните ненормални алтернативи. [32] На BHEP тест [33] ја пресметува нормата на разликата помеѓу емпириската карактеристична функција и теоретската карактеристична функција на нормалната дистрибуција. Пресметката на нормата се изведува во L 2 (μ) простор на квадратни интегрални функции во однос на Гаусовата функција за пондерирање μ β (t) = (2 π β 2) - k / 2 e - | т | 2 / (2 β 2) < displaystyle scriptstyle mu _ < beta> ( mathbf Ограничувачката дистрибуција на оваа тест статистика е пондерирана сума на хи-квадратни случајни променливи, [33] но во пракса е поудобно да се пресметаат квантилите на примерокот со помош на симулациите на Монте-Карло. [ потребно е цитирање ] Детално истражување на овие и други тест постапки е достапно. [34] Да претпоставиме дека наб observудувањата (кои се вектори) се претпоставува дека доаѓаат од една од неколкуте мултиваријатни нормални дистрибуции, со познати средства и коваријанти. Тогаш секое дадено набудување може да се додели на дистрибуцијата од која има најголема веројатност да произлезе. Оваа постапка на класификација се нарекува анализа на Гаусовата дискриминација. Перформансите на класификацијата, т.е. веројатноста за различните исходи на класификацијата и целокупната грешка на класификацијата, може да се пресметаат со нумерички метод за следење на зраци [15] (код на Матлаб). Широко користен метод за цртање (земање примероци) на случаен вектор x од Н.-димензионална мултиваријатна нормална дистрибуција со среден вектор μ и коваријантна матрица Σ работи на следниов начин: [35] Нормална дистрибуција: Нормална дистрибуција е аранжман на збир на податоци во кој повеќето вредности се собираат во средината на опсегот, а останатите се симнуваат симетрично кон која било крајност. Нормална крива: Графички приказ на нормална дистрибуција понекогаш се нарекува крива на ellвонче поради нејзината разгорена форма. Прецизната форма може да варира во зависност од дистрибуцијата на популацијата, но врвот е секогаш во средина, а кривата е секогаш симетрична. Стандардна нормална дистрибуција: На Стандардна девијација е статистика што ви кажува колку цврсто се собираат сите различни примери околу средната вредност во збир на податоци. Кога примерите се прилично цврсто споени заедно и кривата во форма на ellвонче е стрмна, стандардната девијација е мала. Кога примерите се распространети и кривата на ellвончето е релативно рамна, тоа ви кажува дека имате релативно големо стандардно отстапување. З-резултат: n веројатност и статистика, буквата Z се користи за случајната променлива која има стандардна нормална дистрибуција, тоа е нормална дистрибуција со просечна 0 и стандардна девијација 1. популација: Население е целата група на предмети или индивидуи разгледани за истражување. пример: Избор земен од поголема група („население“) за да можете да го испитате за да дознаете нешто за поголемиот груп стр. Области под нормална крива: Ако експеримент се изврши доволен број пати, тогаш на долг рок, на релативна фреквенција на настанот се нарекува веројатност на тој настан што се случил. Погледнете го претходниот пример. Тежината на избрана тегла кафе е континуирана случајна променлива. Следната табела ја дава тежината во кг тегли `100` неодамна исполнети од машината. Ги наведува наб observedудуваните вредности на континуираната случајна променлива и нивните соодветни фреквенции. Пронајдете ги веројатностите за секоја категорија на тежина. Ние едноставно го делиме бројот на тегли во секоја категорија со 100 со 100 за да ги дадеме веројатностите. Пронајдете тука неколку проблеми со нормална дистрибуција со зборови или некои апликации на нормална дистрибуција. Да претпоставиме дека тековната годишна плата на сите наставници во САД има нормална распределба со просек од 51000 долари и стандардна девијација од 6000 долари. Пронајдете ја веројатноста дека годишната плата на случајно избран наставник би била помеѓу 42000 и 65000. Веројатноста дека годишната плата на случајно избран наставник е помеѓу 42000 и 65000 е дадена од областа под нормалната крива помеѓу x = 42000 и x = 65000. Потребната веројатност е дадена од областа под нормалната крива на помеѓу z = -1,5 и z = 2,33. Ова се добива со додавање на површина помеѓу z = -1,5 и z = 0 и површина помеѓу z = 0 и z = 2,33 Користејќи ја стандардната табела за нормална дистрибуција, гледаме дека областа помеѓу z = -1,5 и z = 0 е 0,4332 и површината помеѓу z = 0 и z = 2,33 е 0,4901 P (42000 & lt x & lt 65000) = P (-1,5 & lt z & lt 2,33) = 0,4332 + 0,4901 = 0,9233 Ова значи дека околу 92,33% од сите наставници во САД заработуваат помеѓу 42000 и 65000. Времето што и треба на компанијата за поправка компјутер да дијагностицира компјутер следи нормална дистрибуција со просек од 50 минути и стандардна девијација од 12 минути. Компанијата се затвора во 16 часот секој ден. Ако техничарот започне дијагноза во 3 часот попладне, каква е веројатноста тој да ја заврши дијагнозата пред да се затвори за еден ден? Вие ја барате веројатноста техничарот да ја заврши дијагнозата за 60 минути или помалку. Оваа област е дадена од областа под нормалната крива лево од x = 60. Вие барате P (z & lt 0,83) P (z & lt 0,83) = P (z & lt 0) + P (0 & lt z & lt 0,83) = 0,5 + 0,2967 = 0,7967 Постои 79,67% шанси техничарот да заврши пред 16 часот. Theивотниот век на научниот калкулатор има нормална дистрибуција со просек од 58 месеци и стандардна девијација од 10 месеци. Компанијата дава гаранција од 36 месеци за да го замени секој неисправен калкулатор со нов. Да претпоставиме дека компанијата прави 1 милион калкулатори годишно, колку калкулатори можат да бидат заменети? Прво, пронајдете P (x & lt 36) или веројатност дека случајно избраниот калкулатор ќе биде дефектен за помалку од 36 месеци. Ние бараме P (z & lt -2,2). Бидејќи нормалната крива е симетрична, P (z & lt -2,2) = P (z & gt 2,2) P (0 & lt z & lt 2.2) е површина под нормалната крива помеѓу 0 и 2.2 што е еднаква на 0.4861 P (z & gt 2.2) = 0,5 & # 8211 0,4861 = 0,0139 1,39% од сите калкулатори може да функционираат неправилно во рок од 36 месеци. Бројот на такви калкулатори е 0,0139 пати 1 милион или Ако не сте ги разбрале многу овие проблеми со нормална дистрибуција на зборови, прегледајте ја областа под стандардната нормална крива На C ++ 11 нормална дистрибуција (или нормална_дистрибуција) произведува случајни броеви x користејќи ја соодветната дискретна функција на веројатност на дистрибуцијата - функцијата е прикажана на крајот од објавата. Декларацијата за класа на дистрибуција е прикажана подолу. Стандардниот тип на класата е двоен тип и забележете дека оваа дистрибуција може да генерира само вредности на типот на подвижна точка или реални броеви. Распределбата се заснова на нормалната распределба на распределбата на веројатноста. Видовите и функциите на членовите на класата се прикажани подолу. На RealType е дефиниција за тип на тип на образец и тип на параметар е структура но забележете ја дефиницијата за типот на param_ ќе се менува од компајлер до компајлер. Првиот конструктор прифаќа два параметра & # 8216 значи & # 8217 и & # 8216stddev & # 8217 чии стандардни вредности се 0 и 1. Овие стандардни вредности ќе бидат исти во сите компајлери. Употребата на овие два параметра се користи при наоѓање на веројатноста за случајност вредности во дистрибуцијата.Релацијата 0 & штдев на & # 8216stddev & # 8217 треба да се одржи. Вториот конструктор прифаќа објект од типот парам-тип и во овој случај се вадат вредностите на & # 8216механизам & # 8217 и & # 8216stddev & # 8217 од вредностите на & # 8216механизам & # 8217 и & # 8216stddev & # 8217 Функцијата за ресетирање () ја ресетира состојбата на дистрибуцијата. Генерираната случајна низа се добива со помош на функцијата оператор (). Првиот преоптоварен оператор () прифаќа URNG (униформен генератор на случаен број) или мотор. Втората преоптоварена оператор () функција прифаќа URNG и param_type објект. Оваа функција ја враќа вредноста на дистрибуцијата & # 8216м & # 8217. Оваа функција ја враќа & # 8216stddev & # 8217 вредноста на дистрибуцијата. Оваа функција го враќа објектот param_type. Користејќи ја оваа функција, можеме да ја смениме & # 8216значењето & # 8217 и & # 8216stddev & # 8217 вредноста на дистрибуцијата на вредноста & # 8216mean & # 8217 и & # 8216stddev & # 8217 на предметот тип објект со поминување на објектот param_type. Min () ја враќа најмалата вредност што може да ја генерира дистрибуцијата, што е вредност 0. Макс () ја враќа најголемата вредност што дистрибуцијата може да ја генерира. Ја враќа вредноста на numeric_limits & ltresult_type & gt :: max (). Овие две функции ги проверуваат параметрите на двата дистрибутивни објекти. Ако двата параметра се еднакви, операторот == враќа 1 и операторот! = Враќа 0. Забележете ја функцијата оператор == секогаш се враќа точно (ans оператор! = Секогаш неточно) колку долго бидејќи & # 8216значењето & # 8217 и & # 8216stddev & # 8217 од двата споредбени објекти се еднакви, не е важно во каква состојба се наоѓаат двата објекти. Овие два оператори ви овозможуваат да ја зачувате состојбата на моторот и дистрибуцијата. Користење на оператор & gt & gt функција можеме да ја зачуваме табелата на дистрибуција на објектот од типот & # 8216stringstream & # 8217. И со користење на оператор & lt & lt функција можеме да добиеме состојба на дистрибуција или зачувување на моторот во објектот & # 8216stringstream & # 8217 и повторно да го доделиме на дистрибуцијата & # 8217s или на објектот на моторот. Истата состојба може да помогне во производството на истата низа што беше генерирана порано кога тоа државата е постигната. Забележете да ја репродуцирате истата состојба не само што е дистрибуцијата и # 8217-та состојба, туку и состојбата на моторот и # 8217-та мора да биде иста. Во кодот подолу ќе се обидеме да ја зачуваме состојбата на дистрибуција и исто така да ја зачуваме состојбата на моторот, на овој начин ќе можеме да ја репродуцираме истата случајна низа. 14.5743 Излез на случајната низа користејќи ја тековната состојба ndIO2 и dre2 Втората состојба на ndIO1 и dre1 е доделена на ndIO2 и dre2, така што броевите генерирани од вториот sate и последователната состојба на ndIO1 и dre1 & # 8217 ќе бидат исти со секвенцата генерирана од тековната состојба на ndIO2 и dre2 и таа & # 8217-та последователна состојба. Забелешката за репродукција на истата низа може да биде корисна за дебагирање. normal_distribution произведува случајни броеви x распределени според функцијата на густина на веројатност, Забележете во нормалната_дистрибуција генерираната низа ќе има повеќе вредности што се вртат околу вредноста & # 8216 значи & # 8217. Накривеноста е мерка за симетрија, или поточно, недостаток на симетрија. Дистрибуција или збир на податоци е симетрична ако изгледа исто лево и десно од централната точка. Куртоза е мерка за тоа дали податоците се тешки или лесни опашки во однос на нормалната дистрибуција. Тоа е, множествата податоци со висока куртоза имаат тенденција да имаат тешки опашки, или крајни делови. Комплетите на податоци со ниска куртоза имаат тенденција да имаат лесни опашки или недостаток на надворешни страни. Единствена дистрибуција ќе биде крајниот случај. Наклонот за нормална дистрибуција е нула, и сите симетрични податоци треба да имаат наклон близу до нулата. Негативните вредности за наклонот означуваат податоци што се искривени налево и позитивните вредности за наклонот означуваат податоци кои се искривени десно. Под искривена лева страна, мислиме дека левата опашка е долга во однос на десната опашка. Слично на тоа, искривениот десен значи дека десната опашка е долга во однос на левата опашка. Ако податоците се мулти-модални, тогаш ова може да влијае на знакот на закосеност. Некои мерења имаат долна граница и се искривени десно. На пример, во студиите за сигурност, времињата на неуспех не можат да бидат негативни. Која дефиниција за куртоза се користи е прашање на конвенција (овој прирачник ја користи оригиналната дефиниција). Кога користите софтвер за пресметување на примерокот куртоза, треба да бидете свесни за тоа која конвенција се следи. Многу извори го користат терминот куртоза кога тие всушност пресметуваат „вишок куртоза“, така што можеби не е секогаш јасно. За подобра визуелна споредба со другите групи на податоци, го ограничивме хистограмот на дистрибуцијата на Коши на вредности помеѓу -10 и 10. Целосниот сет на податоци за податоците на Коши, всушност, има минимум приближно -29.000 и максимум приближно 89.000. Дистрибуцијата на Коши е симетрична дистрибуција со тешки опашки и единствен врв во центарот на дистрибуцијата. Бидејќи е симетричен, би очекувале наклон близу до нулата. Поради потешките опашки, може да очекуваме дека куртозата е поголема отколку за нормална дистрибуција. Всушност, наклонот е 69,99, а куртозата е 6,693. Овие исклучително високи вредности може да се објаснат со тешките опашки. Исто како што средната и стандардната девијација можат да бидат изобличени со екстремни вредности во опашките, така и мерките на закосеноста и куртозата. Еден пристап е да се примени некаков вид трансформација за да се обидат да ги направат податоците нормални, или поблизу нормални. Трансформацијата Box-Cox е корисна техника за обид за нормализирање на збир на податоци. Особено, преземањето на дневникот или квадратниот корен на множеството на податоци е често корисно за податоците што покажуваат умерена десна косост. А. стандардна нормална случајна променлива Нормалната случајна променлива со просек 0 и стандардна девијација 1. е нормално дистрибуирана случајна променлива со средна вредност μ = 0 и стандардна девијација σ = 1. Секогаш ќе се означува со буквата З.. Функцијата на густина за стандардна нормална случајна променлива е прикажана на слика 5.9 "Крива на густина за стандардна нормална случајна променлива". Слика 5.9 Крива на густина за стандардна нормална случајна променлива Да се пресметаат веројатностите за З. ние нема да работиме директно со нејзината функција на густина, туку наместо тоа, прочитајте ги веројатностите од Слика 12.2 „Кумулативна нормална веројатност“ во Поглавје 12 „Додаток“. Табелите се табели на кумулативно веројатност нивните записи се веројатности од формата P (Z & lt z). Употребата на табелите ќе се објасни со следниве серии примери. Пронајдете ги посочените веројатности, како и секогаш З. означува стандардна нормална случајна променлива. Слика 5.10 Вештини за пресметување со помош на кумулативната табела Пронајдете ги посочените веројатности. Бидејќи настаните З. & гт 1,60 и З. 60 1,60 се надополнувања, Правилото за веројатност за комплементирање го подразбира тоа Бидејќи вклучувањето на крајната точка не прави никаква разлика за континуираната случајна променлива З., P (Z ≤ 1,60) = P (Z & lt 1,60), што знаеме како да го најдеме од табелата. Бројот во редот со заглавие 1.6 и во колоната со заглавие 0,00 е 0,9452. Така P (Z & lt 1,60) = 0,9452 така P (Z & gt 1,60) = 1 - P (Z ≤ 1,60) = 1 - 0,9452 = 0,0548 Слика 5.11 „Компјутерирање веројатност за десна половина линија“ ги илустрира геометриски идеите. Бидејќи вкупната површина под кривата е 1, а површината на регионот лево од 1,60 е (од табелата) 0,9452, површината на регионот надесно од 1,60 мора да биде 1 - 0,9452 = 0,0548. Слика 5.11 Пресметување веројатност за десна половина линија The minus sign in −1.02 makes no difference in the procedure the table is used in exactly the same way as in part (a). The number in the intersection of the row with heading −1.0 and the column with heading 0.02 is 0.1539. This means that P ( Z < − 1.02 ) = P ( Z ≤ − 1.02 ) = 0.1539 , hence Find the probabilities indicated. Figure 5.12 "Computing a Probability for an Interval of Finite Length" illustrates the ideas involved for intervals of this type. First look up the areas in the table that correspond to the numbers 0.5 (which we think of as 0.50 to use the table) and 1.57. We obtain 0.6915 and 0.9418, respectively. From the figure it is apparent that we must take the difference of these two numbers to obtain the probability desired. In symbols, Figure 5.12 Computing a Probability for an Interval of Finite Length The procedure for finding the probability that Z takes a value in a finite interval whose endpoints have opposite signs is exactly the same procedure used in part (a), and is illustrated in Figure 5.13 "Computing a Probability for an Interval of Finite Length". In symbols the computation is Figure 5.13 Computing a Probability for an Interval of Finite Length The next example shows what to do if the value of Z that we want to look up in the table is not present there. Find the probabilities indicated. We attempt to compute the probability exactly as in Note 5.20 "Example 6" by looking up the numbers 1.13 and 4.16 in the table. We obtain the value 0.8708 for the area of the region under the density curve to left of 1.13 without any problem, but when we go to look up the number 4.16 in the table, it is not there. We can see from the last row of numbers in the table that the area to the left of 4.16 must be so close to 1 that to four decimal places it rounds to 1.0000. Therefore Similarly, here we can read directly from the table that the area under the density curve and to the left of 2.15 is 0.9842, but −5.22 is too far to the left on the number line to be in the table. We can see from the first line of the table that the area to the left of −5.22 must be so close to 0 that to four decimal places it rounds to 0.0000. Therefore The final example of this section explains the origin of the proportions given in the Empirical Rule. Find the probabilities indicated. Using the table as was done in Note 5.20 "Example 6"(b) we obtain P ( − 1 < Z < 1 ) = 0.8413 − 0.1587 = 0.6826 Од кога Z has mean 0 and standard deviation 1, for Z to take a value between −1 and 1 means that Z takes a value that is within one standard deviation of the mean. Our computation shows that the probability that this happens is about 0.68, the proportion given by the Empirical Rule for histograms that are mound shaped and symmetrical, like the bell curve. Using the table in the same way, P ( − 2 < Z < 2 ) = 0.9772 − 0.0228 = 0.9544 This corresponds to the proportion 0.95 for data within two standard deviations of the mean. P ( − 3 < Z < 3 ) = 0.9987 − 0.0013 = 0.9974 which corresponds to the proportion 0.997 for data within three standard deviations of the mean. Use Figure 12.2 "Cumulative Normal Probability" to find the first probability listed. Find the second probability without referring to the table, but using the symmetry of the standard normal density curve instead. Sketch the density curve with relevant regions shaded to illustrate the computation. Use Figure 12.2 "Cumulative Normal Probability" to find the first probability listed. Find the second probability without referring to the table, but using the symmetry of the standard normal density curve instead. Sketch the density curve with relevant regions shaded to illustrate the computation. The probability that a standard normal random variable Z takes a value in the union of intervals (−∞, −а] ∪ [а, ∞), which arises in applications, will be denoted П.(Z ≤ −а или Z ≥ а) Use Figure 12.2 "Cumulative Normal Probability" to find the following probabilities of this type. Sketch the density curve with relevant regions shaded to illustrate the computation. Because of the symmetry of the standard normal density curve you need to use Figure 12.2 "Cumulative Normal Probability" only one time for each part. The probability that a standard normal random variable Z takes a value in the union of intervals (−∞, −а] ∪ [а, ∞), which arises in applications, will be denoted П.(Z ≤ −а или Z ≥ а) Use Figure 12.2 "Cumulative Normal Probability" to find the following probabilities of this type. Sketch the density curve with relevant regions shaded to illustrate the computation. Because of the symmetry of the standard normal density curve you need to use Figure 12.2 "Cumulative Normal Probability" only one time for each part. The NORM.DIST function syntax has the following arguments: X Required. The value for which you want the distribution. Средна Required. The arithmetic mean of the distribution. Standard_dev Required. The standard deviation of the distribution. Кумулативно Required. A logical value that determines the form of the function. If cumulative is TRUE, NORM.DIST returns the cumulative distribution function if FALSE, it returns the probability density function.Стандарден нормален случајен вектор Уреди
Центриран нормален случајен вектор Уреди
Нормален случајен вектор Уреди
Еквивалентни дефиниции Уреди
Функција на густина Уреди
Недегенериран случај Уреди
Биваријантен случај Уреди
Дегенериран случај Уреди
Функција на кумулативна дистрибуција Уреди
Интервал на уредување
Комплементарна функција на кумулативна дистрибуција (распределба на опашката) Уреди
Веројатност во различни домени Уреди
Повисоки моменти Уреди
Функции на нормален вектор Уреди
Функција за веројатност Уреди
Диференцијална ентропија Уреди
Уредување на дивергенција на Kullback – Leibler
Взаемни информации Уреди
Заедничка нормалност Уреди
Нормално дистрибуиран и независен Уреди
Две нормално дистрибуирани случајни променливи не треба да бидат заеднички биваријационирани нормално
Корелации и независност Уреди
Условни дистрибуции Уреди
Биваријантен случај Уреди
Биваријативно условно очекување Уреди
Во општиот случај Уреди
Во центриран случај со единечни варијанти Уреди
Маргинални дистрибуции Уреди
Афинарна трансформација Уреди
Геометриско толкување Уреди
Димензионалност Веројатност 1 0.6827 2 0.3935 3 0.1987 4 0.0902 5 0.0374 6 0.0144 7 0.0052 8 0.0018 9 0.0006 10 0.0002 Проценка на параметарот Уреди
Бајесов заклучок Уреди
Тестови за повеќенаменска нормалност Уреди
Класификација во мултиваријатни нормални класи Уреди
Гаусова анализа за дискриминација Уреди
Вредности на цртање од дистрибуцијата Уреди
11: Нормална дистрибуција
Видео на YouTube
Веројатностите како релативна фреквенција
Пример 3
Тежина X Број
на тегли`0.900 - 0.925` `1` `0.925 - 0.950` `7` `0.950 - 0.975` `25` `0.975 - 1.000` `32` `1.000 - 1.025` `30` `1.025 - 1.050` `5` Вкупно `100`
Тежина X Број
на теглиВеројатност
П.(а & ле X & lt б)0.900 - 0.925 1 0.01 0.925 - 0.950 7 0.07 0.950 - 0.975 25 0.25 0.975 - 1.000 32 0.32 1.000 - 1.025 30 0.30 1.025 - 1.050 5 0.05 Вкупно 100 1.00
Проблеми со нормална дистрибуција на зборови
C ++ 11 генератор на нормална дистрибуција на случаен број
Видови
Конструктори и функција за ресетирање
Генерирање функции
Првата оператор () функција
Втората оператор () функција
Функции на имотот
Средна () функција
Функција stddev ()
Парам ()
Парам (тип на параметар)
Функција мин ()
Макс () функција
Оператор == и оператор! = функции
Функции оператор & gt & gt и оператор & lt & lt
Втора и трета состојба на излез од ndIO1 и dre1
-72.6484 87.4598
-72.6484 87.4598Страна белешка
11: Нормална дистрибуција
Примери Следниот пример покажува хистограми за 10 000 случајни броеви генерирани од нормална, двојна експоненцијална, Коши и Веибулова дистрибуција. Нормална дистрибуција Првиот хистограм е примерок од нормална дистрибуција. Нормалната дистрибуција е симетрична дистрибуција со добро однесени опашки. Ова е означено со наклонот од 0,03. Куртозата од 2,96 е близу очекуваната вредност од 3. Хистограмот ја потврдува симетријата. Двојна експоненцијална дистрибуција Вториот хистограм е примерок од двојна експоненцијална дистрибуција. Двојната експоненцијална е симетрична дистрибуција. Во споредба со нормалното, има посилен врв, побрзо распаѓање и потешки опашки. Тоа е, ние би очекувале наклон близу до нула и куртоза поголема од 3. Рамнината е 0,06, а куртозата е 5,9. Дистрибуција на Коши Третиот хистограм е примерок од дистрибуцијата на Коши. Дистрибуција на Вејбул Четвртиот хистограм е примерок од Weibull дистрибуција со параметар на форма 1.5. Распределбата Weibull е искривена дистрибуција со количина на наклон во зависност од вредноста на параметарот на обликот. Степенот на распаѓање додека се оддалечуваме од центарот, исто така, зависи од вредноста на параметарот на обликот. За овој сет на податоци, наклонот е 1,08, а куртозата е 4,46, што укажува на умерена закосеност и куртоза. Кои се занимаваат со Skewness и Kurtosis Многу класични статистички тестови и интервали зависат од претпоставките за нормалноста. Значајната наклоност и куртоза јасно покажуваат дека податоците не се нормални. Ако збир на податоци има значителна наклоност или куртоза (како што е наведено со хистограм или нумерички мерки), што можеме да сториме за тоа?
11: Нормална дистрибуција
Пример 4
Пример 5
Пример 6
Example 7
Example 8
Key Takeaways
Exercises
Погледнете го видеото: 11 - Робустност статистичких поступака: основни појмови (Мај 2022).