Mi az outlier az adatbányászatban?

Pontszám: 4,3/5 ( 12 szavazat )

A kiugró értékek nem más, mint egy szélsőséges érték, amely eltér az adatkészlet többi megfigyelésétől . A kiugró értékeket a hibás bevitel vagy számítási hiba, is-jelentés, mintavételi hiba, kivételes, de valós értékű hiba okozza. ... Outlier Analysis egy adatbányászati ​​feladat, amelyet „outlier bányászatnak” neveznek.

Mi határozza meg a kiugró értéket?

A kiugró érték olyan megfigyelés, amely abnormális távolságra van egy populáció véletlenszerű mintájában szereplő egyéb értékektől . Bizonyos értelemben ez a meghatározás az elemzőre (vagy egy konszenzusos folyamatra) bízza annak eldöntését, hogy mi tekinthető abnormálisnak. ... Ezeket a pontokat gyakran kiugró értékeknek nevezik.

Mi a kiugró érték az adatbányászati ​​példában?

A kiugró értékek szélsőséges értékek, amelyek messze kívül esnek a többi megfigyelésen . Például egy normál eloszlásban a kiugró értékek lehetnek az eloszlás farkán lévő értékek. ... Például az alapvető komponenselemzés és a nagy maradék hibával rendelkező adatok kiugró értékek lehetnek.

Mik azok a kiugró értékek és típusai?

A három különböző típusú kiugró érték
  • 1. típus: Globális kiugró értékek (más néven „pont anomáliák”): ...
  • 2. típus: Kontextuális (feltételes) kiugró értékek: ...
  • 3. típus: Kollektív kiugró értékek: ...
  • Globális anomália: A kezdőlap visszapattanások számának ugrása látható, mivel a rendellenes értékek egyértelműen kívül esnek a normál globális tartományon.

Mi a kiugró érték az adatelemzésben?

Mik azok az Outliers? Ezek olyan adatrekordok, amelyek drámaian különböznek az összes többitől , egy vagy több jellemzőben különböznek egymástól. Más szavakkal, a kiugró érték olyan érték, amely elkerüli a normalitást, és anomáliákat okozhat (és valószínűleg fog is) okozni az algoritmusok és analitikai rendszerek által kapott eredményekben.

Mi az Outlier?

37 kapcsolódó kérdés található

Hogyan lehet azonosítani a kiugró értékeket?

Az összes kiugró érték megtalálásának leghatékonyabb módja az interkvartilis tartomány (IQR) használata . Az IQR az adatok középső részét tartalmazza, így a kiugró értékek könnyen megtalálhatók, ha ismeri az IQR-t.

Miért rosszak a kiugró értékek?

A kiugró értékek szokatlan értékek az adatkészletben , és torzíthatják a statisztikai elemzéseket, és megsérthetik a feltételezéseiket. ... A kiugró értékek növelik az adatok változékonyságát, ami csökkenti a statisztikai teljesítményt. Következésképpen a kiugró értékek kizárása statisztikailag szignifikánssá teheti az eredményeket.

Mi a 2 fajta kiugró érték?

Rövid útmutató a különböző típusú kiugró értékekhez
  • 1. típus: Globális kiugró értékek (más néven pont anomáliák)
  • 2. típus: Kontextuális kiugró értékek (más néven feltételes anomáliák)
  • 3. típus: Kollektív kiugró értékek.

Mi a való életből származó példa a kiugró értékre?

Outlier (főnév, „OUT-lie-er”) A kiugró értékek a való világban is előfordulhatnak. Például egy átlagos zsiráf 4,8 méter (16 láb) magas . A legtöbb zsiráf körülbelül ekkora magasságú lesz, bár lehet, hogy egy kicsit magasabbak vagy alacsonyabbak.

Ritkaak a kiugró értékek?

A kiugró érték olyan megfigyelés, amely eltér a többi megfigyeléstől. Ritka, különálló, vagy nem illik valamilyen módon . A kiugró értékeket általában olyan mintákként fogjuk meghatározni, amelyek kivételesen távol állnak az adatok főáramától.

Miért fontos az outlier bányászat?

A lehetséges kiugró értékek azonosítása a következő okok miatt fontos. A kiugró érték rossz adatokat jelezhet . ... Bizonyos esetekben előfordulhat, hogy nem lehet megállapítani, hogy egy kiugró pont rossz adat-e. A kiugró értékek véletlenszerű változásból származhatnak, vagy valami tudományos szempontból érdekeset jelezhetnek.

A zaj és a kiugró érték ugyanaz?

Míg a zaj definiálható rosszul címkézett példákként (osztályzaj) vagy az attribútumok értékeinek hibájaként (attribútumzaj), a kiugró érték egy tágabb fogalom, amely nemcsak a hibákat, hanem a populáción vagy folyamaton belüli természetes változásból eredő, eltérő adatokat is magában foglalja . .

Hogyan lehet azonosítani a kiugró értékeket az adatbányászatban?

A kiugró értékek kimutatásának legnépszerűbb módszerei a következők:
  1. Z-pontszám vagy extrém érték elemzése (paraméteres)
  2. Valószínűségi és statisztikai modellezés (paraméteres)
  3. Lineáris regressziós modellek (PCA, LMS)
  4. Közelség alapú modellek (nem paraméteres)
  5. Információelméleti modellek.

Hogyan befolyásolja a kiugró érték az átlagot?

A kiugró érték csökkenti az átlagot , így az átlag egy kicsit túl alacsony ahhoz, hogy reprezentatív mérőszáma legyen a tanuló tipikus teljesítményének. Ennek azért van értelme, mert az átlag kiszámításakor először összeadjuk a pontszámokat, majd elosztjuk a pontszámok számával. Ezért minden pontszám befolyásolja az átlagot.

Miért fordulnak elő kiugró értékek?

A kiugró értékek a rendszer viselkedésében bekövetkezett változások , csalárd viselkedés, emberi hiba, műszerhiba vagy egyszerűen a populációk természetes eltérései miatt merülnek fel. Egy minta a vizsgált populáción kívülről származó elemekkel szennyeződhetett.

Mi a kiugró képlet?

Mi az Outlier Formula? ... Egy általánosan használt szabály, amely szerint egy adatpont kiugró értéknek minősül, ha több mint 1,5 IQR van az első kvartilis alatt vagy a harmadik kvartilis felett. Az első kvartilis a következőképpen számítható ki: (Q1) = ((n + 1)/4) tag.

Ki a főszereplő a kiugró értékekben?

Az Outliers: The Story of Success főszereplői többek között Christopher Langan , The Beatles és Roger Barnesley. Christopher Langan, aki magasabb IQ-val rendelkezik, mint Einstein, példaként szolgál Gladwell azon érvelésében, hogy az intelligencia nem az egyedüli tényező a siker meghatározásában.

Mi az a kiugró matematika?

A kiugró érték egy adatkészletben lévő érték, amely nagyon különbözik a többi értéktől . Vagyis a kiugró értékek a középtől szokatlanul távoli értékek. ... De egyes könyvek egy értéket kiugró értékként említenek , ha az több mint másfélszerese a kvartiliseken túli interkvartilis tartomány értékének .

Mi a különbség a kiugró értékek és az anomáliák között?

Outlier = legitim adatpont, amely messze van az eloszlás átlagától vagy mediánjától . ... Míg az anomália általánosan elfogadott kifejezés, más szinonimákat, például kiugró értékeket gyakran használnak a különböző alkalmazási tartományokban. Különösen az anomáliákat és a kiugró értékeket gyakran felcserélhetően használják.

A legegyszerűbb kiugró típus?

1. Globális kiugró értékek : Egy adott adathalmazban egy adatobjektum globális kiugró érték, ha jelentősen eltér az adatkészlet többi részétől. A globális kiugró értékeket néha pont anomáliáknak nevezik, és ezek a kiugró értékek legegyszerűbb típusai.

Mire jó a kiugró elemzés?

Az outlier-észlelést széles körben használják számos alkalmazásban, mint például az ellenséges tevékenységek katonai megfigyelése a támadások megelőzésére, a behatolás észlelése a kiberbiztonság területén, a hitelkártya-csalás észlelése, a biztosítás vagy az egészségügyi ellátás, valamint a biztonság szempontjából kritikus rendszerekben és különféle típusú hibák észlelése. képeket.

Mi történik, ha a kiugró értékeket eltávolítják?

A kiugró érték eltávolítása eggyel csökkenti az adatok számát, ezért csökkenteni kell az osztót . Például, ha megtalálja a 0, 10, 10, 12, 12 átlagát, akkor az összeget el kell osztania 5-tel, de ha eltávolítja a 0 kiugró értékét, el kell osztania 4-gyel.

Hogyan kezeli az adatok kiugró értékeit?

5 módszer az adatok kiugró értékeinek kezelésére
  1. Állítson be egy szűrőt a tesztelőeszközben. Annak ellenére, hogy ennek van egy kis költsége, a kiugró értékek kiszűrése megéri. ...
  2. Távolítsa el vagy módosítsa a kiugró értékeket a teszt utáni elemzés során. ...
  3. Módosítsa a kiugró értékek értékét. ...
  4. Vegye figyelembe a mögöttes eloszlást. ...
  5. Vegye figyelembe az enyhe kiugró értékek értékét.

Mit érintenek leginkább a kiugró értékek a statisztikákban?

A kiugró értékek a tartományt érintik leginkább, mivel mindig az adatok végén találhatók a kiugró értékek. Definíció szerint a tartomány az adatkészlet legkisebb és legnagyobb értéke közötti különbség.

Mi az IQR szabály a kiugró értékekre?

Egy általánosan használt szabály szerint egy adatpont kiugró érték, ha nagyobb, mint 1,5 ⋅ IQR 1,5\cdot \text{IQR} 1. 5⋅IQR1, pont, 5, pont , kezdőszöveg, I, Q, R, vége szöveg a harmadik kvartilis felett vagy az első kvartilis alatt.