portur.top

  
  
Main / Infogainattributeeval hur fungerar det

Infogainattributeeval hur fungerar det

Rå maskininlärningsdata innehåller en blandning av attribut, varav några är relevanta för att göra förutsägelser. Hur vet du vilka funktioner du ska använda och vilka som ska tas bort? Processen att välja funktioner i dina data för att modellera ditt problem kallas funktionsval. I det här inlägget kommer du att upptäcka hur du utför funktionsval med din maskininlärningsdata i Weka.

Det är ett klassificeringsproblem där varje instans representerar medicinska detaljer för en patient och uppgiften är att förutsäga om patienten kommer att få diabetes inom de närmaste fem åren. Attribututvärderaren är den teknik genom vilken varje attribut i din dataset också kallas en kolumn eller funktion utvärderas i samband med utgångsvariabeln e.

Sökmetoden är tekniken för att försöka navigera i olika kombinationer av attribut i datasetet för att komma fram till en kort lista över valda funktioner. Vissa attribututvärderingstekniker kräver användning av specifika sökmetoder. Till exempel kan CorrelationAttributeEval-tekniken som används i nästa avsnitt endast användas med en Ranker-sökmetod som utvärderar varje attribut och listar resultaten i en rangordning.

Både attribututvärderings- och sökmetodteknikerna kan konfigureras. När du väl har valt klickar du på namnet på tekniken för att få tillgång till dess konfigurationsinformation. Håll muspekaren över en konfigurationsparameter för att få en verktygstips som innehåller mer information. En populär teknik för att välja de mest relevanta attributen i din dataset är att använda korrelation.

Du kan beräkna korrelationen mellan varje attribut och utdatavariabeln och bara välja de attribut som har en måttlig till hög positiv eller negativ korrelation nära -1 eller 1 och släpp de attributen med ett lågt korrelationsvärde nära noll. Weka stöder korrelationsbaserat funktionsval med CorrelationAttributeEval-tekniken som kräver användning av en Ranker-sökmetod.

Att köra detta i vårt Pima Indians-dataset föreslår att en attributplas har den högsta korrelationen med utgångsklassen. Det föreslår också en mängd attribut med en viss blygsam korrelationsmassa, ålder, preg. Om vi ​​använder 0. Du kan beräkna den informationsförstärkning som också kallas entropi för varje attribut för utdatavariabeln. Ingångsvärdena varierar från 0 ingen information till 1 maximal information.

De attribut som bidrar med mer information kommer att ha ett högre informationsförstärkningsvärde och kan väljas, medan de som inte lägger till mycket information kommer att ha lägre poäng och kan tas bort.

Precis som korrelationstekniken ovan måste Ranker-sökmetoden användas. Genom att köra denna teknik på våra Pima-indianer kan vi se att ett attribut bidrar med mer information än alla andra plas. Om vi ​​använder en godtycklig avstängning på 0.

En populär funktion för val av funktioner är att använda en generisk men kraftfull inlärningsalgoritm och utvärdera algoritmens prestanda i datasetet med olika delmängder av valda attribut.

Den delmängd som ger bästa prestanda tas som den valda delmängden. Algoritmen som används för att utvärdera delmängderna behöver inte vara den algoritm som du tänker använda för att modellera ditt problem, men den ska i allmänhet vara snabb att träna och kraftfull, som ett beslutsträd. Det senare, BestFirst, är att föredra om du kan spara beräkningstiden. Weka Wrapper Feature Selection Configuration. Genom att köra denna funktionsvalsteknik i Pima Indians-datasetet väljer du 4 av de 8 ingångsvariablerna: När vi ser tillbaka på de tre teknikerna kan vi se en viss överlappning i de valda funktionerna e.

En vy av din dataset är inget annat än en delmängd av funktioner som valts av en given funktionsvalsteknik. Det är en kopia av din dataset som du enkelt kan göra i Weka.

Därför är det en bra idé att prova ett antal olika funktionsvalstekniker på dina data och i sin tur skapa många olika vyer av dina data. Välj en bra generisk teknik, som ett beslutsträd, och bygg en modell för varje vy av dina data. Jämför resultaten för att få en uppfattning om vilken bild av dina data som ger bästa resultat.

Detta ger dig en uppfattning om vyn eller mer specifikt funktioner som bäst utsätter strukturen för ditt problem för inlärningsalgoritmer i allmänhet. I det här inlägget upptäckte du vikten av funktionsval och hur du använder funktionsval på dina data med Weka. Har du några frågor om funktionsval i Weka eller om det här inlägget? Ställ dina frågor i kommentarerna så gör jag mitt bästa för att svara. Upptäck hur i min nya Ebook: Machine Learning Mastery With Weka.

Täcker självstudiehandledning och helhetsprojekt som: Ladda data, visualisering, bygga modeller, ställa in och mycket mer .... Så, noggrannheten jag får utan någon apparat: J48 och alla instanser och funktioner i diabetet.

Naturligtvis är detta uppenbart eftersom jag slutar ta bort vissa funktioner, men hur är det bra exakt? Jag tappar information. Det här är inte bra, har jag fel? Vi vill bara utföra funktionsval som i slutändan gynnar våra modeller. Jag använder funktionsval som en guide, varje metod ger olika tips om vilka funktioner som kan vara viktiga.

Sämre prestanda efter funktionsval lär dig fortfarande något. Så du har använt ett godtyckligt gränsvärde för korrelation och informationGain för att välja en delmängd av funktioner.

Finns det någon metod för att välja ett gränsvärde? För vissa datauppsättningar fick jag dock samma maximala noggrannhetsvärde för två delmängder av funktioner. Till exempel har jag en uppsättning med 21 funktioner och en delmängd med 10 funktioner och 6 funktioner ger samma maximala noggrannhet av alla möjliga delmängder. Jag föreslår att du försöker skapa en modell med funktionerna som använder varje värde som en cut-off, och låta modellens skicklighet diktera funktionerna att använda.

Ja, jag gillar det tillvägagångssätt som du beskriver. Färre funktioner är bättre lägre komplexitet, lättare att förstå. Jämför också dessa resultat med en ny ensemblemodell som genomsnittlig prestanda hos modellerna med olika antal funktioner.

Om jag använder säg IG för funktionsval och sedan SVM för klassificering med korsvalidering ... kommer funktionsvalet att kunna anpassas till hela datasetet och inte bara till träningsuppsättningen ... Finns det något sätt att lägga till PSO i weka-programmet? Jag kan inte ge dig goda råd. Om jag använder Info Gain för att välja attributen för träningsdatasetet och ta utdata i en annan.

Nu har vi träningsdataset med valda attribut. Är det möjligt att bara skapa testdata med dessa valda attribut. Det är mycket svårt att ta bort attributen manuellt eftersom mina data har mycket stor dimension.

Jag fick en förvirrande situation. Weka gav mig en lista över korrelationer för varje enskilt värde för varje funktion. Det här är fantastiskt, men det finns en enda funktion med endast två möjliga värden och båda har liknande korrelation. Har jag rätt?

Hej Jason, det är en mycket bra förklaring. Men jag undrar, i princip vad är funktionsval? Funktionsval är ett sätt att minska antalet ingångsvariabler till din modell för att förhoppningsvis få enklare modeller eller bättre förutsägelser, eller båda.

När vi utför funktionsval, ska vi utföra det i hela utbildning och testning av dataset och sedan dela upp data? Jag står inför samma problem med funktionsval och utan funktionsval.

Utan någon funktionsvalsmetod fick jag 99. Var har jag fel? Jag sökte mycket, men inget nyttigt hittades. Det är vanligt att få olika resultat varje gång samma algoritmer körs på samma data, överväga att använda experimentgränssnittet istället och ta medelpoängen över flera körningar. Se det här inlägget: Jag vill använda wrapper-metoden, kan du ge mig råd om hur man använder crossover- och mutationsoperationskoncept för förprocessen. Tack Jason. Detta kan förväntas, se det här inlägget: Tack för ditt svar Kan du råda mig eller ge mig en länk till illustrativt exempel!

Jag har kämpat hårt men kunde inte hitta raka svar på några frågor som gäller klassificeringsproblem, dina åsikter skulle vara till stor hjälp.

Kära Jason, vilken ordning utförs av attribututvärderaren och sökmetoden? Jag försöker använda ant-sökning med standardutvärderare fuzzy grov delmängd och CfsSubsetEval för attribututvärderare. I denna situation utvärderar först CfsSubsetEval-funktionen attributen och ger de informativa underuppsättningarna med meriter, sedan görs ant-sökning på alla dessa underuppsättningar genom att utvärdera med fuzzyRoughSubsetEval; är det sant?

Hej Dr. Jason Tack för de mycket informativa artiklarna jag använder attributval i weka för min examensforskning om abnormalt beteende i videoscener. Jag undrade om jag var tvungen att ställa in parametrarna för varje sökmetod för attributvalet?

Min uppdragsgivare säger att jag ska använda attributval och göra tester för att se bästa resultat. Du måste experimentera för att se vilken delmängd av funktioner som fungerar bäst för ditt förutsägbara modelleringsproblem. I weka explorer när vi använder korrelationsattributet utvärdera knacka efter import av våra data. Det tilldelar korrelationskoefficienten till varje funktion med avseende på avgörande variabel.

Vilka enheter finns det i och hur beräknas det? Entropi mäts vanligtvis i bitar utifrån min förståelse. En enkel fråga 1 Du har nämnt wrappersubsete eval för att välja delmängd av funktioner Kan vi använda Cfssubset eval för att välja funktioner.

(с) 2019 portur.top