Modelis, kas saka “0,90 pārliecināts”, dod solījumu. Tas nesaka: “Es jūtos pārliecināts”. Tas saka: “Tādās situācijās kā šī man būs taisnība aptuveni 90% gadījumu.” Daudzas komandas šo numuru uztver kā aptuvenu signālu un pieņem lēmumus, pamatojoties uz to: automātiski novirziet atbalsta biļeti, paslēpiet brīdinājumu, aktivizējiet turpmāku darbību vai ļaujiet automatizētai darbplūsmai turpināties bez atkārtotas pārbaudes. Šoks rodas vēlāk, kad šie “augstas pārliecības” zvani neizdodas tieši tajos brīžos, kad klienti to redz un atceras.
Kalibrēšana kā varbūtības godīgums
Kalibrēšana ir labojums, taču tā nav noslēpumaina jauna metrika. Tā ir vienkārša ideja, ka norādītajām varbūtībām ir jāatbilst novērotajām frekvencēm. Šeit ir definīcija, kas jums jāsaglabā visu laiku: ja apkopojat visas prognozes, kas jūsu sistēmā tiek apzīmētas ar 0,70, aptuveni 70% no tām ir jābūt pareiziem. Tā ir kalibrēšana.
Ātrākais veids, kā to sajust, ir veikt atgriezenisko saiti: uzrakstiet varbūtības minējumus un pēc tam vērojiet rezultātus. Pokera stila galda spēle ar Prakses opciju ir labs uzstādījums, jo pirms nākamās atklāšanas jums ir jāapņemas izmantot kādu numuru. LuckyRebel ir tiešsaistes kazino vietne, kurā ir iekļautas pokera galda spēles un atbalstītajās spēļu lapās ir redzama poga Prakse, kas ir noderīga, ja vēlaties spēlēt atkārtotus raundus bez papildu iestatīšanas.
Atveriet LuckyRebel un izvēlieties pokera stila galda spēli, kas nepārprotami piedāvā praksi. Skrien 30 rokas. Katrā lēmuma pieņemšanas punktā ierakstiet tāda vienkārša notikuma varbūtību, kas tiks atrisināts līdz izspēles beigām, piemēram, “mana pēdējā kombinācija kvalificēsies pēc spēles noteikumiem” vai “Es uzlabošu līdz nākamajai atklāšanai”. Kad izspēle ir beigusies, ierakstiet 1, ja jūsu notikums ir noticis; pretējā gadījumā ierakstiet 0.
Pēc tam sagrupējiet savas rakstiskās varbūtības diapazonos, piemēram, no 0,50 līdz 0,59, no 0,60 līdz 0,69 un no 0,70 līdz 0,79. Katram segmentam salīdziniet savu vidējo noteikto varbūtību ar faktiski reģistrēto 1 s daļu. Ja jūsu 0,70 spainis pietuvojas 0,55, jūs tikko esat pārliecinājies, ka tas šķiet tūlītējs, nevis teorētisks. Atkārtojiet to pašu vingrinājumu citā pokera stila spēlē vai citā dienā, un jūs redzēsiet, kāpēc “kalibrēts” vienmēr ir atkarīgs no konteksta.
Kad jums ir šī intuīcija, jūs varat izmantot izpratni citur. Scikit-Learn ceļvedis par varbūtības kalibrēšanu sniedz uzticamības diagrammas (kalibrēšanas līknes) un standarta post hoc pieejas, ko redzēsit reālās darbplūsmās.
Kalibrēšana ir frekvences prasība, nevis sajūta
Kalibrēts modelis automātiski nav “labāks” prognozēs. Labāk ir būt godīgam par nenoteiktību. Vienkāršiem vārdiem sakot, kalibrēta modeļa 0,80 vajadzētu nozīmēt “šāda veida prognozes ir pareizas aptuveni 80% gadījumu”, nevis “modelis ļoti jūtas pret to”.
Tāpēc kalibrēšana ir nošķirta no precizitātes un AUC.
- Precizitāte ir to prognožu daļa, kas kopumā ir pareizas.
- AUC ir ranga rādītājs. Tas parāda, cik labi modelis izvirza patiesus gadījumus virs nepatiesiem, pat ja pašas varbūtības vērtības ir izslēgtas.
- Kalibrēšana ir par varbūtības skaitļa patiesums.
Produkta izteiksmē precizitāte norāda, vai modelis ir noderīgs. Kalibrēšana norāda, vai ticamības rādītāju var uzskatīt par reālu varbūtību. Brīdī, kad ieskaitāt darbību uz 0,85 vai 0,90, jūs sakāt: “Es ticu šim skaitlim kā varbūtībai”, nevis tikai “tas izskatās augstāks par citiem rādītājiem”.
Uzticamības diagrammas bez matemātikas miglas
Uzticamības diagramma atbild uz vienu jautājumu: kad modelis saka 0,80, vai realitāte uzvedas tā, it kā tā būtu 0,80?
Ja modelis ir labi kalibrēts, spainim ar atzīmi no 0,80 līdz 0,89 jāatbilst veiksmes rādītājam no 0,80 līdz 0,89. Diagrammā tas izskatās kā punkti, kas atrodas diagonālas līnijas tuvumā.
- Ja punkti krīt zemāk diagonāle, modelis ir pārlieku pašpārliecināts. Tas saka 0,80, bet realitāte uzvedas vairāk kā 0,65.
- Ja punkti piezemējas augstāk diagonāle, modelis ir nepārliecināts. Tas saka 0,60, bet patiesībā tas ir tuvāk 0,75.
Lai diagramma būtu noderīga, koncentrējieties uz vietu, kur tiek pieņemti lēmumi. Ja jūsu produkts automātiski maršrutē tikai vienumus, kas ir virs 0,85, kalibrēšanas darbība zem 0,40 varētu būt interesanta, taču tas nav tas, kas veicina rezultātus. Sadaliet datus arī tā, lai mainītu ievades kombināciju: jauni lietotāji salīdzinājumā ar atkārtotiem lietotājiem, īss teksts salīdzinājumā ar garu tekstu, tīra ievade salīdzinājumā ar netīrām ievadēm, maksimālā satiksme salīdzinājumā ar klusajām stundām. Nepareiza kalibrēšana bieži slēpjas segmentā, kuru nekad neveidojat diagrammā.
Temperatūras mērogošana vs izotoniskā regresija vienkāršā angļu valodā
Kad esat izmērījis nepareizu kalibrēšanu, bieži vien varat to novērst, nepārmācot modeli. Šī ir post hoc kalibrēšana: saglabājiet modeli, pēc tam pievienojiet nelielu kartējumu, kas pārvērš tā neapstrādātos rādītājus varbūtībās, kurām varat uzticēties. Apmāciet šo kartēšanu, izmantojot kalibrēšanas komplektu — noturētu datu kopu, kuru modelis treniņa laikā neredzēja.
Temperatūras mērogošana ir viegla pieskāriena opcija. Tas izmanto vienu parametru, lai mīkstinātu vai uzlabotu varbūtības, vienlaikus saglabājot rangu.
Izotoniskā regresija ir elastīgāka. Tas apgūst līkni, kas var izlabot vietējās dīvainības, taču tai ir nepieciešams vairāk datu, un tas var pārspīlēt tuvu augstu ticamības slieksnim.
Apstipriniet izmantotos sliekšņus un savienojiet līknes ar atbilstošu vērtēšanas noteikumu.