Úlohy, které řešíme pomocí strojového učení, nemívají jedno řešení.
Vzorky na, kterých model (říkali jsme mu černá krabička) učíme, samy o sobě nestačí k tomu, abychom mohli říci, zda model dobře funguje. Cílem není jen správná odezva na daných vzorech, ale také generalizace, t. j. schopnost správně predikovat odezvu v bodech, které jsme zatím neviděli. Kvalitu generalizace odhadneme pomocí vzorů, které při učení nebyly použity, říkáme jim testovací množina. Vzory, které při učení používáme, označujeme jako trénovací.
Testovací množina by měla být dostatečně reprezentativní. Nemáme-li jiné vodítko, vybereme testovací množinu náhodným výběrem z dat.
K posouzení kvality řešení nám slouží metriky, seznámili jsme se základními metrikami pro regresi
Jsou-li v datech hodnoty, které evidentně nesouvisí s predikovanou odezvou (např. id, čísla řádek, apod.), nebudeme je zahrnovat mezi vstupní proměnné (příznaky).
Nepoužíváme kanón na vrabce. Máme-li přímý algoritmus na řešení problému, nebudeme používat strojové učení.
Pod pojmem hyper-parametry se skrývají parametry modelů, které můžeme sami nastavit.