Identificarea problemelor bune pentru ML

Aceasta sectiune examineaza caracteristicile problemelor ML bune.

Stergeti cazul de utilizare

Concentrati-va pe probleme care ar fi greu de rezolvat cu programarea traditionala. De exemplu, luati in considerare Raspuns inteligent. Echipa de raspuns inteligent a recunoscut ca utilizatorii petrec mult timp raspunzand la e-mailuri si mesaje; un produs care poate prezice raspunsurile probabile poate economisi timp utilizatorului. Un alt exemplu este in Google Photos, unde problema afacerii a fost gasirea unei anumite fotografii prin cautare de cuvinte cheie fara etichetare manuala.

Imaginati-va ca incercati sa creati un sistem precum Smart Raspuns sau cautare Google Foto cu programare conventionala. Nu exista o abordare clara. In schimb, invatarea automata poate rezolva aceste probleme examinand tiparele din date si adaptandu-se cu ele.

Array

Ganditi-va la ML ca la unul dintre instrumentele din trusa dvs. de instrumente si scoateti-o la iveala numai atunci cand este cazul.

Avand in vedere aceste exemple, puneti-va urmatoarele intrebari:

  1. Cu ce ​​problema se confrunta produsul meu?
  2. Ar fi o problema buna pentru ML?

Nu puneti intrebarile invers!

Cunoasteti problema inainte de a va concentra asupra datelor

Daca intelegeti problema in mod clar, ar trebui sa puteti lista cateva solutii potentiale de testat pentru a genera cel mai bun model. Intelegeti ca va trebui probabil sa incercati cateva solutii inainte de a ajunge pe un model de lucru bun.

Analiza datelor exploratorii va poate ajuta sa va intelegeti datele, dar nu puteti pretinde inca ca tiparele pe care le gasiti se generalizeaza pana cand nu verificati aceste tipare in raport cu datele nevazute anterior. Nerespectarea verificarii va poate duce in directia gresita sau poate intari stereotipurile sau partinirea.

Sprijiniti-va pe jurnalele echipei dvs.

Datele colectate special pentru sarcina dvs.

vor fi cele mai utile. In practica, este posibil sa nu puteti face acest lucru si va veti baza pe orice date pe care le puteti obtine suficient de aproape. Este in regula atata timp cat sunteti constienti de cost si, intrucat puteti obtine in cele din urma jurnale de produse, le puteti folosi pentru a crea ceva mai bine directionat sarcinii dvs.

Cat este „mult?” Acest lucru depinde de problema, dar mai multe date imbunatatesc de obicei modelul dvs. si, prin urmare, puterea predictiva a modelului dvs. O regula buna este de a avea cel putin mii de exemple pentru modelele liniare de baza si sute de mii pentru retelele neuronale. Daca aveti mai putine date, luati in considerare mai intai o solutie care nu este ML.

Puterea predictiva

Sa presupunem ca incercati sa preziceti ce cai se vor comporta bine intr-o cursa. Decizi sa abordezi problema cu ML si sa folosesti culoarea ochilor calului ca caracteristica. Credeti ca culoarea ochilor prezice care cai sunt predispusi la boli oculare, care la randul lor ar putea prezice viteza si rezistenta unui cal. Poate ca va inselati si veti respinge ipoteza ulterior pe baza dovezilor; adica, poate ca utilizarea culorii ochilor ca caracteristica nu va imbunatateste modelul.

Nu ar trebui sa incercati sa-l faceti pe ML sa depuna eforturi pentru a descoperi care sunt caracteristicile relevante pentru dvs. Daca aruncati totul asupra modelului si vedeti ce pare util, modelul dvs. va fi probabil prea complicat, scump si plin de caracteristici neimportante. In seturile de date mai mici, aveti sanse mai mari ca o caracteristica sa fie corelata intamplator cu eticheta dvs. in esantionul de date. Daca incercati multe functii fara ipoteza, veti crede in mod fals ca acestea sunt semnale relevante pentru modelul dvs. Nu ati prinde acest lucru pana cand nu ati incercat sa faceti predictii cu modelul dvs. si ati realizat ca nu se generalizeaza.

Predictii vs. Decizii

Prin decizii, intelegem ca produsul dvs. ar trebui sa ia masuri cu privire la rezultatul modelului. ML este mai bun la luarea deciziilor decat sa va ofere informatii. Daca aveti o gramada de date si doriti sa aflati lucruri „interesante” despre aceasta, abordarile statistice au mai mult sens.

Asigurati-va ca predictiile va permit sa intreprindeti o actiune utila. De exemplu, un model care prezice probabilitatea de a da clic pe anumite videoclipuri ar putea permite unui sistem sa preinstaleze videoclipurile cel mai probabil sa fie facute clic.

Uneori, predictia si decizia sunt strans aliniate, dar in alte cazuri, relatia este mai putin evidenta. Consultati tabelul de mai jos pentru exemple de perechi de predictie / decizie.

PredictionDecision Ce videoclip vrea sa vizioneze cursantul in continuare. Afisati acele videoclipuri in bara de recomandari. Probabilitatea ca cineva sa faca clic pe un rezultat al cautarii. Daca P (faceti clic)> 0,12, preluati pagina web. Ce fractie dintr-un anunt video va urmari utilizatorul. Daca o fractiune mica, nu aratati utilizatorului anuntul.