W dziedzinie uczenia maszynowego, szczególnie przy wykorzystaniu platform takich jak Google Cloud Machine Learning, ocena wydajności modelu jest krytycznym zadaniem, które zapewnia skuteczność i niezawodność modelu. Metryki oceny wydajności modelu są zróżnicowane i wybierane na podstawie rodzaju rozwiązywanego problemu, czy jest to klasyfikacja, regresja, klasteryzacja czy inna forma modelowania predykcyjnego. Metryki te dostarczają informacji o tym, jak dobrze model działa i mogą służyć do dalszych ulepszeń.
Metryki klasyfikacji
W przypadku problemów klasyfikacyjnych, w których zadaniem jest przypisanie danych wejściowych do jednej z kilku odrębnych kategorii, powszechnie stosuje się kilka kluczowych metryk:
1. Dokładność: Jest to jedna z najprostszych metryk. Mierzy ona proporcję prawidłowo sklasyfikowanych wystąpień w stosunku do całkowitej liczby wystąpień. Choć prosta, dokładność może być myląca, jeśli klasy są niezrównoważone, co oznacza, że jedna klasa występuje znacznie częściej niż inne.
2. Precyzja i pamięć: Te metryki są szczególnie przydatne w przypadku niezrównoważonych zestawów danych. Precyzja to stosunek prawdziwie pozytywnych prognoz do całkowitej liczby przewidywanych wyników pozytywnych, wskazujący na zdolność modelu do nieoznaczania negatywnej próbki jako pozytywnej. Recall, znany również jako czułość lub wskaźnik prawdziwie pozytywnych wyników, mierzy stosunek prawdziwie pozytywnych prognoz do rzeczywistych wyników pozytywnych, odzwierciedlając zdolność modelu do identyfikowania wszystkich istotnych wystąpień.
3. Wynik F1: Ta metryka jest średnią harmoniczną precyzji i odwołania, zapewniającą równowagę między nimi. Jest ona szczególnie przydatna, gdy rozkład klas jest nierównomierny, ponieważ uwzględnia zarówno fałszywe pozytywy, jak i fałszywe negatywy.
4. Krzywa charakterystyki pracy odbiornika (ROC) i pole pod krzywą (AUC):Krzywa ROC to graficzna reprezentacja zdolności diagnostycznej modelu, przedstawiająca wskaźnik prawdziwie dodatnich wyników w porównaniu ze wskaźnikiem fałszywie dodatnich wyników przy różnych ustawieniach progowych. AUC zapewnia pojedynczą wartość skalarną, która podsumowuje wydajność modelu przy wszystkich progach, przy czym wartość bliższa 1 oznacza lepszą wydajność.
5. Macierz zamieszania: Jest to reprezentacja tabelaryczna, która umożliwia wizualizację wydajności algorytmu. Pokazuje liczbę prawdziwie pozytywnych, prawdziwie negatywnych, fałszywie pozytywnych i fałszywie negatywnych przewidywań, zapewniając kompleksowy widok możliwości klasyfikacji modelu.
Metryki regresji
W przypadku zadań regresyjnych, których celem jest przewidywanie wartości ciągłej, stosuje się różne metryki:
1. Średni błąd bezwzględny (MAE): Ta metryka mierzy średnią wielkość błędów w zestawie przewidywań, bez uwzględniania ich kierunku. Jest to średnia w próbie testowej bezwzględnych różnic między przewidywaniem a rzeczywistą obserwacją.
2. Błąd średniokwadratowy (MSE):MSE mierzy średnią kwadratów błędów, dając poczucie wariancji reszt. Jest wrażliwy na wartości odstające, które mogą nieproporcjonalnie wpływać na metrykę.
3. Pierwiastek błędu średniokwadratowego (RMSE):RMSE to pierwiastek kwadratowy MSE i stanowi miarę błędu w tych samych jednostkach co zmienna odpowiedzi, oferując interpretowalną miarę błędu przewidywania.
4. R-kwadrat (współczynnik determinacji): Ta metryka wskazuje proporcję wariancji zmiennej zależnej, która jest przewidywalna ze zmiennych niezależnych. Stanowi miarę tego, jak dobrze obserwowane wyniki są replikowane przez model, przy czym wartości bliższe 1 wskazują na lepszą wydajność.
5. Skorygowano R-kwadrat: Jest to zmodyfikowana wersja R-kwadrat, która dostosowuje się do liczby predyktorów w modelu. Jest ona szczególnie przydatna przy porównywaniu modeli z różną liczbą predyktorów.
Metryki klastrowania
Klastrowanie, rodzaj uczenia się bez nadzoru, wymaga innych metryk oceny, ponieważ nie ma żadnych faktów, z którymi można by porównywać:
1. Wynik sylwetki: Ta metryka mierzy, jak bardzo obiekt jest podobny do swojego klastra w porównaniu do innych klastrów. Zakres wynosi od -1 do 1, przy czym wyższe wartości oznaczają lepsze klastrowanie.
2. Indeks Daviesa-Bouldina:Indeks ten ocenia średni współczynnik podobieństwa każdego klastra do klastra najbardziej podobnego do niego, przy czym niższe wartości wskazują na lepsze grupowanie.
3. Indeks Calinskiego-Harabasza: Znany również jako kryterium współczynnika wariancji, ten wskaźnik ocenia stosunek sumy rozproszenia między klastrami i rozproszenia wewnątrz klastrów. Wyższe wartości sugerują lepiej zdefiniowane klastry.
Ocena modelu w praktyce
Podczas oceny modelu ważne jest rozważenie kontekstu i konkretnych wymagań danego zadania. Na przykład w scenariuszu diagnozy medycznej przywołanie może być priorytetem w stosunku do precyzji, aby zapewnić identyfikację wszystkich potencjalnych przypadków, nawet kosztem niektórych fałszywych wyników pozytywnych. Z drugiej strony w systemie wykrywania spamu precyzja może być bardziej krytyczna, aby uniknąć oznaczania legalnych wiadomości e-mail jako spam.
Google Cloud Machine Learning udostępnia narzędzia, które ułatwiają obliczanie tych metryk, umożliwiając naukowcom i inżynierom danych wydajną ocenę wydajności modelu. Wykorzystując te metryki, można podejmować świadome decyzje dotyczące wyboru, dostrajania i wdrażania modelu, zapewniając, że model spełnia pożądane standardy dokładności, niezawodności i wydajności.
Zrozumienie i odpowiednie zastosowanie tych metryk oceny wydajności jest niezbędne do pomyślnego wdrożenia modeli uczenia maszynowego. Zapewniają one niezbędną pętlę sprzężenia zwrotnego, aby stale udoskonalać modele, zapewniając, że dostarczają wartość i spełniają oczekiwania stawiane przez ich zamierzone zastosowania.
Inne niedawne pytania i odpowiedzi dotyczące EITC/AI/GCML Uczenie Maszynowe Google Cloud:
- Jeśli ktoś używa modelu Google i trenuje go na własnej instancji, czy Google zachowuje ulepszenia wprowadzone na podstawie danych treningowych?
- Jak można dowiedzieć się, którego modelu ML użyć przed jego wytrenowaniem?
- Czym jest zadanie regresyjne?
- Jak można przechodzić między tabelami Vertex AI i AutoML?
- Czy można używać Kaggle do przesyłania danych finansowych oraz przeprowadzania analiz statystycznych i prognozowania przy użyciu modeli ekonometrycznych, takich jak R-kwadrat, ARIMA lub GARCH?
- Czy uczenie maszynowe można wykorzystać do przewidywania ryzyka choroby wieńcowej?
- Jakie faktyczne zmiany nastąpią w związku z rebrandingiem Google Cloud Machine Learning na Vertex AI?
- Czym jest regresja liniowa?
- Czy można połączyć różne modele uczenia maszynowego i zbudować nadrzędną sztuczną inteligencję?
- Jakie są najczęstsze algorytmy stosowane w uczeniu maszynowym?
Zobacz więcej pytań i odpowiedzi w EITC/AI/GCML Google Cloud Machine Learning