Architektura sieci neuronowej użytej w przykładzie to sieć neuronowa typu feedforward z trzema warstwami: warstwą wejściową, warstwą ukrytą i warstwą wyjściową. Warstwa wejściowa składa się z 784 jednostek, co odpowiada liczbie pikseli w obrazie wejściowym. Każda jednostka w warstwie wejściowej reprezentuje wartość intensywności piksela na obrazie.
Warstwa ukryta składa się ze 128 jednostek, które są w pełni połączone z warstwą wejściową. Każda jednostka w warstwie ukrytej oblicza ważoną sumę danych wejściowych z warstwy wejściowej i stosuje funkcję aktywacji w celu wytworzenia danych wyjściowych. W tym przykładzie funkcją aktywacji użytą w warstwie ukrytej jest funkcja rektyfikowanej jednostki liniowej (ReLU). Funkcja ReLU jest zdefiniowana jako f(x) = max(0, x), gdzie x jest ważoną sumą wejść do jednostki. Funkcja ReLU wprowadza do sieci nieliniowość, umożliwiając jej uczenie się złożonych wzorców i relacji w danych.
Warstwa wyjściowa składa się z 10 jednostek, z których każda reprezentuje jedną z możliwych klas w problemie klasyfikacji. Jednostki w warstwie wyjściowej są również w pełni połączone z jednostkami w warstwie ukrytej. Podobnie jak w warstwie ukrytej, każda jednostka w warstwie wyjściowej oblicza ważoną sumę danych wejściowych z warstwy ukrytej i stosuje funkcję aktywacji. W tym przykładzie funkcją aktywacji używaną w warstwie wyjściowej jest funkcja softmax. Funkcja softmax przekształca ważoną sumę danych wejściowych w rozkład prawdopodobieństwa po klasach, gdzie suma prawdopodobieństw jest równa 1. Jednostka o najwyższym prawdopodobieństwie reprezentuje przewidywaną klasę obrazu wejściowego.
Podsumowując, zastosowana w przykładzie architektura sieci neuronowej składa się z warstwy wejściowej z 784 jednostkami, warstwy ukrytej z 128 jednostkami wykorzystującymi funkcję aktywacji ReLU oraz warstwy wyjściowej z 10 jednostkami wykorzystującymi funkcję aktywacji softmax.
Inne niedawne pytania i odpowiedzi dotyczące Budowa sieci neuronowej w celu dokonania klasyfikacji:
- Czy konieczne jest użycie funkcji uczenia asynchronicznego w przypadku modeli uczenia maszynowego działających w TensorFlow.js?
- W jaki sposób model jest kompilowany i szkolony w TensorFlow.js i jaka jest rola funkcji kategorycznej utraty entropii krzyżowej?
- Jakie znaczenie ma szybkość uczenia i liczba epok w procesie uczenia maszynowego?
- W jaki sposób dane treningowe są dzielone na zestawy treningowe i testowe w TensorFlow.js?
- Jaki jest cel TensorFlow.js w budowaniu sieci neuronowej do zadań klasyfikacyjnych?