Konwolucyjne sieci neuronowe (CNN) zostały po raz pierwszy zaprojektowane w celu rozpoznawania obrazów w dziedzinie widzenia komputerowego. Sieci te są wyspecjalizowanym rodzajem sztucznych sieci neuronowych, które okazały się bardzo skuteczne w analizie danych wizualnych. Rozwój sieci CNN wynikał z potrzeby stworzenia modeli, które mogłyby dokładnie klasyfikować i kategoryzować obrazy, a ich sukces w tej dziedzinie doprowadził do ich szerokiego zastosowania w różnych innych zastosowaniach, takich jak wykrywanie obiektów, segmentacja obrazu, a nawet przetwarzanie języka naturalnego.
Inspiracją dla kanałów CNN jest struktura i funkcjonalność kory wzrokowej w ludzkim mózgu. Podobnie jak kora wzrokowa, sieci CNN składają się z wielu warstw połączonych ze sobą neuronów, które przetwarzają różne aspekty danych wejściowych. Kluczowa innowacja CNN polega na ich zdolności do automatycznego uczenia się i wydobywania odpowiednich cech z obrazów, eliminując potrzebę ręcznego projektowania cech. Osiąga się to poprzez zastosowanie warstw splotowych, które nakładają filtry na obraz wejściowy w celu wykrycia różnych wzorców i cech wizualnych, takich jak krawędzie, narożniki i tekstury.
Pierwszy przełom w CNN nastąpił wraz z wprowadzeniem architektury LeNet-5 przez Yanna LeCuna i in. w 1998 r. LeNet-5 został specjalnie zaprojektowany do rozpoznawania cyfr pisanych odręcznie i osiągnął niezwykłą wydajność w zbiorze danych MNIST, wzorcowym zbiorze danych szeroko stosowanym do oceny algorytmów rozpoznawania obrazów. LeNet-5 zademonstrował skuteczność sieci CNN w przechwytywaniu cech hierarchicznych z obrazów, umożliwiając dokładną klasyfikację nawet w przypadku różnic w skali, rotacji i translacji.
Od tego czasu sieci CNN znacznie ewoluowały, opracowując głębsze i bardziej złożone architektury. Godnym uwagi postępem było wprowadzenie architektury AlexNet przez Alexa Krizhevsky'ego i in. w 2012 r. AlexNet dokonał przełomu w klasyfikacji obrazów, wygrywając konkurs ImageNet Large Scale Visual Recognition Challenge (ILSVRC) dzięki znacznie niższemu poziomowi błędów w porównaniu z poprzednimi podejściami. Sukces ten utorował drogę do powszechnego zastosowania CNN w zadaniach rozpoznawania obrazu.
Sieci CNN z powodzeniem zastosowano również do innych zadań związanych z widzeniem komputerowym. Na przykład przy wykrywaniu obiektów sieci CNN można łączyć z dodatkowymi warstwami w celu lokalizowania i klasyfikowania obiektów na obrazie. Słynna regionalna konwolucyjna sieć neuronowa (R-CNN) wprowadzona przez Rossa Girshicka i in. w 2014 roku jest przykładem takiej architektury. R-CNN osiągnęła najnowocześniejsze wyniki w zakresie wzorców wykrywania obiektów, wykorzystując możliwości CNN do wyodrębniania cech i łącząc je z metodami propozycji regionów.
Konwolucyjne sieci neuronowe zostały po raz pierwszy zaprojektowane do zadań rozpoznawania obrazów w dziedzinie widzenia komputerowego. Zrewolucjonizowali tę dziedzinę, automatycznie ucząc się odpowiednich funkcji z obrazów, eliminując potrzebę ręcznego projektowania funkcji. Rozwój sieci CNN doprowadził do znacznych postępów w klasyfikacji obrazów, wykrywaniu obiektów i różnych innych zadaniach związanych z wizją komputerową.
Inne niedawne pytania i odpowiedzi dotyczące EITC/AI/ADL Zaawansowane Głębokie Uczenie:
- Dlaczego musimy stosować optymalizacje w uczeniu maszynowym?
- Kiedy dochodzi do nadmiernego dopasowania?
- Czy konwolucyjne sieci neuronowe mogą obsługiwać dane sekwencyjne, włączając sploty w czasie, jak jest to stosowane w modelach Convolutional Sequence to Sequence?
- Czy generatywne sieci przeciwstawne (GAN) opierają się na idei generatora i dyskryminatora?