Aby wyodrębnić wszystkie adnotacje obiektów z odpowiedzi API z zakresu Sztucznej Inteligencji – Google Vision API – Zaawansowane rozumienie obrazów – Wykrywanie obiektów, można skorzystać z formatu odpowiedzi udostępnianego przez API, który zawiera listę wykrytych obiektów wraz z odpowiadającymi im ramki ograniczające i wskaźniki pewności. Analizując tę odpowiedź, możesz wyodrębnić żądane adnotacje obiektów.
Odpowiedź API zazwyczaj składa się z obiektu JSON zawierającego różne pola, w tym pole „localizedObjectAnnotations”, które zawiera wykryte obiekty. Każda adnotacja obiektu zawiera informacje, takie jak nazwa obiektu, współrzędne jego ramki ograniczającej oraz poziom pewności wskazujący pewność interfejsu API w zakresie wykrycia.
Aby wyodrębnić adnotacje obiektów, wykonaj następujące kroki:
1. Przeanalizuj odpowiedź API: Zacznij od przeanalizowania odpowiedzi JSON otrzymanej z API. Można to zrobić za pomocą biblioteki analizującej JSON lub wbudowanych funkcji udostępnianych przez język programowania.
2. Uzyskaj dostęp do pola „localizedObjectAnnotations”: Po przeanalizowaniu odpowiedzi uzyskaj dostęp do pola „localizedObjectAnnotations”, które zawiera wykryte obiekty. To pole jest zazwyczaj tablicą adnotacji obiektów.
3. Wykonaj iterację po adnotacjach obiektu: Wykonaj iterację po każdej adnotacji obiektu w tablicy. Każda adnotacja reprezentuje wykryty obiekt na obrazie.
4. Wyodrębnij istotne informacje: Wyodrębnij istotne informacje z każdej adnotacji obiektu, takie jak nazwa obiektu, współrzędne ramki ograniczającej i poziom pewności. Dostęp do tych szczegółów można uzyskać w postaci oddzielnych pól w każdej adnotacji obiektu.
5. Przechowuj lub przetwarzaj wyodrębnione informacje: W zależności od wymagań możesz przechowywać wyodrębnione informacje w strukturze danych lub przetwarzać je dalej do analizy lub do innych celów. Na przykład możesz chcieć przechowywać nazwy obiektów i odpowiadające im współrzędne obwiedni w bazie danych lub używać ich do dalszych zadań związanych z analizą obrazów.
Oto uproszczony przykład ilustrujący proces ekstrakcji:
python import json # Assume 'response' contains the API response in JSON format response =
{
„localizedObjectAnnotations”: [
{
"mid": "/m/01g317",
"imię": "kot",
„wynik”: 0.89271355,
"ograniczającyPoly": {
„znormalizowane wierzchołki”: [
{"x": 0.1234, "y": 0.5678},
{"x": 0.5678, "y": 0.1234}
] }
},
{
"mid": "/m/04rky",
"imię": "pies",
„wynik”: 0.8132468,
"ograniczającyPoly": {
„znormalizowane wierzchołki”: [
{"x": 0.4321, "y": 0.8765},
{"x": 0.8765, "y": 0.4321}
] }
}
] }
# Parse the API response response_data = json.loads(response) # Access the object annotations annotations = response_data['localizedObjectAnnotations'] # Iterate through the object annotations for annotation in annotations: # Extract relevant information object_name = annotation['name'] bounding_box = annotation['boundingPoly']['normalizedVertices'] confidence = annotation['score'] # Process or store the extracted information print(f"Object: {object_name}, Bounding Box: {bounding_box}, Confidence: {confidence}") # Output: # Object: cat, Bounding Box: [{'x': 0.1234, 'y': 0.5678}, {'x': 0.5678, 'y': 0.1234}], Confidence: 0.89271355 # Object: dog, Bounding Box: [{'x': 0.4321, 'y': 0.8765}, {'x': 0.8765, 'y': 0.4321}], Confidence: 0.8132468
W tym przykładzie zakładamy, że odpowiedź JSON zawiera dwa wykryte obiekty: kota i psa. Kod analizuje odpowiedź, uzyskuje dostęp do pola „localizedObjectAnnotations”, wykonuje iterację po każdej adnotacji obiektu i wyodrębnia nazwę obiektu, współrzędne ramki ograniczającej i współczynnik pewności. Na koniec wyodrębnione informacje są drukowane, ale możesz zmodyfikować kod, aby dostosować go do swoich konkretnych potrzeb.
Wykonując poniższe kroki, możesz skutecznie wyodrębnić wszystkie adnotacje obiektów z odpowiedzi API w obszarze Sztuczna Inteligencja – Google Vision API – Zaawansowane rozumienie obrazów – Wykrywanie obiektów.
Inne niedawne pytania i odpowiedzi dotyczące Zaawansowane rozumienie obrazów:
- Jakie są wstępnie zdefiniowane kategorie rozpoznawania obiektów w Google Vision API?
- Jakie jest zalecane podejście do korzystania z funkcji wykrywania bezpiecznego wyszukiwania w połączeniu z innymi technikami moderacji?
- W jaki sposób możemy uzyskać dostęp do wartości prawdopodobieństwa dla każdej kategorii w adnotacji bezpiecznego wyszukiwania i wyświetlić je?
- Jak możemy uzyskać adnotację bezpiecznego wyszukiwania za pomocą Google Vision API w Pythonie?
- Jakie pięć kategorii obejmuje funkcja wykrywania bezpiecznego wyszukiwania?
- W jaki sposób funkcja bezpiecznego wyszukiwania interfejsu Google Vision API wykrywa treści dla dorosłych w obrazach?
- Jak możemy wizualnie zidentyfikować i wyróżnić wykryte obiekty na obrazie, korzystając z biblioteki poduszek?
- Jak możemy uporządkować wyodrębnione informacje o obiekcie w formacie tabelarycznym za pomocą ramki danych pandy?
- Jakie biblioteki i język programowania są używane do zademonstrowania funkcjonalności Google Vision API?
- W jaki sposób interfejs API Google Vision wykrywa i lokalizuje obiekty w obrazach?
Zobacz więcej pytań i odpowiedzi w Zaawansowane zrozumienie obrazów