Aby uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision, możesz wykonać szereg kroków obejmujących wykorzystanie możliwości interfejsu API w zakresie optycznego rozpoznawania znaków (OCR). Technologia OCR w Google Vision API umożliwia wykrywanie i wyodrębnianie tekstu z obrazów, w tym pisma odręcznego. Funkcjonalność ta jest szczególnie przydatna w aplikacjach wymagających analizy i zrozumienia informacji tekstowych zawartych w danych wizualnych.
W pierwszej kolejności należy skonfigurować niezbędne środowisko do pracy z Google Vision API. Wiąże się to z utworzeniem projektu w Google Cloud Console, włączeniem Vision API i uzyskaniem wymaganych danych uwierzytelniających, takich jak klucz API lub klucz konta usługi.
Po skonfigurowaniu środowiska możesz skorzystać z metody `asyncBatchAnnotateFiles` interfejsu Vision API, aby wykonać OCR pliku obrazu. Ta metoda umożliwia przekazanie listy plików obrazów do przetworzenia i asynchroniczne otrzymanie wyników. Alternatywnie możesz użyć metody `asyncBatchAnnotateImages`, aby bezpośrednio przetworzyć listę obrazów.
Aby wyodrębnić tekst z obrazu, musisz utworzyć instancję obiektu `AnnotateImageRequest` i określić żądane funkcje. W tym przypadku należy ustawić funkcję `TEXT_DETECTION`, aby wskazać, że chcesz wyodrębnić tekst z obrazu. Możesz także określić dodatkowe parametry, takie jak podpowiedź językowa, aby poprawić dokładność OCR.
Następnie musisz zakodować plik obrazu w ciągu znaków zakodowanym w formacie base64 i utworzyć instancję obiektu `Image`, korzystając z zakodowanych danych obrazu. Ten obiekt `Image` należy dodać do utworzonego wcześniej obiektu `AnnotateImageRequest`.
Po skonfigurowaniu żądania możesz wysłać je do Vision API za pomocą metody `batchAnnotateImages` lub `batchAnnotateFiles`, w zależności od wybranego podejścia. Interfejs API przetworzy obraz i zwróci odpowiedź zawierającą wyodrębniony tekst.
Aby uzyskać dostęp do tekstu wyodrębnionego z odpowiedzi, możesz iterować po polu `textAnnotations` obiektu `AnnotateImageResponse`. To pole zawiera listę obiektów „EntityAnnotation”, z których każdy reprezentuje wykryty element tekstowy na obrazie. Pole „opis” każdego obiektu „EntityAnnotation” zawiera wyodrębniony tekst.
Oto przykładowy fragment kodu w Pythonie, który pokazuje, jak uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
W tym przykładzie funkcja „extract_text_from_image” przyjmuje jako dane wejściowe ścieżkę do pliku obrazu i korzysta z biblioteki klienta Google Cloud Vision w celu wysłania żądania do interfejsu Vision API. Wyodrębniony tekst jest następnie drukowany.
Aby uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision, musisz skonfigurować środowisko, utworzyć obiekt `AnnotateImageRequest` z żądanymi funkcjami, zakodować plik obrazu, wysłać żądanie do interfejsu API i pobrać wyodrębniony tekst z odpowiedzi. Możliwości OCR Vision API umożliwiają wykrywanie i wyodrębnianie tekstu z obrazów, w tym pisma odręcznego.
Inne niedawne pytania i odpowiedzi dotyczące Wykrywanie i wyodrębnianie tekstu z pisma ręcznego:
- Jakie ograniczenia mogą pojawić się podczas wyodrębniania tekstu ze złożonych dokumentów za pomocą Google Vision API?
- Jakie jest znaczenie poziomów ufności w interpretacji tekstu przez Google Vision API?
- W jaki sposób interfejs API Google Vision może dokładnie rozpoznać i wyodrębnić tekst z odręcznych notatek?
- Jakie wyzwania wiążą się z wykrywaniem i wyodrębnianiem tekstu z obrazów pisanych odręcznie?
- Czy Google Vision rozpoznaje pismo ręczne?
Więcej pytań i odpowiedzi:
- Pole: Artificial Intelligence
- Program: EITC/AI/GVAPI Interfejs Google Vision API (przejdź do programu certyfikacji)
- Lekcja: Zrozumienie tekstu w danych wizualnych (przejdź do odpowiedniej lekcji)
- Wątek: Wykrywanie i wyodrębnianie tekstu z pisma ręcznego (przejdź do powiązanego tematu)
- Przegląd egzaminów