Jak uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision?

by Akademia EITCA / Środa, 27 grudnia 2023 / Opublikowano w Artificial Intelligence, EITC/AI/GVAPI Interfejs Google Vision API, Zrozumienie tekstu w danych wizualnych, Wykrywanie i wyodrębnianie tekstu z pisma ręcznego, Przegląd egzaminów

Aby uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision, możesz wykonać szereg kroków obejmujących wykorzystanie możliwości interfejsu API w zakresie optycznego rozpoznawania znaków (OCR). Technologia OCR w Google Vision API umożliwia wykrywanie i wyodrębnianie tekstu z obrazów, w tym pisma odręcznego. Funkcjonalność ta jest szczególnie przydatna w aplikacjach wymagających analizy i zrozumienia informacji tekstowych zawartych w danych wizualnych.

W pierwszej kolejności należy skonfigurować niezbędne środowisko do pracy z Google Vision API. Wiąże się to z utworzeniem projektu w Google Cloud Console, włączeniem Vision API i uzyskaniem wymaganych danych uwierzytelniających, takich jak klucz API lub klucz konta usługi.

Po skonfigurowaniu środowiska możesz skorzystać z metody `asyncBatchAnnotateFiles` interfejsu Vision API, aby wykonać OCR pliku obrazu. Ta metoda umożliwia przekazanie listy plików obrazów do przetworzenia i asynchroniczne otrzymanie wyników. Alternatywnie możesz użyć metody `asyncBatchAnnotateImages`, aby bezpośrednio przetworzyć listę obrazów.

Aby wyodrębnić tekst z obrazu, musisz utworzyć instancję obiektu `AnnotateImageRequest` i określić żądane funkcje. W tym przypadku należy ustawić funkcję `TEXT_DETECTION`, aby wskazać, że chcesz wyodrębnić tekst z obrazu. Możesz także określić dodatkowe parametry, takie jak podpowiedź językowa, aby poprawić dokładność OCR.

Następnie musisz zakodować plik obrazu w ciągu znaków zakodowanym w formacie base64 i utworzyć instancję obiektu `Image`, korzystając z zakodowanych danych obrazu. Ten obiekt `Image` należy dodać do utworzonego wcześniej obiektu `AnnotateImageRequest`.

Po skonfigurowaniu żądania możesz wysłać je do Vision API za pomocą metody `batchAnnotateImages` lub `batchAnnotateFiles`, w zależności od wybranego podejścia. Interfejs API przetworzy obraz i zwróci odpowiedź zawierającą wyodrębniony tekst.

Aby uzyskać dostęp do tekstu wyodrębnionego z odpowiedzi, możesz iterować po polu `textAnnotations` obiektu `AnnotateImageResponse`. To pole zawiera listę obiektów „EntityAnnotation”, z których każdy reprezentuje wykryty element tekstowy na obrazie. Pole „opis” każdego obiektu „EntityAnnotation” zawiera wyodrębniony tekst.

Oto przykładowy fragment kodu w Pythonie, który pokazuje, jak uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision:

python
from google.cloud import vision

def extract_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)

    request = vision.AnnotateImageRequest(
        image=image,
        features=[{'type': vision.Feature.Type.TEXT_DETECTION}]
    )

    response = client.batch_annotate_images(requests=[request])

    for annotation in response.responses[0].text_annotations:
        extracted_text = annotation.description
        print(extracted_text)

# Usage
extract_text_from_image('path_to_image.jpg')

W tym przykładzie funkcja „extract_text_from_image” przyjmuje jako dane wejściowe ścieżkę do pliku obrazu i korzysta z biblioteki klienta Google Cloud Vision w celu wysłania żądania do interfejsu Vision API. Wyodrębniony tekst jest następnie drukowany.

Aby uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision, musisz skonfigurować środowisko, utworzyć obiekt `AnnotateImageRequest` z żądanymi funkcjami, zakodować plik obrazu, wysłać żądanie do interfejsu API i pobrać wyodrębniony tekst z odpowiedzi. Możliwości OCR Vision API umożliwiają wykrywanie i wyodrębnianie tekstu z obrazów, w tym pisma odręcznego.

Inne niedawne pytania i odpowiedzi dotyczące Wykrywanie i wyodrębnianie tekstu z pisma ręcznego:

Więcej pytań i odpowiedzi:

Tagged under: Artificial Intelligence, Interfejs API Google Cloud Vision, Przetwarzanie obrazu, OCR, Optyczne rozpoznawanie znaków, Wyodrębnianie tekstu

Akademia EITCA

Jak uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision?

Inne niedawne pytania i odpowiedzi dotyczące Wykrywanie i wyodrębnianie tekstu z pisma ręcznego:

Więcej pytań i odpowiedzi:

Akademia EITCA jest częścią europejskich ram certyfikacji IT

Uprawnienie do Akademii EITCA 80% wsparcia EITCI DSJC Subsydium

Akademia EITCA

ZALOGUJ SIĘ NA KONTO PODAJĄC NAZWĘ UŻYTKOWNIKA LUB ADRES E-MAIL

ZAPOMNIAŁEŚ DANYCH LOGOWANIA?

STWÓRZ KONTO

Jak uzyskać dostęp do tekstu wyodrębnionego z obrazu za pomocą interfejsu API Google Vision?

Inne niedawne pytania i odpowiedzi dotyczące Wykrywanie i wyodrębnianie tekstu z pisma ręcznego:

Więcej pytań i odpowiedzi:

Uprawnienie do Akademii EITCA 80% wsparcia EITCI DSJC Subsydium