Google Cloud STT Document 를 참고해서 Google Colab을 통해 GCP STT를 사용해 본 과정에 대한 포스팅을 해보겠습니다.

우선, GCP docs 에 상당히 자세한 설명과 sample code 가 나와있기 때문에 주된 설명은 docs 를 참고하시면 좋을것 같습니다.

저는 오디오 텍스트 변환 요청하기 탭에 있는 소스코드 를 기반으로 작업했습니다

기반 소스를 사용하기 위해 몇가지 사전작업을 해야합니다.

  • GCP 프로젝트 생성
  • GCP Cloud STT API 사용설정
  • 서비스 계정 생성
  • 비공개 키 JSON 다운

4가지 일련의 작업들이 하단 이미지의 프로젝트 설정을 통해 완료했습니다.

이어서 GOOGLE_APPLICATION_CREDENTIALS 을 Colab 상에서 설정해줘야 하는데 이 부분을 조금 다르게 해결했다.

Cloud Docs 에서는

export GOOGLE_APPLICATION_CREDENTIALS="[PATH]"

를 이용해 서비스 계정키가 포함된 JSON PATH 를 설정하게 되어있는데 구글 코랩을 통해

!export GOOGLE_APPLICATION_CREDENTIALS="[PATH]"

! 를 통해 jupyter cell 에서 linux command 를 입력했지만

!echo GOOGLE_APPLICATION_CREDENTIALS

echo의 결과 PATH 가 정상적으로 입력되지 않았다.

Python os 를 이용해 환경변수를 설장해 JSON KEY PATH를 환경변수로 넣어줬고

import os
os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="PATH"

환경변수로 잘 잡혀있다.

그 뒤로는 GCP DOCS 에 있는 Sample Code 를 돌려보면 잘 돌아간다.

GCP STT Issue

  • One Language Dectection : 하나의 인식 범위 내에 언어가 섞여있을 경우 하나의 언어로만 번역
    이 과정에서 인식률, 정확성이 많이 감소하는 모습을 보임
    예시) I am a boy 라는 문장이 있을때 --> 보이 라는 문장이 있을때

  • ko-kr (한글)에 대해서 프리미엄 모델(Phone-call, Video), Word Confidence 에 대한 지원 x
    관련 문서

  • 구두점 삽입 기능에 대해서 부적절한 문장부호가 많이 생성
    예시) 다음과 같이 번역하겠죠. --> 다음과 같이 번역하겠죠?

 

 

+ Recent posts