Google Cloud STT Document 를 참고해서 Google Colab을 통해 GCP STT를 사용해 본 과정에 대한 포스팅을 해보겠습니다.
우선, GCP docs 에 상당히 자세한 설명과 sample code 가 나와있기 때문에 주된 설명은 docs 를 참고하시면 좋을것 같습니다.
저는 오디오 텍스트 변환 요청하기 탭에 있는 소스코드 를 기반으로 작업했습니다
기반 소스를 사용하기 위해 몇가지 사전작업을 해야합니다.
- GCP 프로젝트 생성
- GCP Cloud STT API 사용설정
- 서비스 계정 생성
- 비공개 키 JSON 다운
4가지 일련의 작업들이 하단 이미지의 프로젝트 설정을 통해 완료했습니다.
이어서 GOOGLE_APPLICATION_CREDENTIALS 을 Colab 상에서 설정해줘야 하는데 이 부분을 조금 다르게 해결했다.
Cloud Docs 에서는
export GOOGLE_APPLICATION_CREDENTIALS="[PATH]"
를 이용해 서비스 계정키가 포함된 JSON PATH 를 설정하게 되어있는데 구글 코랩을 통해
!export GOOGLE_APPLICATION_CREDENTIALS="[PATH]"
! 를 통해 jupyter cell 에서 linux command 를 입력했지만
!echo GOOGLE_APPLICATION_CREDENTIALS
echo의 결과 PATH 가 정상적으로 입력되지 않았다.
Python os 를 이용해 환경변수를 설장해 JSON KEY PATH를 환경변수로 넣어줬고
import os
os.environ["GOOGLE_APPLICATION_CREDENTIALS"]="PATH"
환경변수로 잘 잡혀있다.
그 뒤로는 GCP DOCS 에 있는 Sample Code 를 돌려보면 잘 돌아간다.
GCP STT Issue
-
One Language Dectection : 하나의 인식 범위 내에 언어가 섞여있을 경우 하나의 언어로만 번역
이 과정에서 인식률, 정확성이 많이 감소하는 모습을 보임
예시) I am a boy 라는 문장이 있을때 --> 보이 라는 문장이 있을때 -
ko-kr (한글)에 대해서 프리미엄 모델(Phone-call, Video), Word Confidence 에 대한 지원 x
관련 문서
- 구두점 삽입 기능에 대해서 부적절한 문장부호가 많이 생성
예시) 다음과 같이 번역하겠죠. --> 다음과 같이 번역하겠죠?