회의록의 작성 등 수기로 문장을 쓰는 것은 매우 번거로운 작업입니다. OpenAI가 만든 문장생성 AI「Whisper」를 이용하는 방법도 있지만, 초기 설정이 복잡합니다.
Whisper를 사용하기 쉽게 만든 무료 서비스「writeout.ai」는, 매우 간단하면서도 단시간에 고정밀도 문장생성을 실현할 수 있다고 하여, 실제로 사용해 보았습니다.
writeout.ai – Transcribe and translate any audio file
https://writeout.ai/
위의 링크 writeout.ai에 액세스 하면 다음과 같은 화면이 표시됩니다. 문장을 생성하려면 "Transcribes for free"를 클릭하십시오.
그러면 GitHub 계정으로 로그인하라는 메시지가 표시됩니다. GitHub 계정이 없는 경우에는 'Create an account'를 통해 새로 발급받습니다.
(개발자가 아닌 일반인들도 코딩하는 시대이니, GitHub 계정 하나 정도는 갖고 계셔도 좋을 것 같습니다. ^^)
계정 생성 화면이 나타나면 "사용자 이름" "이메일 주소" "비밀번호"를 입력하여 로봇이 아니라는 것을 확인한 다음 "Create account"를 클릭합니다.
그러면 다음과 같은 8자리 인증 코드를 입력하는 화면이 표시됩니다.
인증 코드는 계정 생성 화면에서 입력하신 이메일 주소로 전송됩니다.
이메일에 기재된 8자리 코드를 입력합니다(메일이 안 왔다면, 스팸메일함을 확인하세요).
그러면 다음 화면으로 이동하므로 "Authorize Beyondcode"를 클릭합니다.
우선 문장으로 변환할 오디오 파일이 필요하니까, LibriVox 같은 사이트에서
오디오북 파일을 다운로드합니다.
저는 제인 오스틴의 오만과 편견을 받았습니다.
https://librivox.org/pride-and-prejudice-by-jane-austen-solo-project/
이제 writeout.ai를 사용해 보겠습니다.
파일 선택 버튼으로 방금 다운로드 한 파일을 선택합니다.
선택 가능한 파일 형식은 mp3, mp4, mpeg, mpga, m4a, wav, webm 중 하나이며, 선택 가능한 최대 파일 크기는 25MB입니다.
다운로드하여 뒀던 음성 파일을 선택한 후 "Transcribe"를 클릭합니다.
그러면 "문장 생성 중... 생성이 완료되면 자동으로 페이지가 갱신됩니다"라는 메시지가 표시되니, 잠시 기다립니다.
문장생성(원본을 번역)이 가능한 언어는 아래와 같습니다.
아직 한국어는 지원하지 않습니다. ㅠㅠ
그러나 영어 기능만 사용해도 제법 유용할 것 같습니다.
약 2분 만에 문장생성이 완료되었고, 페이지가 업데이트되었습니다. 페이지가 새로 고쳐지면 아래로 스크롤하여 문장생성 결과를 확인합니다.
페이지 하단에는 문장생성 결과가 표시됩니다. 사람의 이름이나 고유명사에는 서투른 것 같습니다만, 전체적으로 높은 정밀도로 문장이 생성되고 있습니다. 약 30분에 달하는 음성 파일을 약 2분 만에, 이 정도로 정밀한 문장으로 변환하여 생성을 완료하였습니다.
문장생성결과 상단의 재생 버튼을 클릭하면 음성을 들으면서 해당 부분의 문장생성 결과도 확인할 수 있습니다.
문장성생 결과를 다운로드하고 싶다면 "Download transcript"를 클릭.
그러면 문장생성 결과를 vtt 형식으로 다운로드할 수 있습니다.
다운로드한 vtt 파일의 내용은 이런 느낌. 문장생성 결과가 시간 정보와 함께 기록되어 있으므로, 이에 대응하는 소프트웨어를 사용하면 자막 첨부 영상 등을 간단하게 작성할 수 있습니다.
또한 writeout.ai의 소스 코드는 다음 GitHub 리포지토리에서 공개되어 있으며, 직접 OpenAI의 API를 통해 로컬 환경에 구축할 수도 있습니다.
GitHub - beyondcode/writeout.ai: Transcribe and translate your audio files - for free
https://github.com/beyondcode/writeout.ai
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
Google의 머신러닝 플랫폼 'Vertex AI'가 역대 최대로 업그레이드 (0) | 2023.03.16 |
---|---|
인기 급증의 Bing에 이용하고 있는 AI는「GPT-4」였다고 Microsoft가 밝히다 (0) | 2023.03.16 |
「GPT-4」발표,「초대 iPhone과 동등한 충격」이라는 평가 (0) | 2023.03.16 |
인간 수준의 정밀도로 대화가 가능한「ChatGPT」는 무엇이 획기적인 것인가? (0) | 2023.03.13 |
OpenAI의 차세대 언어 모델「GPT-4」발표 예정, 초대 iPhone급 충격이라는 평가 (0) | 2023.03.12 |
Google이 시각과 텍스트로부터 인간처럼 이해하는 로봇용 언어 모델「PaLM-E」를 발표 (0) | 2023.03.10 |
「Stable Diffusion」이 AI화상 편집 앱「ClipDrop」을 인수해 AI 앱 개발 체제를 강화 (0) | 2023.03.09 |
300개 이상의 언어로 훈련된 Google 번역 AI「Universal Speech Model(USM)」의 약진 (0) | 2023.03.09 |