![](https://blog.kakaocdn.net/dn/cCnXV0/btr3eeuOjVK/AN5VEf4e24cs1g0z1f2XBk/img.png)
회의록의 작성 등 수기로 문장을 쓰는 것은 매우 번거로운 작업입니다. OpenAI가 만든 문장생성 AI「Whisper」를 이용하는 방법도 있지만, 초기 설정이 복잡합니다.
Whisper를 사용하기 쉽게 만든 무료 서비스「writeout.ai」는, 매우 간단하면서도 단시간에 고정밀도 문장생성을 실현할 수 있다고 하여, 실제로 사용해 보았습니다.
writeout.ai – Transcribe and translate any audio file
https://writeout.ai/
writeout.ai
Transcribe and translate any audio file in seconds.
writeout.ai
위의 링크 writeout.ai에 액세스 하면 다음과 같은 화면이 표시됩니다. 문장을 생성하려면 "Transcribes for free"를 클릭하십시오.
![](https://blog.kakaocdn.net/dn/cMzHaq/btr3bpdeF6z/AbKiI5MAc4znCwgK2rK1ck/img.png)
그러면 GitHub 계정으로 로그인하라는 메시지가 표시됩니다. GitHub 계정이 없는 경우에는 'Create an account'를 통해 새로 발급받습니다.
(개발자가 아닌 일반인들도 코딩하는 시대이니, GitHub 계정 하나 정도는 갖고 계셔도 좋을 것 같습니다. ^^)
![](https://blog.kakaocdn.net/dn/ctaOZt/btr3cKnDT38/fVMmVSu8HMwgLuSgcTfnL0/img.png)
계정 생성 화면이 나타나면 "사용자 이름" "이메일 주소" "비밀번호"를 입력하여 로봇이 아니라는 것을 확인한 다음 "Create account"를 클릭합니다.
![](https://blog.kakaocdn.net/dn/bklBcH/btr3iIa083y/7dRukAur4kRXlDjVokirtk/img.png)
그러면 다음과 같은 8자리 인증 코드를 입력하는 화면이 표시됩니다.
![](https://blog.kakaocdn.net/dn/DxoMk/btr3ky0jNlj/fKrkcf4SbEklmHLV4w7yEk/img.png)
인증 코드는 계정 생성 화면에서 입력하신 이메일 주소로 전송됩니다.
![](https://blog.kakaocdn.net/dn/bmHtEB/btr3c3tNxJJ/zcCAfsjNaxxzTwfkYKfo8K/img.png)
이메일에 기재된 8자리 코드를 입력합니다(메일이 안 왔다면, 스팸메일함을 확인하세요).
![](https://blog.kakaocdn.net/dn/cjk7A1/btr3b0qPoYY/TKFpGEKCiifzvOCziFkDnK/img.png)
그러면 다음 화면으로 이동하므로 "Authorize Beyondcode"를 클릭합니다.
![](https://blog.kakaocdn.net/dn/4du8U/btr3eWtULC2/qxOq4OWKaUkw1Yw5fyzxe1/img.png)
우선 문장으로 변환할 오디오 파일이 필요하니까, LibriVox 같은 사이트에서
오디오북 파일을 다운로드합니다.
저는 제인 오스틴의 오만과 편견을 받았습니다.
https://librivox.org/pride-and-prejudice-by-jane-austen-solo-project/
![](https://blog.kakaocdn.net/dn/cL25ng/btr3ofGawN4/CMG2MkoD8Pq8O2Q8Tv9KK1/img.png)
이제 writeout.ai를 사용해 보겠습니다.
![](https://blog.kakaocdn.net/dn/kC41E/btr3fs0BLVg/Pctv83oMkGOJpG3G8LBIlK/img.png)
파일 선택 버튼으로 방금 다운로드 한 파일을 선택합니다.
선택 가능한 파일 형식은 mp3, mp4, mpeg, mpga, m4a, wav, webm 중 하나이며, 선택 가능한 최대 파일 크기는 25MB입니다.
![](https://blog.kakaocdn.net/dn/7uFzJ/btr3cKusawL/XN991ZDXJyPu6GD0gkt5U0/img.png)
다운로드하여 뒀던 음성 파일을 선택한 후 "Transcribe"를 클릭합니다.
그러면 "문장 생성 중... 생성이 완료되면 자동으로 페이지가 갱신됩니다"라는 메시지가 표시되니, 잠시 기다립니다.
![](https://blog.kakaocdn.net/dn/bL89WZ/btr3lEe44HY/UpFEhfvwpfulUHXcld27B0/img.png)
문장생성(원본을 번역)이 가능한 언어는 아래와 같습니다.
아직 한국어는 지원하지 않습니다. ㅠㅠ
그러나 영어 기능만 사용해도 제법 유용할 것 같습니다.
![](https://blog.kakaocdn.net/dn/bO1ELV/btr3ege5UNH/C9I4Bn0GEo9kdCxSvuhTfK/img.png)
약 2분 만에 문장생성이 완료되었고, 페이지가 업데이트되었습니다. 페이지가 새로 고쳐지면 아래로 스크롤하여 문장생성 결과를 확인합니다.
페이지 하단에는 문장생성 결과가 표시됩니다. 사람의 이름이나 고유명사에는 서투른 것 같습니다만, 전체적으로 높은 정밀도로 문장이 생성되고 있습니다. 약 30분에 달하는 음성 파일을 약 2분 만에, 이 정도로 정밀한 문장으로 변환하여 생성을 완료하였습니다.
![](https://blog.kakaocdn.net/dn/cdBzU3/btr3cKgVy6v/M7UyTTTOZp3M9VbRnHvAx0/img.png)
문장생성결과 상단의 재생 버튼을 클릭하면 음성을 들으면서 해당 부분의 문장생성 결과도 확인할 수 있습니다.
![](https://blog.kakaocdn.net/dn/4Y88u/btr3cDIUY3I/28tMwKevymTgJ2fBg9LXIk/img.png)
문장성생 결과를 다운로드하고 싶다면 "Download transcript"를 클릭.
![](https://blog.kakaocdn.net/dn/GoOwW/btr3cdRcxEA/6f2uhnSWjvzzX7EaXmAdV1/img.png)
그러면 문장생성 결과를 vtt 형식으로 다운로드할 수 있습니다.
![](https://blog.kakaocdn.net/dn/dnoBcq/btr3c3m2r3K/KNocZ4dACsgKsOEuO5kvr1/img.png)
다운로드한 vtt 파일의 내용은 이런 느낌. 문장생성 결과가 시간 정보와 함께 기록되어 있으므로, 이에 대응하는 소프트웨어를 사용하면 자막 첨부 영상 등을 간단하게 작성할 수 있습니다.
![](https://blog.kakaocdn.net/dn/7CeEU/btr3fujOSVM/nvm3YUr4Vtj75EEe9y43T0/img.png)
또한 writeout.ai의 소스 코드는 다음 GitHub 리포지토리에서 공개되어 있으며, 직접 OpenAI의 API를 통해 로컬 환경에 구축할 수도 있습니다.
GitHub - beyondcode/writeout.ai: Transcribe and translate your audio files - for free
https://github.com/beyondcode/writeout.ai
GitHub - beyondcode/writeout.ai: Transcribe and translate your audio files - for free
Transcribe and translate your audio files - for free - GitHub - beyondcode/writeout.ai: Transcribe and translate your audio files - for free
github.com
![](https://blog.kakaocdn.net/dn/bCvclK/btr3dTdjCJ4/efw0eYuZue1Laws4OVgvK0/img.png)
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
Google의 머신러닝 플랫폼 'Vertex AI'가 역대 최대로 업그레이드 (0) | 2023.03.16 |
---|---|
인기 급증의 Bing에 이용하고 있는 AI는「GPT-4」였다고 Microsoft가 밝히다 (0) | 2023.03.16 |
「GPT-4」발표,「초대 iPhone과 동등한 충격」이라는 평가 (0) | 2023.03.16 |
인간 수준의 정밀도로 대화가 가능한「ChatGPT」는 무엇이 획기적인 것인가? (0) | 2023.03.13 |
OpenAI의 차세대 언어 모델「GPT-4」발표 예정, 초대 iPhone급 충격이라는 평가 (0) | 2023.03.12 |
Google이 시각과 텍스트로부터 인간처럼 이해하는 로봇용 언어 모델「PaLM-E」를 발표 (0) | 2023.03.10 |
「Stable Diffusion」이 AI화상 편집 앱「ClipDrop」을 인수해 AI 앱 개발 체제를 강화 (0) | 2023.03.09 |
300개 이상의 언어로 훈련된 Google 번역 AI「Universal Speech Model(USM)」의 약진 (0) | 2023.03.09 |