로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
"아내가 시도 때도 없이 적극적" 조째즈, 아내와 '매일 뽀뽀' 자랑
N
[실시간뉴스]
돈 뺏어간 96%가 자식·요양사·지인…‘양자’ 신고해 상속 노리기도[히어로콘텐츠/헌트②-下]
N
[연예뉴스]
'-40㎏ 선언' 홍윤화, 드디어 몸무게 두 자릿수 "김구라보다 덜 나가"
N
[연예뉴스]
'54세' 안재욱, 자식농사 제대로 대박…10살 딸 제2의 김연아 되나?
N
[연예뉴스]
현빈X정우성 '메이드 인 코리아', 욕망 폭발하던 70년대 조망→재미·의미 다 잡은 수작의 탄생(종합)
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개
온카뱅크관리자
조회:
522
2024-11-29 10:48:27
<div class="node-body">엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토(Foundational Generative Audio Transformer Opus 1, Fugatto)’를 개발했다고 밝혔다.<br> <figure class="image"><img alt="" border="1" height="329" onerror="removeImage($(this));" src="https://www.itworld.co.kr/files/itworld/ITW_202411_02/nvidia.jpg" width="622"> <figcaption>ⓒ Nvidia</figcaption> </figure> <br> 엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑한다고 업체 측은 설명했다. 푸가토는 연구팀이 음성 모델링, 오디오 보코딩(VoCoding), 오디오 이해와 같은 분야에서 쌓아온 이전 작업을 기반으로 하는 파운데이션 생성형 트랜스포머 모델이다.<br> <br> 푸가토는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.<br> <br> 라파엘 발레(Rafael Valle)는 엔비디아의 응용 오디오 연구 관리자이자 푸가토를 공동 개발한 라파엘 발레는 “사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”라고 말했다. <br> <br> 엔비디아는 다양한 오디오 생성과 변형 작업을 지원하는 푸가토가 여러 훈련된 능력의 상호 작용에서 나타나는 창발성(emergent property)을 보여준다며, 자유 형식의 지시를 결합할 수 있는 능력을 가지고 있다고 설명했다. <br> <br> 라파엘 발레는 “푸가토는 데이터와 모델 규모에 따라 오디오 합성과 변형에서 비지도 멀티태스크 학습이 가능한 미래를 향한 첫걸음”이라고 덧붙였다. <br> <h2>다양한 푸가토 사용례</h2> 음악 프로듀서는 푸가토를 사용해 노래에 대한 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있다. 이 과정에서 다양한 스타일, 목소리, 악기를 시도할 수 있다. 효과를 추가하고 기존 트랙의 전체 오디오 품질을 향상시킬 수도 있다. 광고 대행사는 푸가토를 적용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용하는 것이 가능하다. <br> <br> 발레는 하나의 모델이 다양한 방식으로 언어를 사용할 수 있는 사례를 보여주는 “<a href="https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/" target="_blank">아보카도 의자</a>”를 언급하며 푸가토 역시 트럼펫에서 강아지 소리를 내게 하거나, 색소폰에서 고양이 소리를 내는 등 사용자가 묘사하는 것은 무엇이든 생성할 수 있다고 말했다. 노출된 훈련 데이터만 재현할 수 있는 다른 대부분 모델과 달리, 푸가토를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있다는 설명이다. <br> <h2>정밀한 사운드 제어 기능</h2> 푸가토는 컴포저블아트(ComposableART)라는 기술을 사용해 개별적으로만 학습했던 명령어를 결합한다. 예를 들면 ‘슬픈 감정’과 ‘프랑스어 억양’이라는 2가지 명령어를 결합해 ‘슬픈 감정의 프랑스어 억양으로’ 말하는 사운드 생성을 요청할 수 있다. 모델의 명령어 간 보간 기능을 통해 사용자는 억양의 강약이나 슬픔의 정도 등과 같은 텍스트 명령어를 세밀하게 제어할 수 있다.<br> <br> 푸가토의 이런 측면을 설계한 엔비디아의 AI 연구원 로한 바들라니는 “사용자가 주관적이거나 예술적인 방식으로 속성을 조합할 수 있도록 하고, 각 속성을 얼마나 강조할지 선택할 수 있게 하고 싶었다”라고 설명했다.<br> <br> 또한 아울러 푸가토는 시간이 지남에 따라 변화하는 소리를 생성하는 ‘시간적 보간(temporal interpolation)’ 기능을 제공한다. 예를 들어, 천둥소리가 점점 크게 들리다가 점차 멀어지며 지역을 통과하는 폭풍우 소리를 만들 수 있다. 사용자는 사운드스케이프의 진행 방식을 세밀하게 제어할 수 있다.<br> <br> 푸가토 정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어(Tensor Core) GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다. 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 다양한 사람 참여해 다중 억양과 다국어 기능이 더욱 강화됐다고 업체 측은 설명했다. <br> editor@itworld.co.kr</div>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기