網(wǎng)友評(píng)分:
5分
so-vits-svc是一個(gè)用來模擬人聲的開源項(xiàng)目,該工具可以幫助大家更好的對(duì)聲音模型進(jìn)行訓(xùn)練,用于生成類似微軟云希、抖音文字轉(zhuǎn)語音等效果,對(duì)電腦硬件的要求并不高,但是需要較為繁瑣的準(zhǔn)備工作,還有大量的聲音素材,經(jīng)過訓(xùn)練之后,大家就可以通過AI的方式來進(jìn)行聲音的模擬和歌唱。
如果您想訓(xùn)練自己的聲音模型并加以使用,需要以后幾個(gè)步驟。
提取干音
音頻切分
預(yù)處理
訓(xùn)練模型
配置模型
推理預(yù)測
Q:跑這個(gè)的最低配置要求是啥啊?
A:支持CUDA的6G顯存以上的N卡,硬盤也留足一點(diǎn)空間。
Q:A卡真的跑不了嗎
A:理論上可以在Ubuntu或Linux環(huán)境下通過ROCm來實(shí)現(xiàn),但是比較麻煩,小白建議放棄直接去云端。
Q:我的顯卡達(dá)不到最低要求,云端又心疼錢,真的沒法訓(xùn)練了嗎?
A:建議去看DDSP-SVC項(xiàng)目,效果差一點(diǎn)但也能聽,最重要的是對(duì)低配非常友好。
Q:用UVR5分離人聲的時(shí)候聲音會(huì)失真,還有什么更給力的工具嗎?
A:理論上UVR5已經(jīng)是目前最強(qiáng)的人聲分離工具了,原曲如果伴奏聲音太大軌道太復(fù)雜是一定會(huì)有失真的,建議選原曲的時(shí)候選擇伴奏簡單人聲清楚的效果會(huì)好很多。
Q:Audio Slicer 切出來的音頻有的長達(dá)幾十秒甚至幾分鐘,是怎么回事?
A:切片長度建議5-15秒,訓(xùn)練時(shí)過長部分會(huì)被自動(dòng)丟棄。切出來過長的音頻可以調(diào)整一下slicer里的maximum silence length這一條,改成500或者更低。還有過長的音頻就自己用Au之類的手動(dòng)切一下啦。
Q:我怎么判斷模型有沒有訓(xùn)練好?
A:數(shù)據(jù)集數(shù)量正常的情況下(幾百條),可以每隔幾千步(是總步數(shù)不是epoch)跑出來的模型推理聽一下,你覺得ok就ok,一般一萬步就可以有一個(gè)不錯(cuò)的效果了。或者有代碼基礎(chǔ)的可以用tensorboard查看一下?lián)p失率收斂趨勢。
Q:那么問題來了,tensorboard怎么用?
A:python38\Scripts\tensorboard.exe --logdir logs\44k
Q:我在訓(xùn)練途中按CTRL+C暫停訓(xùn)練,繼續(xù)訓(xùn)練的時(shí)候?yàn)槭裁磸念^開始/步數(shù)掉了很多呢?
A:視頻里說的有點(diǎn)歧義,其實(shí)是從你上一個(gè)保存的模型的進(jìn)度開始的,比如保存的一個(gè)模型是G_8000, 即使你訓(xùn)練到了第8799步,只要下一個(gè)模型還沒保存,繼續(xù)訓(xùn)練的時(shí)候都是從第8000步開始的。同理,如果一個(gè)模型也沒保存,那就是從頭開始訓(xùn)練。
Q:如果我在訓(xùn)練中途想要追加一些數(shù)據(jù)集該怎么辦呢?
A:需要重新預(yù)處理并重新訓(xùn)練。
Q:我為什么沒有聚類模型啊?
A:重看一遍教程。
Q:訓(xùn)練聚類模型的時(shí)候顯卡根本沒占用是怎么會(huì)是呢?
A:聚類模型訓(xùn)練吃的是你的CPU,看一下python進(jìn)程在占用CPU就是在訓(xùn)練,等就行了。
Q:我實(shí)在是太懶了,只想讓AI幫我讀稿子,不想自己錄原聲再推理,有啥辦法嗎?
A:可以考一下VITS項(xiàng)目,最近有個(gè)VITS fast fine-tuning的方法,幾分鐘的素材就能練出比較相似的聲音,雖然效果沒那么好但它實(shí)在是太方便了。
Q:云端訓(xùn)練好的模型怎么在本地用?
A:下載G模型和對(duì)應(yīng)的config文件,放到本地的對(duì)應(yīng)文件夾就行(.\logs\44k和.\configs)
Q:我實(shí)在不會(huì)搞了,請(qǐng)問能代訓(xùn)練嗎?有償?shù)哪欠N。
A:可以,每1萬步100元。
Q:我訓(xùn)練和推理都很順利!現(xiàn)在已經(jīng)做了一首翻唱了,想上傳到網(wǎng)絡(luò),有什么注意事項(xiàng)嗎?
A:請(qǐng)務(wù)必遵循So-VITS使用規(guī)約:
任何發(fā)布到視頻平臺(tái)的基于sovits制作的視頻,都必須要在簡介明確指明用于變聲器轉(zhuǎn)換的輸入源歌聲、音頻,例如:使用他人發(fā)布的視頻/音頻,通過分離的人聲作為輸入源進(jìn)行轉(zhuǎn)換的,必須要給出明確的原視頻、音樂鏈接;若使用是自己的人聲,或是使用其他歌聲合成引擎合成的聲音作為輸入源進(jìn)行轉(zhuǎn)換的,也必須在簡介加以說明。
由輸入源造成的侵權(quán)問題需自行承擔(dān)全部責(zé)任和一切后果。使用其他商用歌聲合成軟件作為輸入源時(shí),請(qǐng)確保遵守該軟件的使用條例,注意,許多歌聲合成引擎使用條例中明確指明不可用于輸入源進(jìn)行轉(zhuǎn)換。
請(qǐng)自行解決數(shù)據(jù)集的授權(quán)問題,任何由于使用非授權(quán)數(shù)據(jù)集進(jìn)行訓(xùn)練造成的問題,需自行承擔(dān)全部責(zé)任和一切后果。
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 www.wndwig.cn.All rights reserved.
浙ICP備2024132706號(hào)-1 浙公網(wǎng)安備33038102330474號(hào)