AI賦能內容創作早已不是新鮮事,但如何真正“快速高質”產出一條可分發的解說漫畫視頻?本篇將拆解一個完整流程,從文案生成、腳本設計、漫畫創作到視頻剪輯與配音,幫助你理解文生視頻的全鏈路操作方式,探索如何將AI工具變成你的創作助理。

開頭先啰嗦兩句,之前我的很多關于AI的分享,內容主要是涉及到AI的業界進展和個人研究的心得。期間時不時就有朋友問我說能不能講講日常使用AI的一些心得技巧。于是乎,我計劃開啟一個新的系列——“AI應用教學”,計劃是聚焦到一個小的應用場景,全流程拆解它的步驟,既講操作,也講過程心得經驗。

希望大家會喜歡。

場景拆解

我在之前發布的關于探討假如AI可以完美復刻過世之人的視頻中,就插入了一段關于“忒修斯之船”的解說漫畫視頻。后來就有朋友好奇,這樣的解說漫畫視頻,是怎么制作出來的?于是,我也就順著這次機會,打算開啟一個新的系列“AI應用教學”。不定期地把我在日常中應用AI的一些場景或技巧,其中的一些落地細節,全流程地一一整理,分享給大家。

回到我們這次要分享的場景——解說漫畫視頻,先說說它的適用場景:針對一些相對通行的概念或事件,進行動畫化的演示說明。“相對通用”,意味著我們只需要給AI說明該概念即可,而不必去詳細構想每一幅畫面。動畫化演示,意味著是“先生圖再圖生視頻”,“圖生視頻”尤其是動畫,對真實性要求也沒這么高,當前的AI是完全可以勝任的。我全程使用的是AI產品,是字節跳動出品的“豆包”。

具體而言,我們可以將這個場景,拆分為三個步驟:

針對要解說的“概念”,用AI拆解說明步驟并生成對應的圖片。針對各個圖片,生成動態的視頻。將各個視頻進行拼接,并配上配樂、旁白、字幕等內容,剪輯成片。

接下來,我們就針對這些步驟,進行詳細介紹。

第一步:生成圖片

第一步先使用AI對我們要解說的概念或事件進行“步驟拆解”,并基于拆解的步驟,生成對應的配圖。這里嚴格來講,步驟拆解、生成配圖,是“兩個步驟”。前面我們就有提到,對于相對通行的概念或事件,比如我本次想要解說的是哲學上著名的“忒修斯之船”悖論,AI預訓練的內容肯定是有包含的。所以我在操作時就將它合并為一步直接進行處理了。

比例 「9:16」幫我創作一系列的漫畫風格的圖片,介紹“忒修斯之船”悖論(以及它的另外組建新船延伸討論),上面不要有任何文字

如各位所見,我的提示詞相當地簡單。當然,如果你要解說的概念或事件比較陌生,也可以先通過向AI描述,讓AI來拆解具體步驟(可以告訴AI后續需要制作解說漫畫,具體需要AI拆解為五個步驟之類的)。拆解后再將每一張圖片的內容合并,作為生成圖片的提示詞。

當然,生成圖片這里仍然有可能遇到生成出來的圖片并不合我們心意,比如我生成的第一個版本,我就覺得畫面過于復雜。此時就要嘗試讓AI多生成幾次,挑選合適的版本(業內俗稱“抽卡”)。至于具體如何操作,就要看遇到的“不合心意”的情況,比如風格是對的只是不夠美觀,那就直接再次生成;又比如風格或內容方向不對,那么就修改提示詞后再次生成。而豆包是支持直接通過對話來修改圖片的,因此我也就偷了個懶,直接通過對話來引導豆包生成其他的風格的圖片了。

經過3次的對比,我最終挑選了“簡筆畫”這個風格的圖片,作為下一步“圖生視頻”的素材。(實操過程中還有針對個別圖片進行進一步調整,此處不再一一展示。)

第二步:圖生視頻

完成了圖片素材的生成,就可以進入到第二步,“圖生視頻”。具體的方式是將生成的每張圖片分別作為該次視頻生成的參考圖片,并補充希望轉成視頻后,畫面如何運動的描述,也就是對應的提示詞。

類似的任務,目前國內的各大視頻生成AI產品都可以滿足,包括我前面用來生成圖片的豆包,它也可以支持“圖生視頻”。我們只需要選擇“視頻生成”的技能,點擊打開具體的圖片,將其添加為參考圖,再加上對應的視頻畫面描述即可(比如我截圖描述的就是“帆船在大海中航行”)。如果各位使用的是其他的AI產品,操作過程應該也是類似的,只不過需要多一步“下載再上傳圖片”的操作而已。

同樣地,如果遇到生成出來的視頻并不合我們心意,處理方法和前面所說的類似,“抽卡”應對之。而由于我這次的圖片相對簡單,所以也沒有在這里花費太多時間。不過得多提一句是,生成視頻所需要耗費的資源()遠高于生成圖片。因此在前面描述畫面時建議盡量想齊全想清楚并表達準確。至于如何做到,可以多學習平臺上優秀作品的提示詞,更多的是多去實踐,才能熟能生巧。

第三步:剪輯成片

將每個步驟的配圖都生成視頻后,就可以作為素材進行拼接,并附上配樂、解說、字幕等內容,最終剪輯成片了。

我在本次的“忒修斯之船”的案例中,由于錄制視頻時我原本設想的是口頭表達,當時還沒想到要用“解說漫畫”來替代。所以我其實是先錄制了口頭的解說,再用視頻上去匹配的。如果你是把這一步放到最后,那么可以繼續利用AI,讓它生成對應的解說詞(具體如何控制文案長度、風格這里就不展開了),然后自行錄制或者使用AI來生成對應的旁白。

如果各位是希望嘗試AI生成旁白(事實上如果不是先錄制好了我自己的解說,我肯定會嘗試用AI來生成),那么我可以推薦另一款產品,由稀宇科技出品的 AI的“聲音生成”。它最新的 02模型,增加了 聲音設計的能力,可以支持用戶選擇各類聲線、各類語調乃至于通過自然語言描述的音色來生成音頻。這對于我們想制作解說漫畫視頻,可謂是無比適配。

旁白也準備好了,我們就可以將它們拼接在一起。

這里我使用的是產品倒沒什么特別,就是“剪映”。

需要補充的一點經驗就是,因為生成視頻的長度往往是固定的(比如5秒、10秒),而對應的解說旁白則不可能剛好對齊。此時處理就比較簡單的,可以音、畫兩邊都嘗試變速,在盡可能小影響的范圍內對齊即可。

額外的一些總結

我在去年開發自己的AI課程時,針對AI生成圖片/生成視頻的領域,總結過當時面臨的三大挑戰:

肢體的協調性,尤其是生成人物的手指;文字的生成,去年時的AI生圖還無法處理文字,但這方面隨著近半年的快速迭代,已經可以說是基本被解決了;角色一致性,也就是生成多張圖片時是否能保持其中角色形象的一致性。

而我之所以使用豆包來生成,很重要的一點是它在第3點的角色一致性上有長足的進步。這里再提供我利用豆包生成的另一組圖片,讓大家可以更好地感受豆包生圖的角色一致性。

在這一組名為“AI時代下產品經理的工作變化”為主題的5幕圖片中,可以看出,其中的主人公形象是保持一致的。

同樣地,細心的朋友或許會發現,我所使用的都是偏向漫畫的風格,這當然是經過老考量。如前面所說,AI生圖在圖像的真實性上仍有不足(也就是說AI生成的圖片在真實性上還是比不過攝影作品)。而像漫畫這樣的風格,畫面內容相對簡單,也對于畫面的真實性沒有過高的要求,此時AI就可以很好地勝任,非常適配像解說概念或事件這樣的場景。

與此同時,我們也期待迭代進化“一日千里”的AI,能夠在多模態領域持續進步。或許在不遠的某一天,我們就可以用上更真實、更易用、更強大的多模態AI產品。