เทคโนโลยีข้อความเป็นวิดีโอของ Nvidia จะนำเกม GIF ของคุณไปสู่อีกระดับ

ตอนนี้ ChatGPT และ Midjourney ค่อนข้างเป็นกระแสหลัก การแข่งขัน AI ครั้งใหญ่ครั้งต่อไปคือโปรแกรมสร้างข้อความเป็นวิดีโอ และ Nvidia เพิ่งแสดงการสาธิตที่น่าทึ่งของเทคโนโลยีที่จะยกระดับ GIF ของคุณไปสู่อีกระดับในไม่ช้า

บทความวิจัยและไมโครไซต์ใหม่ (เปิดในแท็บใหม่) จาก Toronto AI Lab ของ Nvidia ที่มีชื่อว่า "การสังเคราะห์วิดีโอความละเอียดสูงด้วยโมเดลการแพร่กระจายแฝง" ให้ข้อมูลเชิงลึกเกี่ยวกับเครื่องมือสร้างสรรค์อันน่าทึ่งที่ศิลปินวิดีโอพร้อมที่จะเข้าร่วม: รายชื่อที่เพิ่มขึ้นของ เครื่องกำเนิดงานศิลปะ AI ที่ดีที่สุด

โมเดลการแพร่กระจายแฝง (หรือ LDM) เป็น AI ประเภทหนึ่งที่สามารถสร้างวิดีโอโดยไม่ต้องใช้พลังการประมวลผลมหาศาล Nvidia กล่าวว่าเทคโนโลยีทำได้โดยนำการทำงานของตัวสร้างข้อความเป็นรูปภาพ ในกรณีนี้คือ Stable Diffusion และเพิ่ม "มิติเวลาให้กับโมเดลการแพร่กระจายเชิงพื้นที่ที่แฝงอยู่"

gif สตอร์มทรูปเปอร์กำลังดูดฝุ่นบนชายหาด

(เครดิตรูปภาพ: Nvidia)

กล่าวอีกนัยหนึ่ง generative AI ของมันสามารถย้ายภาพนิ่งได้อย่างสมจริงและปรับขนาดโดยใช้เทคนิคที่มีความละเอียดสูงสุด ซึ่งหมายความว่าคุณสามารถส่งออกวิดีโอสั้น 4,7 วินาทีที่ความละเอียด 1280x2048 หรือวิดีโอที่ยาวกว่าด้วยความละเอียดต่ำกว่า 512x1024 สำหรับการขับขี่วิดีโอ

ความคิดทันทีของเราเมื่อได้เห็นการสาธิตในช่วงต้น (เช่นด้านบนและด้านล่าง) คือสิ่งนี้จะผลักดันเกม GIF ของเราไปข้างหน้าได้มากแค่ไหน จริงอยู่ที่มีหลายสาขาที่ใหญ่กว่า เช่น การทำให้เป็นประชาธิปไตยของการสร้างวิดีโอและความเป็นไปได้ของการปรับภาพยนตร์โดยอัตโนมัติ แต่ ณ จุดนี้ ข้อความเป็น GIF ดูเหมือนจะเป็นกรณีการใช้งานที่น่าตื่นเต้นที่สุด

ตุ๊กตาหมีเล่นกีตาร์ไฟฟ้า

(เครดิตรูปภาพ: Nvidia)

ข้อความแจ้งง่ายๆ เช่น "สตอร์มทรูปเปอร์กำลังดูดฝุ่นบนชายหาด" และ "ตุ๊กตาหมีกำลังเล่นกีตาร์ไฟฟ้า ความคมชัดสูง 4K" ให้ผลลัพธ์ที่ค่อนข้างใช้งานได้ แม้ว่าโดยธรรมชาติแล้วจะมีสิ่งประดิษฐ์และการเปลี่ยนแปลงในการสร้างสรรค์บางอย่างก็ตาม

ในความเป็นจริงแล้ว esto hace que la tecnología de texto a video, como las nuevas demostraciones de Nvidia, se más adecuada para miniaturas y GIF. แต่ด้วยการปรับปรุงอย่างรวดเร็วที่เห็นในรุ่น AI ของ Nvidia สำหรับฉากที่ยาวขึ้น (เปิดในแท็บใหม่) เราอาจไม่ต้องรอคลิปข้อความเป็นวิดีโอที่ยาวขึ้นในไลบรารีสต็อกและอื่น ๆ ของ

การวิเคราะห์: พรมแดนถัดไปของ AI เชิงสร้างสรรค์

พระอาทิตย์ส่องผ่านหน้าต่างห้องใต้หลังคาในนิวยอร์ค

(เครดิตรูปภาพ: คำใบ้)

Nvidia ไม่ใช่บริษัทแรกที่เปิดตัวโปรแกรมสร้างข้อความวิดีโอ AI เมื่อเร็ว ๆ นี้เราได้เห็นการเปิดตัวของ Google Phenaki (เปิดในแท็บใหม่) ซึ่งเผยให้เห็นศักยภาพของคลิปความยาว 20 วินาทีตามคิวที่ยาวขึ้น การสาธิตยังแสดงคลิปแม้ว่าจะยาวกว่าสองนาที

Startup Runway ซึ่งช่วยสร้างโปรแกรมสร้างข้อความเป็นรูปภาพ Stable Diffusion ได้เปิดตัวโมเดลวิดีโอ Gen-2 AI (เปิดในแท็บใหม่) เมื่อเดือนที่แล้ว นอกเหนือจากการตอบสนองต่อข้อความเตือนเช่น "แสงแดดยามบ่ายส่องผ่านหน้าต่างห้องใต้หลังคาของนิวยอร์ก" (ผลลัพธ์ด้านบน) ยังช่วยให้คุณจัดเตรียมภาพนิ่งเพื่อใช้เป็นฐานในวิดีโอที่สร้างขึ้น และช่วยให้คุณสามารถขอสไตล์เพื่อนำไปใช้กับวิดีโอของคุณได้เช่นกัน .

เรื่องหลังยังเป็นหัวข้อของการสาธิต Adobe Firefly ล่าสุด ซึ่งแสดงให้เห็นว่า AI จะทำให้การตัดต่อวิดีโอง่ายขึ้นได้อย่างไร ในโปรแกรมเช่น Adobe Premiere Rush คุณจะสามารถพิมพ์ช่วงเวลาของวันหรือฤดูกาลที่คุณต้องการดูในวิดีโอของคุณได้ในไม่ช้า และ AI ของ Adobe จะจัดการส่วนที่เหลือเอง

การสาธิตล่าสุดจาก Nvidia, Google และ Runway แสดงให้เห็นว่าการเรนเดอร์ข้อความเป็นวิดีโอแบบเต็มนั้นค่อนข้างคลุมเครือ ซึ่งมักจะสร้างผลลัพธ์ที่แปลกประหลาด ชวนฝัน หรือบิดเบี้ยว แต่สำหรับตอนนี้ คงไม่เป็นไรสำหรับเกม GIF ของเรา และแน่นอนว่าการปรับปรุงอย่างรวดเร็วจะทำให้เทคโนโลยีนี้เหมาะสำหรับวิดีโอขนาดยาว