Zeroscope ist ein kostenloses Text-zu-Video-Modell, das auf aktuellen Grafikkarten läuft. Es basiert auf ModelsScope Demo, einem mehrstufigen Text-zu-Video-Diffusionsmodell mit 17 Milliarden Parametern, das ein Video zu einer textuellen Beschreibung erzeugt. Zeroscope ist eine verfeinerte Variante von ModelsScope mit höherer Auflösung, ohne Shutterstock-Wasserzeichen und näher an einer 16:9-Auflösung. Es besteht aus zwei Komponenten: ZeroscopeV2 567W für eine schnelle Generierung in 576×320 Pixel, um Videoideen zu erforschen, und ZeroscopeV2 XL zum Hochskalieren gelungener Videos auf 1024×576 Pixel in hoher Qualität.
Die Zukunft der Text-zu-Video-Technologie
Text-zu-Video befindet sich noch in einem frühen Entwicklungsstadium. Die von KI generierten Clips sind meist nur wenige Sekunden lang und weisen zahlreiche Bildfehler auf. Bild-KI-Modelle sind jedoch ähnlich gestartet und konnten innerhalb weniger Monate Fotorealismus erreichen. Im Vergleich zu reinen Bildmodellen ist die Videogenerierung jedoch deutlich ressourcenintensiver beim Training ebenso wie bei der Generierung. Mit Zeroscope kommt jetzt das erste hochwertigere Open-Source-Modell hinzu, das den Beginn einer qualitativ hochwertigen Open-Source-Text-zu-Video-Technologie darstellt, die noch in den Kinderschuhen steckt, aber das Potenzial hat, sich ähnlich schnell zu entwickeln wie Text-zu-Bild-Modelle.
Quellen