به گزارش پایگاه خبری ” چرخ اقتصاد” گروهی از پژوهشگران هوش مصنوعی در گوگل ریسرچ (Google Research) نسل جدید تولیدکننده ویدیو از متن را که مبتنی بر هوش مصنوعی است، به نام لومیر (Lumiere) توسعه دادهاند.
در طول چند سال گذشته، برنامههای کاربردی هوش مصنوعی از آزمایشگاه به جامعه کاربران منتقل شدهاند. برای مثال، مدلهای زبانی بزرگ (LLM) مانند ChatGPT با مرورگرها ادغام شدهاند که به کاربران اجازه میدهند متون دلخواه خود را به روشهای بیسابقهای تولید کنند.
اخیرا مولدهای تبدیل متن به تصویر به کاربران اجازه ایجاد تصاویر فراواقعی را دادهاند و مولدهای تبدیل متن به ویدیو به کاربران این امکان را دادهاند که با استفاده از چند کلمه کلیپهای ویدیویی کوتاه تولید کنند.
اکنون تیم گوگل در این تلاش جدید با اعلام یک تولیدکننده ویدیو از متن به نام لومیر، این حوزه را به اوج جدیدی رسانده است.
لومیر که احتمالاً از روی نام برادران لومیر که پیشگامان تجهیزات اولیه عکاسی بودند نامگذاری شده است، به کاربران اجازه میدهد جمله سادهای مانند «دو راکون با هم کتاب میخوانند» را بنویسند و یک ویدیوی کامل از آن دریافت کنند که نشان میدهد دو راکون دقیقاً در حال مطالعه هستند.
وضوح خیره کننده و بالای این مولد هوش مصنوعی جدید نشان دهنده گام بعدی در توسعه مولدهای ویدیو از متن با ایجاد نتایج بسیار بهتر است.
گوگل فناوری پشت این مولد جدید را به عنوان یک معماری پیشگامانه فضا-زمان U-Net توصیف میکند که برای تولید ویدیوی متحرک در یک مدل طراحی شده است.
ویدئوی نمایشی نشان میدهد که گوگل ویژگیهای جدیدی مانند اجازه دادن به کاربران برای ویرایش یک ویدیوی موجود با برجسته کردن بخشی از آن و تایپ دستورالعملهایی مانند «تغییر رنگ لباس به قرمز» را به این فناوری اضافه کرده است.
این مولد همچنین انواع مختلفی از نتایج را مانند سبکسازی تولید میکند که در آن سبک سوژه به جای نمایش تمام رنگی آن ایجاد میشود و ارجاع به سبکهای مختلف را نیز ممکن میکند. همچنین کارهای سینمایی انجام میدهد که در آن کاربر میتواند بخشی یا تمام یک تصویر ثابت را برجسته و آن را متحرک کند.
گوگل در اعلامیه خود مشخص نکرد که قصد دارد «لومیر» را به عموم مردم عرضه کند یا نه و این احتمالاً به دلیل عواقب قانونی آشکاری است که ممکن است به دلیل ایجاد احتمالی ویدیوهایی که قوانین حق نشر را نقض میکنند، ایجاد شود.