Gebrakan Besar OpenAI, AI Barunya Dapat Mensimulasikan Dunia
OpenAI membuat gebrakan besar minggu ini dengan video AI teks-ke-fotorealistik yang disebut Sora. OpenAI menyebut AI barunya dapat mensimulasikan dunia.
Perusahaan tersebut memamerkan beberapa klip sampel yang sangat mengesankan, mulai dari pasangan yang berjalan melalui lanskap bersalju hingga kamera udara yang dengan mulus mengikuti SUV vintage berwarna putih saat melintasi jalan tanah.
Seperti dilansir Futurism, tampaknya ini merupakan lompatan besar bagi teknologi AI generatif – dan mungkin di bidang yang jauh melampaui video.
Faktanya, OpenAI telah menyebut Sora sebagai "simulator dunia", yang mampu memahami aspek-aspek penting dari dunia tiga dimensi di sekitar kita, baik itu menghasilkan adegan lanskap digital mirip CGI atau video seorang wanita berjalan dengan jalan yang diterangi lampu neon di malam hari.
“Hasil kami menunjukkan bahwa penskalaan model generasi video adalah jalan yang menjanjikan menuju pembangunan simulator tujuan umum dunia fisik,” tulis perusahaan tersebut.
“Ia mempelajari tentang geometri dan konsistensi 3D,” kata ilmuwan peneliti Sora, Tim Brooks, kepada Wired. "Kami tidak memperhitungkannya — hal ini hanya muncul dari melihat banyak data."
Secara garis besar, Sora merupakan evolusi alami dari model transformator difusi, yang selama ini sebagian besar digunakan untuk menghasilkan gambar beresolusi tinggi oleh AI.
Secara sederhana, model difusi bekerja dengan menambahkan noise secara bertahap ke gambar asli dan kemudian secara bertahap mempelajari cara menghilangkan noise tersebut, sehingga menciptakan gambar baru.
Untuk melatih Sora, OpenAI memberinya sejumlah besar video dengan teks untuk membangun hubungan antara rekaman video dan input teks.
Selain menghasilkan rekaman yang benar-benar baru dari petunjuknya, Sora juga dapat memperluas klip yang ada atau mengubah gambar yang dihasilkan AI menjadi video.
Saat mengembangkan Sora, peneliti OpenAI mengamati "sejumlah kemampuan menarik yang muncul ketika dilatih dalam skala besar."
Misalnya, ia dapat “mensimulasikan beberapa aspek manusia, hewan, dan lingkungan dari dunia fisik,” menurut dokumentasi perusahaan.
Klip yang dihasilkan menunjukkan bahwa Sora dapat menghasilkan rekaman dengan pergeseran kamera yang dinamis dan sangat halus saat menggeser, melacak, atau memperbesar, menunjukkan tingkat pemahaman yang jelas tentang ruang 3D.
Menariknya, perusahaan tersebut bahkan tampaknya menyarankan agar teknologi tersebut dapat berkembang menjadi platform untuk bermain game.
“Kemampuan ini menunjukkan bahwa penskalaan model video yang berkelanjutan merupakan jalur yang menjanjikan menuju pengembangan simulator berkemampuan tinggi dari dunia fisik dan digital,” tulis perusahaan tersebut, “dan objek, hewan, dan manusia yang hidup di dalamnya.”
Di saat yang sama, Sora jauh dari sempurna. Pertama, model tersebut masih belum sepenuhnya memahami sebab dan akibat.
“Misalnya, seseorang mungkin menggigit kue, tetapi setelahnya, kue tersebut mungkin tidak memiliki bekas gigitan,” tulis perusahaan tersebut.
Klip lain menunjukkan sebuah gelas kaca bocor isinya tanpa benar-benar pecah terlebih dahulu.
Terlepas dari keterbatasannya, Sora mungkin merupakan gambaran awal masa depan di mana video yang dihasilkan AI dengan cepat menjadi mustahil untuk dibedakan dari aslinya.
Dan OpenAI sangat menyadari potensi penyalahgunaan teknologi.
Akibatnya, perusahaan memilih untuk secara perlahan meluncurkan alat ini kepada "tim merah untuk menilai area kritis untuk mengetahui bahaya atau risikonya."
“Kami akan sangat berhati-hati mengenai semua implikasi keselamatan dari hal ini,” kata peneliti proyek Bill Peebles kepada Wired.