Home > Didaktika

Selamat Tinggal Kesalahan Gambar Aneh AI: Metode baru Memperbaiki Jari dan Wajah yang Terdistorsi

Model difusi seperti Stable Diffusion dapat menghasilkan hasil yang menakjubkan, tetapi terbatas pada gambar persegi.
Gambar di sebelah kiri dibuat dengan metode standar sementara gambar di sebelah kanan dibuat oleh ElasticDiffusion. Perintah untuk kedua gambar tersebut adalah,
Gambar di sebelah kiri dibuat dengan metode standar sementara gambar di sebelah kanan dibuat oleh ElasticDiffusion. Perintah untuk kedua gambar tersebut adalah, "Foto seekor kucing atlet yang menjelaskan skandal terbarunya pada konferensi pers kepada wartawan."/Moayed Haji Ali/Rice University.

Kecerdasan buatan (AI) generatif telah membuat banyak orang terkesan dengan kemampuannya untuk membuat gambar realistis dari perintah teks sederhana.

Namun, model AI ini, seperti Stable Diffusion, Midjourney, dan DALL-E, memiliki masalah yang umum diketahui: mereka kesulitan menghasilkan gambar yang tidak persegi, yang sering kali menghasilkan distorsi aneh, seperti orang dengan jari tambahan atau objek yang terlihat aneh.

Metode baru yang dikembangkan oleh ilmuwan komputer di Rice University bertujuan untuk memecahkan masalah ini dan meningkatkan kualitas gambar yang dihasilkan AI, bahkan pada rasio aspek yang berbeda.

Penelitian yang dipimpin oleh Moayed Haji Ali, mahasiswa Ph.D. di Rice University, memperkenalkan teknik yang disebut ElasticDiffusion.

Metode ini baru-baru ini dipresentasikan di Institute of Electrical and Electronics Engineers (IEEE) 2024 Conference on Computer Vision and Pattern Recognition (CVPR) di Seattle.

Ini bisa menjadi pengubah permainan untuk pembuatan gambar AI, terutama untuk aplikasi yang memerlukan ukuran dan bentuk gambar yang berbeda, seperti monitor layar lebar atau tampilan jam tangan pintar.

Haji Ali menjelaskan bahwa model difusi, jenis AI yang digunakan dalam pembuatan gambar, bekerja dengan menambahkan noise acak ke gambar selama pelatihan dan kemudian mempelajari cara menghilangkan noise tersebut untuk membuat gambar baru.

Namun, model-model ini biasanya dilatih pada gambar persegi, yang menimbulkan masalah ketika diminta untuk membuat gambar dalam bentuk lain, seperti rasio aspek 16:9.

Hasilnya sering kali berupa kesalahan visual, seperti fitur yang berulang atau terdistorsi.

“Model difusi seperti Stable Diffusion dapat menghasilkan hasil yang menakjubkan, tetapi terbatas pada gambar persegi,” kata Haji Ali.

“Ketika diminta untuk membuat gambar dalam rasio aspek yang berbeda, model tersebut kesulitan, yang menyebabkan masalah visual yang aneh seperti orang dengan jari tambahan atau objek yang terdistorsi.”

Salah satu alasan untuk masalah ini, menurut Haji Ali dan penasihatnya, Profesor Vicente Ordóñez-Román, adalah cara model ini dilatih.

Jika model hanya dilatih pada gambar persegi, model tersebut akan menjadi sangat baik dalam menghasilkan gambar yang serupa tetapi kesulitan beradaptasi dengan bentuk dan ukuran lain, masalah yang dikenal sebagai overfitting.

Melatih model pada berbagai macam gambar dapat membantu, tetapi memerlukan daya komputasi yang sangat besar—jauh lebih besar daripada yang dapat ditanggung sebagian besar peneliti.

ElasticDiffusion, metode baru yang dikembangkan oleh Haji Ali, menggunakan pendekatan yang berbeda.

Alih-alih melatih model untuk menangani berbagai bentuk gambar, ElasticDiffusion memisahkan sinyal global dan lokal gambar, sehingga lebih mudah untuk menghasilkan gambar dengan rasio aspek non-persegi.

Sinyal lokal berisi detail seperti bentuk mata seseorang atau tekstur bulu, sedangkan sinyal global berisi keseluruhan struktur gambar, seperti garis luar seseorang atau hewan.

Biasanya, model difusi mengemas kedua sinyal tersebut bersama-sama, yang menyebabkan masalah saat menghasilkan gambar non-persegi.

ElasticDiffusion menghindari hal ini dengan memisahkan sinyal dan menerapkannya dengan cara yang lebih terstruktur.

Pertama, ia menangani informasi global untuk memahami seperti apa tampilan gambar secara keseluruhan, lalu mengisi detail lokal satu bagian pada satu waktu.

Hal ini mencegah model mengulang atau mendistorsi bagian gambar, sehingga menghasilkan produk akhir yang lebih bersih dan konsisten.

“Pendekatan ini menggunakan langkah-langkah perantara model untuk memastikan bahwa struktur global gambar tetap utuh sekaligus memungkinkan detail lokal ditambahkan tanpa kesalahan,” jelas Ordóñez-Román.

Meskipun ElasticDiffusion menghasilkan hasil yang lebih baik daripada model difusi tradisional, ia memiliki satu kekurangan: butuh waktu lebih lama untuk menghasilkan gambar.

Saat ini, ElasticDiffusion membutuhkan waktu 6-9 kali lebih lama untuk membuat gambar dibandingkan dengan model lain seperti Stable Diffusion.

Haji Ali berharap hal ini dapat ditingkatkan dan bertujuan untuk mengurangi waktu sehingga sesuai dengan kecepatan model AI saat ini.

“Tujuan penelitian ini adalah untuk mencari tahu mengapa model difusi mengalami kendala dengan masalah berulang ini dan mengembangkan kerangka kerja yang dapat menghasilkan gambar dalam rasio aspek apa pun, tanpa pelatihan tambahan, dan dengan kecepatan yang sama dengan model lain,” kata Haji Ali.

ElasticDiffusion merupakan langkah maju yang menjanjikan dalam meningkatkan gambar yang dihasilkan AI dan dapat membantu menghilangkan banyak masalah umum yang dialami pengguna saat bekerja dengan model saat ini.

Dengan memecahkan masalah pembuatan gambar non-persegi, metode ini dapat membuka kemungkinan baru untuk AI di bidang-bidang seperti seni digital, produksi video, dan realitas virtual, di mana kualitas dan konsistensi gambar sangat penting.

× Image