TEMPO.CO, Jakarta - Google menambah beberapa model layanan pada platform kecerdasan buatannya, Vertex AI. Dengan tambahan Lyria, model AI teks-ke-musik, Vertex AI menjadi platform perdana yang menyediakan model generatif untuk empat jenis media. “Yaitu video, gambar, suara, dan musik,” kata Senior Director of Product Management Google Warren Barkley dalam pernyataan tertulis pada Rabu, 9 April 2025.
Dengan kemampuan baru Vertex AI, pengguna bisa membangun aset produksi yang lengkap. Layanan ini bisa menyambut arahan atau prompt untuk teks, lalu teks ke gambar, hingga aset video lengkap dengan musik dan suara.
Baca berita dengan sedikit iklan, klik di sini
Lyria kini tersedia dalam versi pratinjau terbatas atau allowlist. Model baru Vertex AI ini dirancang untuk menghasilkan audio dengan fidelitas tinggi, serta menangkap nuansa musik secara rinci di berbagai genre. Google menyebut Lyria dapat digunakan untuk mempercepat produksi konten video, siniar atau podcast, serta kampanye merek tanpa perlu membeli lisensi musik tambahan.
Sebagai contoh, pengguna dapat memberi prompt yang merinci, misalnya “Ciptakan musik musik bebop berenergi tinggi. Utamakan solo saksofon dan terompet yang memukau, saling bersahut-sahutan dengan frasa kompleks dalam kecepatan tinggi.”
Arahan tersebut masih bisa dilengkapi dengan “Berikan iringan piano yang ritmi, serta akor, dengan bass berjalan dan drum cepat yang menggerakkan energi. Suasana harus mendebarkan dan intens. Tangkap nuansa klub jazz malam hari yang penuh asap, menonjolkan virtuoso dan improvisasi. Pendengar tidak boleh diam di tempat.”
Tak hanya Lyria, Google juga memperbarui sejumlah model generatif lain di Vertex AI. Veo 2, model video lanjutan mereka, kini mendukung fitur penyuntingan, seperti inpainting, untuk menghapus elemen latar belakang secara otomatis. Ada juga outpainting untuk memperluas bingkai video agar sesuai dengan berbagai format layar.
Veo 2 juga dibekali kontrol kamera otomatis seperti preset atau pengaturan awal gerakan kamera, efek timelapse, serta pengambilan gambar gaya drone. Fitur interpolasi memungkinkan pengguna menghubungkan dua klip video dengan transisi yang mulus. Semua fitur tersebut tersedia dalam versi pratinjau dan masih menggunakan sistem allowlist.
Model audio Chirp 3 juga mendapat peningkatan. Fitur Instant Custom Voice memungkinkan pengguna membuat suara custom yang realistis hanya dari rekaman suara berdurasi 10 detik. Fitur ini untuk mengatur layanan personal seperti call center hingga branding suara.
Ada juga fitur Transcription with Diarization yang membedakan dan mengidentifikasi pembicara dalam satu rekaman suara. Chirp 3 saat ini mendukung lebih dari 35 bahasa dan menyediakan delapan opsi suara berkualitas tinggi atau HD.
Soal gambar, Google meningkatkan kualitas model Imagen 3. Model ini sudah dilengkapi kemampuan inpaintingyang yang lebih akurat untuk memperbaiki bagian gambar yang rusak atau hilang. Penghapusan objek juga menjadi lebih alami dan mulus dibanding versi sebelumnya.
Google menyatakan seluruh pengembangan ini dirancang dengan prinsip keamanan dan etika AI yang ketat. Teknologi digital watermarking SynthID dari DeepMind disematkan secara otomatis pada setiap frame gambar, video, dan audio yang dihasilkan oleh Imagen, Veo, dan Lyria untuk mencegah disinformasi dan penyalahgunaan.
Semua model ini dilengkapi filter keamanan untuk menghindari pembuatan konten berbahaya. Ada juga sistem tata kelola data yang memastikan data pelanggan tidak digunakan untuk melatih model AI. “Anda dapat menggunakan konten yang dihasilkan dengan aman karena Google akan melindungi Anda dari klaim IP pihak ketiga, termasuk hak cipta,” ujar Barkley.