Audio deepfake bahkan dapat menipu pendengar yang sudah siap sekalipun

Techno Kita Avatar

Posted on :

Audio deepfake seringkali sudah cukup meyakinkan, dan ada alasan untuk mengantisipasi bahwa kualitasnya akan terus meningkat seiring berjalannya waktu. Namun meski manusia berusaha sekuat tenaga, mereka tampaknya tidak pandai membedakan suara asli dari suara buatan. Yang lebih buruk lagi, sebuah penelitian baru menunjukkan bahwa saat ini masyarakat tidak dapat berbuat banyak mengenai hal ini—bahkan setelah mencoba meningkatkan keterampilan deteksi mereka.

Menurut survei yang diterbitkan hari ini di PLOS One, audio yang dipalsukan sudah mampu menipu pendengar manusia kira-kira satu dari setiap empat upaya. Statistik yang meresahkan ini diperoleh dari para peneliti di University College London, Inggris, yang baru-baru ini meminta lebih dari 500 sukarelawan untuk meninjau kombinasi suara palsu dan asli dalam bahasa Inggris dan Mandarin. Dari peserta tersebut, beberapa diberikan contoh suara yang dipalsukan terlebih dahulu untuk membantu mempersiapkan mereka dalam mengidentifikasi klip buatan.

Terlepas dari pelatihannya, para peneliti menemukan bahwa peserta mereka rata-rata mengidentifikasi deepfake dengan benar sebanyak 73 persen. Meskipun secara teknis merupakan nilai kelulusan menurut sebagian besar standar akademis, tingkat kesalahan tersebut cukup menimbulkan kekhawatiran serius, terutama ketika persentase ini rata-rata sama antara mereka yang mengikuti dan tidak mengikuti pelatihan pra-percobaan.

Hal ini sangat meresahkan mengingat apa yang telah berhasil dicapai oleh teknologi deepfake dalam jangka waktu yang singkat—awal tahun ini, misalnya, para penipu hampir berhasil menebus uang tunai dari seorang ibu menggunakan audio palsu yang menunjukkan putrinya yang diduga diculik. Dan dia tidak sendirian dalam menghadapi situasi mengerikan seperti itu.

Hasilnya bahkan lebih memprihatinkan ketika Anda membaca (atau, dalam hal ini, mendengarkan) yang tersirat. Para peneliti mencatat bahwa partisipan mereka mengetahui saat melakukan eksperimen bahwa tujuan mereka adalah mendengarkan audio yang dipalsukan, sehingga kemungkinan besar membuat beberapa dari mereka sudah waspada terhadap pemalsuan. Hal ini berarti target yang tidak menaruh curiga bisa saja memiliki performa yang lebih buruk dibandingkan target dalam eksperimen. Studi tersebut juga mencatat bahwa tim tersebut tidak menggunakan teknologi sintesis ucapan yang canggih, yang berarti sudah ada audio yang dihasilkan dengan lebih meyakinkan.

Menariknya, ketika mereka ditandai dengan benar, potensi hadiah deepfake berbeda-beda tergantung pada bahasa yang digunakan peserta. Mereka yang fasih berbahasa Inggris paling sering melaporkan “pernapasan” sebagai indikator, sementara penutur bahasa Mandarin fokus pada kefasihan, kecepatan, dan irama sebagai tandanya.

Namun untuk saat ini, tim menyimpulkan bahwa peningkatan sistem deteksi otomatis adalah tujuan yang berharga dan realistis untuk memerangi kloning vokal AI yang tidak diinginkan, namun juga menyarankan bahwa analisis deepfake yang dilakukan oleh manusia melalui crowdsourcing dapat membantu mengatasi permasalahan tersebut. Terlepas dari itu, hal ini merupakan argumen lain yang mendukung penetapan pengawasan peraturan yang intensif dan penilaian terhadap deepfake dan teknologi AI generatif lainnya.

Audio deepfake bahkan dapat menipu pendengar yang sudah siap sekalipun

Leave a Reply

Your email address will not be published. Required fields are marked *