cpu-data.info

Meta Luncurkan Model AI Baru, Paham 100 Bahasa dan Bisa Terjemahkan Suara

Ilustrasi Meta Platforms Inc.
Lihat Foto

- Perusahaan induk Facebook, WhatsApp (WA), dan Instagram (IG), Meta, memperkenalkan model kecerdasan buatan (Artificial Inteligence/AI) terbarunya yakni SeamlessM4T.

Model AI tersebut dapat memahami dan menerjemahkan tulisan maupun suara, ke berbagai bahasa. Model AI ini juga dapat mengeluarkan hasil terjemahan atau output dalam bentuk tulisan ke hampir 100 bahasa.

Sementara jika digunakan untuk mengeluarkan hasil terjemahan dalam bentuk lisan, model AI ini bisa menerjemahkan 35 bahasa. Model AI ini diharapkan akan mempermudah komunikasi lintas bahasa secara real-time di masa depan.

“Hari ini, kami memperkenalkan, SeamlessM4T, model penerjemah AI multibahasa all-in-one pertama yang memungkinkan pengguna berkomunikasi melalui ucapan ataupun teks dengan mudah di berbagai bahasa,” jelas Meta dalam blog resminya, Rabu (23/8/2023).

Menurut Meta, SeamlessM4T merupakan singkatan dari Massively Multilingual dan Multimodal Machine Translation. Produk ini disebut sebagai terobosan baru, khususnya untuk industri penerjemahan speech-to-speech dan speech-to-text yang mengandalkan AI.

“Model pertama kami menunjang terjemahan on-demand, yang memungkinkan pengguna berbicara dalam bahasa yang berbeda dan memiliki komunikasi lebih efektif. SeamlessM4T dapat mengetahui sumber bahasa tanpa harus mengidentifikasi model bahasa secara terpisah,” jelas Meta.

Salah satu fitur menarik yang dimiliki model AI ini adalah mampu mengenali dua bahasa yang berbeda dalam satu kalimat. Sebagai gambaran, model AI dapat membedakan bahasa Hindi, Telugu, dan Inggris dalam satu kalimat yang sama.

Proses pelatihan model AI ini dilakukan dengan menyelaraskan sebanyak 443.000 jam pidato beserta teksnya, mengajarkan SeamlessM4T membuat transkrip ucapan ke teks, menerjemahkan teks, menghasilkan kalimat dari teks, dan lainnya.

Mendeteksi kata-kata sensitif

Selama proses pengembangan, pihak peneliti juga membangun sistem untuk mengidentifikasi kata-kata sensitif atau berbahaya.

Baca juga: Hapus Akun Instagram, Pendiri Twitter Deklarasikan “Merdeka dari Meta”

Meta, dalam konteks ini, mendefinisikan “kata-kata sensitif” tadi sebagai sesuatu yang mengandung kebencian, kekerasan, kata-kata kotor, pelecehan, dan lainnya.

Hal ini dilakukan agar model AI tersebut dapat mendeteksi yang tidak diinginkan saat proses penerjemahan berlangsung.

“Kami menyaring toksisitas (bahasa) yang tidak seimbang dalam proses pelatihan data. Apabila input atau output mengandung jumlah toksisitas yang berbeda, kami akan menghapus urutan pelatihan bahasa itu,” ungkap Meta.

Peneliti juga berupaya “membersihkan” kumpulan data yang salah saat menerjemahkan beberapa kata-kata kotor. Supaya hasilnya bisa lebih akurat dan mampu mendeteksi kapanpun SeamlessM4T digunakan.

Meta juga mengeklaim bahwa terdapat bias gender dalam bahasa. SeamlessM4T nantinya juga dapat mengukur bias gender dalam sebuah terjemahan. Misalnya, memeriksa apakah kalimat tersebut menggunakan bentuk/format kata gender, mengatakan kosakata “doctora” dalam bahasa Spanol, dan sebagainya.

Meta mengungkapkan SeamlessM4T akan menghitung berapa banyak terjemahan yang menambahkan kata-kata gender dalam istilah yang tidak khusus dalam bahasa aslinya. Mulai dari otomatis mengasumsikan dokter adalah laki-laki, ketika teks yang ditulis tidak menyebutkan gender.

Terkini Lainnya

Tautan Sahabat