cpu-data.info

Alibaba Rilis Model AI Multimodal, Bisa Dukung Asisten Suara dan Berjalan di Ponsel

Ilustrasi Alibaba
Lihat Foto

- Anak perusahaan Alibaba Group, Alibaba Cloud meluncurkan model kecerdasan buatan (AI) terbarunya, bernama Qwen2.5-Omni-7B, baru-baru ini.

AI Qwen2.5-Omni-7B hadir sebagai AI multimodal dengan kemampuan menangani berbagai jenis input (teks, gambar, audio, dan video). Sementara output-nya berbasis teks dan audio real-time saja, belum mendukung visual (gambar/video).

Menurut Alibaba, Qwen2.5-Omni-7B telah melalui pelatihan dengan dataset besar dan beragam, mencakup kombinasi image-text, video-text, video-audio, audio-text, dan text. Hal ini memastikan model memiliki performa yang kuat dalam berbagai tugas, terutama dalam memahami dan mengolah berbagai jenis input.

Qwen2.5-Omni-7B dirancang sebagai model multimodal dengan 7 miliar parameter, yang menyeimbangkan antara efisiensi dan kemampuan untuk dapat berjalan di ponsel, tablet, dan laptop. Ini memungkinkan kapabilitas AI yang lebih canggih dapat diakses oleh pengguna sehari-hari secara langsung di perangkatnya.

Baca juga: Alibaba Rilis Model AI QwQ-32B, Diklaim Ungguli OpenAI dan DeepSeek

Dengan kemampuan tersebut, Qwen2.5-Omni-7B dapat mendukung berbagai aplikasi AI, termasuk asisten suara pintar dan layanan berbasis audio.

Salah satu contoh penerapan model ini adalah membantu penyandang tunanetra dengan deskripsi audio real-time. Contoh kasusnya, memberikan panduan memasak langkah demi langkah dengan menganalisis bahan makanan.

"Kombinasi unik ini menjadikannya fondasi yang ideal untuk mengembangkan agen AI yang gesit dan hemat biaya, terutama dalam aplikasi suara cerdas," kata Alibaba dalam pernyataannya.

Anak perusahaan Alibaba Group, Alibaba Cloud meluncurkan model kecerdasan buatan (AI) terbarunya, bernama Qwen2.5-Omni-7B, baru-baru ini.Alibaba Anak perusahaan Alibaba Group, Alibaba Cloud meluncurkan model kecerdasan buatan (AI) terbarunya, bernama Qwen2.5-Omni-7B, baru-baru ini.
Perusahaa yang didirikan oleh miliarder Jack Ma ini juga telah merilis model Qwen2.5-Omni-7B sebagai open-source, yang saat ini tersedia di platform Hugging Face, GitHub milik Microsoft, dan ModelScope milik Alibaba. 

Sebagai model AI open-source, kode sumber dan parameter model Qwen2.5-Omni-7B tersedia secara bebas untuk diakses, dimodifikasi, dan digunakan oleh pengembang atau perusahaan lain, secara cuma-cuma alias gratis.

Baca juga: 6 Teknologi AI China yang Tantang Dominasi AS

Jadi, pengguna maupun pengembang dapat menggunakannya untuk penelitian, eksperimen, atau membangun aplikasi berbasis AI tanpa harus membuat model dari nol.

Selain itu, model ini juga terintegrasi ke dalam Qwen Chat, chatbot berbasis AI yang dikembangkan oleh Alibaba Cloud dan didukung oleh model bahasa besar (LLM) dari seri Qwen.

Untuk kemampuan, Alibaba mengeklaim, Qwen2.5-Omni-7B menunjukkan kinerja yang kuat dalam uji benchmark.

Model ini mencetak skor 56.1 pada OmniBench, melampaui skor 42.9 yang dicapai oleh Google Gemini-1.5-Pro. Model Qwen2.5-Omni-7B ini juga mengungguli Qwen2-Audio sebelumnya dalam benchmark audio CV15, dengan skor 92.4 atau satu poin lebih tinggi.

Untuk tugas terkait gambar, model ini mencetak skor 59.2 pada benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, mengalahkan model vision-language Qwen2.5-VL, sebagaimana dihimpun KompasTekno dari laman resmi Alibaba, Sabtu (29/3/2025).

Peluncuran Qwen2.5-Omni-7B ini terjadi di tengah persaingan ketat dalam pengembangan AI di China, yang semakin dipercepat oleh kemajuan DeepSeek.

Alibaba juga terus menunjukkan komitmen besarnya terhadap pengembangan AI. Bulan lalu, perusahaan mengumumkan rencana investasi sebesar 53 miliar dollar AS atau sekitar Rp 878,8 triliun dalam infrastruktur cloud dan AI selama tiga tahun ke depan.

Angka rencana investasi tersebut dilaporkan melebihi total investasi yang telah mereka lakukan dalam dekade terakhir.

Terkini Lainnya

Tautan Sahabat