Bitget App
Trading lebih cerdas
Beli kriptoPasarTradingFuturesEarnWeb3WawasanSelengkapnya
Trading
Spot
Beli dan jual kripto dengan mudah
Margin
Perkuat modalmu dan maksimalkan efisiensi dana
Onchain
Trading Onchain, Tanpa On-Chain
Konversi & perdagangan blok
Konversi kripto dengan satu klik dan tanpa biaya
Jelajah
Launchhub
Dapatkan keunggulan lebih awal dan mulailah menang
Copy
Salin elite trader dengan satu klik
Bot
Bot trading AI yang mudah, cepat, dan andal
Trading
Futures USDT-M
Futures diselesaikan dalam USDT
Futures USDC-M
Futures diselesaikan dalam USDC
Futures Koin-M
Futures diselesaikan dalam mata uang kripto
Jelajah
Panduan futures
Perjalanan pemula hingga mahir di perdagangan futures
Promosi Futures
Hadiah berlimpah menantimu
Ringkasan
Beragam produk untuk mengembangkan aset Anda
Earn Sederhana
Deposit dan tarik kapan saja untuk mendapatkan imbal hasil fleksibel tanpa risiko
Earn On-chain
Dapatkan profit setiap hari tanpa mempertaruhkan modal pokok
Earn Terstruktur
Inovasi keuangan yang tangguh untuk menghadapi perubahan pasar
VIP dan Manajemen Kekayaan
Layanan premium untuk manajemen kekayaan cerdas
Pinjaman
Pinjaman fleksibel dengan keamanan dana tinggi
Alibaba meluncurkan model kecerdasan buatan Qwen3-Next yang lebih efisien

Alibaba meluncurkan model kecerdasan buatan Qwen3-Next yang lebih efisien

金色财经金色财经2025/09/11 22:32
Tampilkan aslinya

Jinse Finance melaporkan bahwa Tongyi Qianwen, anak perusahaan Alibaba, telah merilis arsitektur model dasar generasi berikutnya, Qwen3-Next, dan membuka kode seri model Qwen3-Next-80B-A3B yang berbasis arsitektur tersebut. Dibandingkan dengan struktur model MoE Qwen3, struktur ini telah mengalami beberapa peningkatan inti: mekanisme atensi campuran, struktur MoE dengan tingkat sparsitas tinggi, serangkaian optimasi yang ramah terhadap stabilitas pelatihan, serta mekanisme prediksi multi-token yang meningkatkan efisiensi inferensi. Berdasarkan struktur model Qwen3-Next, Alibaba telah melatih model Qwen3-Next-80B-A3B-Base, yang memiliki 80 miliar parameter namun hanya mengaktifkan 3 miliar parameter. Model Base ini mencapai performa yang sebanding atau bahkan sedikit lebih baik dibandingkan model Qwen3-32B dense, sementara biaya pelatihannya (GPU hours) kurang dari sepersepuluh dari Qwen3-32B, dan throughput inferensi pada konteks di atas 32k lebih dari sepuluh kali lipat Qwen3-32B, sehingga mencapai efisiensi biaya pelatihan dan inferensi yang luar biasa.

0

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Raih Token Baru
APR hingga 12%. Selalu aktif, selalu dapat airdrop.
Kunci sekarang!