DeepSeek memperkenalkan metode baru pelatihan model AI yang mengurangi beban memori tanpa mengorbankan efisiensi. Perusahaan Tiongkok menerbitkan karya ilmiah tentang teknologi 'hiperhubungan dengan batasan multivariasi' (mHC), yang memungkinkan pembuatan model kompetitif dengan sumber daya komputasi terbatas.
Solusi untuk masalah skala
Sekelompok 19 peneliti DeepSeek menguji metode mHC pada model dengan 3 miliar, 9 miliar, dan 27 miliar parameter. Hasilnya menunjukkan bahwa teknologi baru ini tidak menciptakan beban komputasi tambahan yang signifikan dibandingkan dengan metode hubungan hiper tradisional (HC).
Pendekatan dasar HC muncul pada September 2024 berkat para peneliti ByteDance. Ini merupakan modifikasi dari arsitektur ResNet — sistem pembelajaran mendalam yang dominan, yang dikembangkan oleh ilmuwan Microsoft Research Asia pada tahun 2015.
Arsitektur ResNet dan batasannya
ResNet membantu menjaga informasi penting saat membuat jaringan saraf yang kompleks dengan banyak lapisan. Lapisan jaringan adalah tingkat pemrosesan informasi dalam jaringan saraf. Bayangkan jaringan saraf seperti gedung bertingkat: data masuk ke lantai pertama, diproses, kemudian diteruskan ke lantai kedua untuk pemrosesan lebih lanjut, kemudian ke lantai ketiga, dan seterusnya. Setiap 'lantai' ini adalah lapisan.
Di setiap lapisan, data dianalisis secara berbeda — misalnya, lapisan pertama dapat mengenali elemen sederhana, sedangkan lapisan terakhir dapat mengenali pola yang kompleks. Semakin banyak lapisan, semakin kompleks tugas yang dapat diselesaikan oleh jaringan saraf, tetapi juga semakin sulit untuk menjaga informasi penting dari lapisan pertama hingga terakhir.
Model-model terkenal OpenAI GPT dan Google DeepMind AlphaFold bekerja pada teknologi ResNet. Namun, ResNet memiliki kelemahan: informasi yang melewati berbagai lapisan jaringan dapat menjadi terlalu umum dan kehilangan keunikannya.
Hyperlink berhasil menangani masalah ini dengan memperluas aliran data residual dan meningkatkan kompleksitas jaringan saraf tanpa mengubah beban komputasi dari blok individu. Namun, beban pada memori meningkat, yang menghambat skala arsitektur untuk model-model besar.
Keuntungan dari metode mHC
Pendekatan baru DeepSeek mengatasi masalah memori dan membuka jalan untuk evolusi arsitektur generasi berikutnya. Perusahaan mencatat bahwa metode ini akan membantu mengatasi batasan yang ada saat melatih model besar.
Publikasi ini mencerminkan budaya keterbukaan para pengembang AI Cina, yang membagikan sebagian besar penelitian mereka. Para ahli menunjukkan bahwa karya ilmiah DeepSeek sering menunjukkan arah teknis model-model masa depan perusahaan.
Model besar baru dari DeepSeek diharapkan hadir pada pertengahan Februari. Metode yang disajikan dapat menjadi dasar untuk menciptakan sistem AI yang lebih efisien dengan sumber daya terbatas.
Pendapat AI
Publikasi DeepSeek mencerminkan tren global dalam demokratisasi teknologi AI. Perusahaan-perusahaan Cina secara aktif mengembangkan metode optimasi tidak hanya karena keterbatasan akses ke chip canggih, tetapi juga untuk menciptakan keunggulan kompetitif di pasar yang berkembang, di mana sumber daya komputasi sangat mahal.
Analisis historis menunjukkan bahwa terobosan dalam efisiensi sering mengubah keseimbangan kekuatan dalam perlombaan teknologi. Metode mHC dapat menjadi katalisator bagi startup dan kelompok penelitian yang tidak memiliki sumber daya dari raksasa teknologi. Menariknya, publikasi terbuka tentang penelitian menciptakan paradoks: dengan berbagi pengetahuan, perusahaan secara bersamaan membentuk ekosistem di mana model-model masa depan mereka sendiri mendapatkan keuntungan kompetitif melalui umpan balik dari komunitas pengembang.
#2025WithBinance #AI #DeepSeek #Write2Earn
