Ringkasan AI
- DeepSeek R1, AI chatbot dari China, kini paling popular, mengatasi ChatGPT.
- Dibangunkan oleh High-Flyer dengan kad grafik lama, lebih cekap dan rendah halusinasi.
- Jawapan semula jadi, sesuai untuk produktiviti, dan boleh dimuat turun oleh pembangun AI.
Dilancarkan hanya sekitar seminggu yang lalu, DeepSeek R1 dilihat telah menakluki pasaran aplikasi AI di Android dan iOS, mengatasi ChatGPT sebagai aplikasi chatbot AI yang paling popular sekarang.
Lebih menarik lagi ialah berbanding model bahasaraya lain seperti ChatGPT, Gemini dan Perplexity AI yang dibangunkan oleh syarikat gergasi teknologi seperti OpenAI, Google dan Perplexity, DeepSeek dibangunkan dengan model sumber terbuka dan sebagai projek sambilan menggunakan teknologi dan perkakasan dengan umur sekitar 2-3 tahun.
DeepSeek dilihat menjadi sangat popular pada mulanya kerana jawapan yang diberikan oleh aplikasi ini dilihat lebih semula jadi dan terkini, seperti saya sendiri yang melakukan carian di arena web.
Kadar halusinasi pada DeepSeek juga dilihat lebih rendah kerana sekiranya ia ditanya sesuatu yang ia tiada jawapan melalui pembelajaran mesin ataupun carian sedia ada, ia akan berkata bahawa ia tidak tahu.
Pembangunan Teknologi
Dua-tiga hari kebelakangan ini, banyak yang diperkatakan tentang pembangunan aplikasi AI ini. Seperti yang kami katakan sebelum ini, ia dibangunkan oleh sebuah syarikat pelaburan kuantitatif yang dinamakan High-Flyer dari China.
Secara ringkasnya, pelaburan kuantitatif menggunakan data kewangan syarikat, algoritma komputer dan model matematik yang rumit untuk membuat keputusan tentang saham-saham yang sesuai untuk dilaburkan.
High-Flyer dibangunkan oleh Liang Wenfeng pada tahun 2015, menggunakan teknologi AI untuk membolehkan mereka membuat ramalan tentang trend pasaran saham, dan sekaligus tentang stok-stok saham yang berbaloi untuk dilaburkan.
Untuk ini, Liang Wenfeng dikatakan telah membeli sekitar 10,000 kad grafik NVIDIA H100 pada tahun 2021, sebelum sekatan ekonomi dikenakan oleh Presiden Amerika Syarikat, Joe Biden keatas syarikat-syarikat China, khususnya berkaitan kad grafik dengan kemampuan memproses aritmetik dan AI yang tinggi.
Pada tahun 2023, dan lebih banyak kad grafik NVIDIA H100 dan NVIDIA H800, beliau telah memulakan DeepSeek sebagai sebuah “projek sampingan” kepada syarikat pelaburannya.
Wenfeng dilihat meluangkan masa yang banyak untuk membangunkan syarikat ini, dan juga model bahasa-raya DeepSeek yang kita lihat sekarang.
Banyak juga yang diperkatakan tentang bagaimana sebuah syarikat dengan sejumlah kad grafik “lama” dan pelaburan sebanyak AS$5 juta sahaja dapat menandingi syarikat-syarikat yang dinilaikan pada beberapa bilion dolar dan sudah beroperasi untuk tempoh yang jauh lebih lama.
DeepSeek juga baru sahaja melancarkan model bahasa-raya multi-modal pertama mereka, Janus-Pro-7B yang boleh digunakan untuk menjana imej.
Ia dikatakan mampu menandingi model-model terbaru Dall-E oleh OpenAI, dan Stable Diffusion, khususnya melalui perisian penanda aras
Kelebihan paling besar untuk DeepSeek, pada pendapat saya ialah ia merupakan sebuah model bahasa raya sumber terbuka.
Jika anda seorang pembangun teknologi AI, ini bermakna bahawa anda boleh memuat turun model DeepSeek ataupun Janus dari laman GitHub mereka dan mula membangunkan sistem atau perkhidmatan AI anda sendiri.
Jika anda mahu mengetahui lebih lanjut tentang bagaimana DeepSeek V3 dan DeepSeek R1 dibangunkan, anda juga boleh membaca dokumen teknikal mengenainya di laman tersebut.
Ia cukup menarik, khususnya apabila ia memperlihatkan bahawa pembangunan algoritma sistem AI ini dibangunkan oleh mereka sendiri tanpa meniru kerja rumah syarikat lain.
Penggunaan Aplikasi
Untuk pengguna biasa, buat masa ini mereka boleh menggunakan aplikasi chatbot DeepSeek mungkin tidak akan kelihatan begitu menarik.
ChatGPT dilihat masih tampil dengan butiran konteks yang lebih mendalam apabila menanyakan soalan yang sama, tetapi untuk sebuah aplikasi yang hanya diperkenalkan beberapa hari yang lalu,
Kelebihan DeepSeek dapat diperlihatkan apabila anda memanfaatkan sistem kecerdasan buatan ini untuk tujuan produktiviti.
Jika anda seorang pengatur cara, terdapat beberapa model bahasa-raya yang boleh dipilih, termasuklah DeepSeek R1, DeepSeek V3 dan DeepSeek Coder yang buat masa ini boleh memanfaatkan pengatur cara yang mahu menggunakan AI untuk pelbagai sebab.
Untuk aplikasi chatbot DeepSeek yang boleh dimuat-turun di gedung aplikasi, ia menggunakan model bahasa raya DeepSeek R1.
Jika anda rajin untuk menelaah X/Twitter, anda boleh menemui banyak contoh di mana DeepSeek digunakan untuk memudahkan pelbagai proses renyah khususnya untuk pengguna-pengguna teknikal.
Sebagai seorang penulis, saya secara lazimnya tidak akan menggunakan teknologi kecerdasan buatan untuk tujuan ini, tetapi DeepSeek juga nampaknya telah memperlihatkan bahawa penulisannya lebih semula jadi berbanding apa yang diperlihatkan menggunakan ChatGPT ataupun Claude AI.
Sayangnya buat masa ini, ciri tersebut hanya boleh digunakan dalam Bahasa Mandarin dan juga Bahasa Inggeris.
Jika anda mahu membangunkan kelompok AI anda sendiri di rumah ataupun pejabat (on-premise), DeepSeek mungkin model bahasa-raya untuk anda.
Anda boleh memuat turun sistem AI ini, dan memasangnya pada komputer seperti Mac Mini secara bertindih dan melatihnya dengan kandungan pilihan anda untuk membangunkan sebuah AI yang khusus untuk kegunaan anda sendiri.
Untuk aplikasi chatbot, pendaftaran pengguna buat masa ini terhad kepada dua cara sahaja, iaitu menggunakan akaun Google ataupun nombor telefon dari China.
Buat masa ini, jawapan daripada DeepSeek dilihat perlahan kerana ia mempunyai jumlah pengguna yang sangat ramai.
Perbincangan Di sebalik DeepSeek
Seperti biasa, apabila bercakap mengenai teknologi yang keluar dari negara China, ramai orang mempunyai pelbagai jenis persoalan, khususnya berkaitan bagaimanakah sebuah syarikat yang tidak dikenali sehingga kini boleh membangunkan sebuah model bahasaraya dengan kos picisan sahaja, apabila dibandingkan dengan gergasi seperti OpenAI, Microsoft, Google dan Meta.
Apabila saya membaca pelbagai perbincangan dan artikel berkenaan DeepSeek, apa yang saya dapati ialah kelebihan model bahasa raya ini ialah pembangun mereka telah mengoptimasikan kad-kad grafik H100 dan H800 yang digunakan melalui kod-kod CUDA yang ditulis sendiri.
Kami pasti sebahagian besar daripadanya ialah kerana sekatan perdagangan yang dikenakan oleh kerajaan Amerika Syarikat yang tidak membenarkan mereka untuk membeli cip semikonduktor yang terbaru dan paling berkuasa, tetapi ini dilihat sebagai satu langkah untuk mereka memanfaatkan apa yang kini dimiliki.
Untuk pembangun-pembangun teknologi AI di dunia barat seperti Amerika Syarikat, mereka dilihat menggunakan kad-kad grafik terbaru seperti NVIDIA B200 dan jarang sekali mengoptimasikan perkakasan sedia ada untuk mengurangkan kos operasi.
Modus operandi untuk syarikat-syarikat tersebut selama ini ialah untuk menggunakan perkakasan dan komponen yang paling berkuasa untuk memajukan propaganda pembangunan AI.
Ini juga dapat disahihkan dengan laporan yang memperlihatkan bahawa syarikat seperti Google, Meta dan Microsoft akan menggunakan loji tenaga nuklear untuk menguasakan pusat-pusat data mereka.
Oleh kerana ini juga kita dapat lihat syarikat-syarikat AI mula membelanjakan berbilion-bilion dolar untuk menambah kapasiti pemprosesan mereka, dan ini menyebabkan bekalan komponen-komponen ini sukar dibeli untuk kegunaan dan penyelidikan yang lain.
OpenAI, Softbank dan sejumlah syarikat lain juga baru sahaja mengumumkan Stargate Project, sebuah pusat data AI yang dijangka akan menelan belanja sebanyak $500 bilion sepanjang empat tahun akan datang, dan dianggarkan akan memakan sebanyak $100 bilion pada tahun ini sahaja.
Sayangnya, dengan pelancaran DeepSeek, ramai yang telah mula mempersoalkan sekiranya sesiapa pun memerlukan kuasa perkomputeran setinggi itu untuk membangunkan kecerdasan buatan yang cekap dan berkuasa.
Ini telah menyebabkan banyak syarikat teknologi dan cip semikonduktor, khususnya NVIDIA untuk mengalami penurunan nilai saham sebanyak 17 peratus dan nilai syarikat merudum sebanyak $600 juta.
Ia juga sangat menarik untuk melihat nilai NVIDIA menurun kerana DeepSeek dikuasakan oleh kad-kad grafik mereka, walaupun ia adalah model lama yang dilancarkan pada tahun 2023.
Sam Altman, pengasas dan CEO OpenAI mengatakan bahawa DeepSeek merupakan model bahasa raya yang sangat bagus, khususnya dengan kos pembangunan dan operasinya yang sangat rendah.
Akan tetapi, pada pendapat beliau, OpenAI akan terus memperkenalkan model yang sentiasa diperbaiki dengan ChatGPT dan Dall-E, dan melihat DeepSeek sebagai pesaing hebat untuk mereka.
Jensen Huang, CEO NVIDIA juga memperlihatkan nilai kekayaannya jatuh sekitar $18 $20 bilion, tetap mengatakan bahawa DeepSeek merupakan sebuah model AI yang sangat hebat sekali kerana ia sangat cekap dalam menggunakan kuasa pemprosesan sedia ada, dan tidak perlu bergantung pada komponen-komponen yang terbaharu.
Syarikat tersebut juga melihat ini sebagai satu peluang baharu kerana secara teknikalnya, teknologi AI baharu ini masih lagi dikuasakan oleh pemproses AI yang dikeluarkan NVIDIA sendiri.
Penutup
Dalam masa beberapa hari sahaja, DeepSeek telah berjaya memperlihatkan bahawa pembangunan sistem kecerdasan buatan boleh dilakukan tanpa pelaburan berskala Titanic.
Kami pasti bahawa DeepSeek R1 dan Janus bukan hanya dua produk yang akan dilancarkan oleh mereka, dan mereka akan melancarkan lebih banyak algoritma AI lagi selepas ini.
Jika anda mahu membaca lebih lanjut tentang DeepSeek, terdapat beberapa ciapan di X/Twitter, dan artikel oleh Fortune yang telah saya baca tentang syarikat ini dan pengasasnya, Liang Wenfeng. -Amanz