ສໍາລັບ BMS, BUS, ອຸດສາຫະກໍາ, Instrumentation Cable.

ໃນຂະນະທີ່ງານບຸນລະດູໃບໄມ້ປົ່ງໃກ້ເຂົ້າມາແລ້ວ, ຄວາມຕື່ນເຕັ້ນທີ່ອ້ອມຮອບ DeepSeek ຍັງຄົງແຂງແຮງ. ວັນພັກທີ່ຜ່ານມາໄດ້ຊີ້ໃຫ້ເຫັນເຖິງຄວາມຮູ້ສຶກຂອງການແຂ່ງຂັນທີ່ສໍາຄັນໃນອຸດສາຫະກໍາເຕັກໂນໂລຢີ, ໂດຍມີຫຼາຍໆຄົນສົນທະນາແລະວິເຄາະ "ປາແດກ". Silicon Valley ກໍາລັງປະສົບກັບວິກິດການທີ່ບໍ່ເຄີຍມີມາກ່ອນ: ຜູ້ສະຫນັບສະຫນູນຂອງແຫຼ່ງເປີດກໍາລັງສະແດງຄວາມຄິດເຫັນຂອງເຂົາເຈົ້າອີກເທື່ອຫນຶ່ງ, ແລະເຖິງແມ່ນວ່າ OpenAI ກໍາລັງປະເມີນຄືນໃຫມ່ວ່າຍຸດທະສາດແຫຼ່ງປິດຂອງມັນແມ່ນທາງເລືອກທີ່ດີທີ່ສຸດ. ຮູບແບບໃຫມ່ຂອງຄ່າໃຊ້ຈ່າຍໃນຄອມພິວເຕີ້ຕ່ໍາໄດ້ເຮັດໃຫ້ເກີດປະຕິກິລິຢາລະບົບຕ່ອງໂສ້ລະຫວ່າງຍັກໃຫຍ່ຂອງຊິບເຊັ່ນ Nvidia, ນໍາໄປສູ່ການສູນເສຍມູນຄ່າຕະຫຼາດໃນມື້ດຽວໃນປະຫວັດສາດຕະຫຼາດຫຼັກຊັບສະຫະລັດ, ໃນຂະນະທີ່ອົງການຂອງລັດຖະບານກໍາລັງສືບສວນການປະຕິບັດຕາມ chip ທີ່ໃຊ້ໂດຍ DeepSeek. ທ່າມກາງການທົບທວນປະສົມປະສານຂອງ DeepSeek ຕ່າງປະເທດ, ພາຍໃນປະເທດ, ມັນກໍາລັງປະສົບກັບການຂະຫຍາຍຕົວທີ່ພິເສດ. ຫຼັງຈາກການເປີດຕົວຂອງຮູບແບບ R1, ແອັບຯທີ່ກ່ຽວຂ້ອງໄດ້ເຫັນການຂະຫຍາຍຕົວຂອງການຈະລາຈອນ, ຊີ້ໃຫ້ເຫັນວ່າການຂະຫຍາຍຕົວໃນຂະແຫນງການແອັບພລິເຄຊັນຈະຊຸກຍູ້ໃຫ້ລະບົບນິເວດ AI ໂດຍລວມໄປຂ້າງຫນ້າ. ລັກສະນະໃນທາງບວກແມ່ນວ່າ DeepSeek ຈະຂະຫຍາຍຄວາມເປັນໄປໄດ້ຂອງແອັບພລິເຄຊັນ, ແນະນໍາວ່າການອີງໃສ່ ChatGPT ຈະບໍ່ແພງຫຼາຍໃນອະນາຄົດ. ການປ່ຽນແປງນີ້ໄດ້ຖືກສະທ້ອນໃຫ້ເຫັນໃນກິດຈະກໍາທີ່ຜ່ານມາຂອງ OpenAI, ລວມທັງການສະຫນອງຮູບແບບການສົມເຫດສົມຜົນທີ່ເອີ້ນວ່າ o3-mini ໃຫ້ກັບຜູ້ໃຊ້ຟຣີເພື່ອຕອບສະຫນອງ DeepSeek R1, ເຊັ່ນດຽວກັນກັບການຍົກລະດັບຕໍ່ມາທີ່ເຮັດໃຫ້ລະບົບຕ່ອງໂສ້ຄວາມຄິດຂອງ o3-mini ສາທາລະນະ. ຜູ້ໃຊ້ຕ່າງປະເທດຫຼາຍຄົນສະແດງຄວາມຂອບໃຈຕໍ່ DeepSeek ສໍາລັບການພັດທະນາເຫຼົ່ານີ້, ເຖິງແມ່ນວ່າລະບົບຕ່ອງໂສ້ຄວາມຄິດນີ້ເຮັດຫນ້າທີ່ເປັນບົດສະຫຼຸບ.
ໃນແງ່ດີ, ມັນເຫັນໄດ້ຊັດເຈນວ່າ DeepSeek ແມ່ນການໂຮມຜູ້ຫຼິ້ນພາຍໃນປະເທດ. ດ້ວຍການສຸມໃສ່ການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການຝຶກອົບຮົມ, ຜູ້ຜະລິດ chip upstream ຕ່າງໆ, ຜູ້ໃຫ້ບໍລິການຟັງລະດັບປານກາງ, ແລະການເລີ່ມຕົ້ນຈໍານວນຫລາຍກໍາລັງເຂົ້າຮ່ວມລະບົບນິເວດຢ່າງຫ້າວຫັນ, ເພີ່ມປະສິດທິພາບຄ່າໃຊ້ຈ່າຍສໍາລັບການນໍາໃຊ້ຕົວແບບ DeepSeek. ອີງຕາມເອກະສານຂອງ DeepSeek, ການຝຶກອົບຮົມທີ່ສົມບູນຂອງຮູບແບບ V3 ຕ້ອງການພຽງແຕ່ 2.788 ລ້ານ H800 GPU ຊົ່ວໂມງ, ແລະຂະບວນການຝຶກອົບຮົມມີຄວາມຫມັ້ນຄົງສູງ. ສະຖາປັດຕະຍະກໍາ MoE (ປະສົມຂອງຜູ້ຊ່ຽວຊານ) ແມ່ນສໍາຄັນສໍາລັບການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍກ່ອນການຝຶກອົບຮົມໂດຍປັດໃຈສິບທຽບກັບ Llama 3 ທີ່ມີ 405 ຕື້ພາລາມິເຕີ. ປະຈຸບັນ, V3 ແມ່ນຕົວແບບທຳອິດທີ່ໄດ້ຮັບການຮັບຮູ້ຈາກສາທາລະນະຊົນທີ່ສະແດງໃຫ້ເຫັນຄວາມກະໂດດຂັ້ນສູງດັ່ງກ່າວໃນ MoE. ນອກຈາກນັ້ນ, MLA (Multi Layer Attention) ເຮັດວຽກຮ່ວມກັນ, ໂດຍສະເພາະໃນດ້ານການສົມເຫດສົມຜົນ. "MoE sparser, ຂະຫນາດ batch ທີ່ໃຫຍ່ກວ່າທີ່ຕ້ອງການໃນລະຫວ່າງການສົມເຫດສົມຜົນເພື່ອນໍາໃຊ້ພະລັງງານຄອມພິວເຕີ້ຢ່າງເຕັມສ່ວນ, ໂດຍຂະຫນາດຂອງ KVCache ເປັນປັດໃຈຈໍາກັດທີ່ສໍາຄັນ; MLA ຫຼຸດລົງຂະຫນາດ KVCache ຢ່າງຫຼວງຫຼາຍ," ນັກຄົ້ນຄວ້າຈາກ Chuanjing Technology ກ່າວໃນການວິເຄາະສໍາລັບ AI Technology Review. ໂດຍລວມແລ້ວ, ຄວາມສໍາເລັດຂອງ DeepSeek ແມ່ນຢູ່ໃນການປະສົມປະສານຂອງເຕັກໂນໂລຢີຕ່າງໆ, ບໍ່ພຽງແຕ່ຫນຶ່ງດຽວ. ພາຍໃນອຸດສາຫະກໍາຍ້ອງຍໍຄວາມສາມາດດ້ານວິສະວະກໍາຂອງທີມງານ DeepSeek, ສັງເກດເຫັນຄວາມດີເລີດຂອງພວກເຂົາໃນການຝຶກອົບຮົມຂະຫນານແລະການເພີ່ມປະສິດທິພາບຂອງຜູ້ປະກອບການ, ບັນລຸຜົນໄດ້ຮັບທີ່ໂດດເດັ່ນໂດຍການປັບປຸງທຸກໆລາຍລະອຽດ. ວິທີການເປີດແຫຼ່ງຂອງ DeepSeek ຊຸກຍູ້ການພັດທະນາໂດຍລວມຂອງແບບຈໍາລອງຂະຫນາດໃຫຍ່, ແລະຄາດວ່າຖ້າຮູບແບບທີ່ຄ້າຍຄືກັນຂະຫຍາຍໄປສູ່ຮູບພາບ, ວິດີໂອ, ແລະອື່ນໆ, ນີ້ຈະກະຕຸ້ນຄວາມຕ້ອງການຢ່າງຫຼວງຫຼາຍໃນທົ່ວອຸດສາຫະກໍາ.
ໂອກາດສໍາລັບການບໍລິການເຫດຜົນຂອງພາກສ່ວນທີສາມ
ຂໍ້ມູນຊີ້ໃຫ້ເຫັນວ່ານັບຕັ້ງແຕ່ການປ່ອຍອອກມາ, DeepSeek ໄດ້ເພີ່ມຂຶ້ນ 22.15 ລ້ານຄົນທີ່ໃຊ້ວຽກປະຈໍາວັນ (DAU) ພາຍໃນພຽງແຕ່ 21 ມື້, ບັນລຸ 41.6% ຂອງຖານຜູ້ໃຊ້ຂອງ ChatGPT ແລະລື່ນກາຍ 16.95 ລ້ານຄົນທີ່ມີການເຄື່ອນໄຫວປະຈໍາວັນຂອງ Doubao, ດັ່ງນັ້ນຈຶ່ງກາຍເປັນແອັບພລິເຄຊັນທີ່ເຕີບໂຕໄວທີ່ສຸດໃນທົ່ວໂລກ, ຂຶ້ນເປັນ Apple App Store 5 ປະເທດ/regions. ຢ່າງໃດກໍຕາມ, ໃນຂະນະທີ່ຜູ້ໃຊ້ flocked ໃນຂັບລົດ, ແຮກເກີ cyber ໄດ້ໂຈມຕີ app DeepSeek ຢ່າງບໍ່ຢຸດຢັ້ງ, ເຊິ່ງກໍ່ໃຫ້ເກີດຄວາມເຄັ່ງຕຶງໃນເຄື່ອງແມ່ຂ່າຍຂອງມັນ. ນັກວິເຄາະອຸດສາຫະກໍາເຊື່ອວ່ານີ້ແມ່ນບາງສ່ວນເນື່ອງຈາກ DeepSeek ນໍາໃຊ້ບັດສໍາລັບການຝຶກອົບຮົມໃນຂະນະທີ່ຂາດພະລັງງານຄອມພິວເຕີ້ພຽງພໍສໍາລັບການສົມເຫດສົມຜົນ. ພາຍໃນອຸດສາຫະກໍາໄດ້ແຈ້ງໃຫ້ AI Technology Review, "ບັນຫາເຊີຟເວີເລື້ອຍໆສາມາດແກ້ໄຂໄດ້ງ່າຍໂດຍການຄິດຄ່າທໍານຽມຫຼືການເງິນເພື່ອຊື້ເຄື່ອງເພີ່ມເຕີມ; ສຸດທ້າຍ, ມັນຂຶ້ນກັບການຕັດສິນໃຈຂອງ DeepSeek." ນີ້ນໍາສະເຫນີການຄ້າໃນການສຸມໃສ່ເຕັກໂນໂລຢີທຽບກັບການຜະລິດ. DeepSeek ສ່ວນໃຫຍ່ແມ່ນອີງໃສ່ quantum quantization ສໍາລັບການລ້ຽງດູຕົນເອງ, ໄດ້ຮັບເງິນທຶນຈາກພາຍນອກພຽງເລັກນ້ອຍ, ເຊິ່ງກໍ່ໃຫ້ເກີດຄວາມກົດດັນຂອງກະແສເງິນສົດຂ້ອນຂ້າງຕໍ່າແລະສະພາບແວດລ້ອມເຕັກໂນໂລຢີທີ່ບໍລິສຸດ. ໃນປັດຈຸບັນ, ໃນແງ່ຂອງບັນຫາທີ່ໄດ້ກ່າວມາຂ້າງເທິງ, ຜູ້ໃຊ້ບາງຄົນກໍາລັງຮຽກຮ້ອງໃຫ້ DeepSeek ໃນສື່ມວນຊົນສັງຄົມຍົກລະດັບຂອບເຂດການນໍາໃຊ້ຫຼືແນະນໍາຄຸນສົມບັດທີ່ຈ່າຍເພື່ອເພີ່ມຄວາມສະດວກສະບາຍຂອງຜູ້ໃຊ້. ນອກຈາກນັ້ນ, ນັກພັດທະນາໄດ້ເລີ່ມໃຊ້ API ຢ່າງເປັນທາງການຫຼື APIs ພາກສ່ວນທີສາມສໍາລັບການເພີ່ມປະສິດທິພາບ. ຢ່າງໃດກໍຕາມ, ເວທີເປີດຂອງ DeepSeek ໄດ້ປະກາດເມື່ອໄວໆມານີ້, "ຊັບພະຍາກອນຂອງເຄື່ອງແມ່ຂ່າຍໃນປະຈຸບັນແມ່ນຂາດແຄນ, ແລະການເກັບຄ່າບໍລິການ API ໄດ້ຖືກໂຈະ."
ນີ້ແນ່ນອນຈະເປີດໂອກາດຫຼາຍສໍາລັບຜູ້ຂາຍພາກສ່ວນທີສາມໃນຂະແຫນງໂຄງສ້າງພື້ນຖານ AI. ບໍ່ດົນມານີ້, ບໍລິສັດເມຄຍັກໃຫຍ່ທັງພາຍໃນແລະຕ່າງປະເທດຈໍານວນຫລາຍໄດ້ເປີດຕົວ APIs ແບບຈໍາລອງຂອງ DeepSeek - ບໍລິສັດຍັກໃຫຍ່ຈາກຕ່າງປະເທດ Microsoft ແລະ Amazon ແມ່ນຫນຶ່ງໃນບັນດາບໍລິສັດທໍາອິດທີ່ເຂົ້າຮ່ວມໃນທ້າຍເດືອນມັງກອນ. ຜູ້ນໍາພາຍໃນປະເທດ, Huawei Cloud, ໄດ້ດໍາເນີນການເຄື່ອນໄຫວທໍາອິດ, ປ່ອຍບໍລິການໃຫ້ເຫດຜົນ DeepSeek R1 ແລະ V3 ໃນການຮ່ວມມືກັບ Silicon-based Flow ໃນວັນທີ 1 ເດືອນກຸມພາ. ບົດລາຍງານຈາກ AI Technology Review ຊີ້ໃຫ້ເຫັນວ່າບໍລິການຂອງ Flow ທີ່ອີງໃສ່ Silicon ໄດ້ເຫັນການໄຫລຂອງຜູ້ຊົມໃຊ້, ປະສິດທິຜົນ "crashing" ເວທີ. ບໍລິສັດເຕັກໂນໂລຢີໃຫຍ່ສາມບໍລິສັດ - BAT (Baidu, Alibaba, Tencent) ແລະ ByteDance - ຍັງໄດ້ອອກການສະເຫນີລາຄາຕ່ໍາ, ເວລາຈໍາກັດໃນວັນທີ 3 ເດືອນກຸມພາ, reminiscent ຂອງສົງຄາມລາຄາຜູ້ຂາຍເມຄຂອງປີທີ່ຜ່ານມາໄດ້ລຸກຂຶ້ນໂດຍການເປີດຕົວແບບຈໍາລອງ DeepSeek ຂອງ V2, ບ່ອນທີ່ DeepSeek ເລີ່ມຕົ້ນຖືກຂະຫນານນາມວ່າ "ຜູ້ຂາຍລາຄາ." ການກະທໍາທີ່ຫຼົງໄຫຼຂອງຜູ້ຂາຍເມຄໄດ້ສະທ້ອນເຖິງຄວາມສຳພັນອັນແໜ້ນແຟ້ນລະຫວ່າງ Microsoft Azure ແລະ OpenAI, ເຊິ່ງໃນປີ 2019, Microsoft ໄດ້ລົງທຶນຫຼາຍຕື້ໂດລາໃນ OpenAI ແລະເກັບກ່ຽວຜົນປະໂຫຍດຫຼັງຈາກການເປີດຕົວຂອງ ChatGPT ໃນປີ 2023. ແນວໃດກໍ່ຕາມ, ຄວາມສຳພັນອັນໃກ້ຊິດນີ້ເລີ່ມແຕກແຍກຫຼັງຈາກ Meta open-sourced Llama, ອະນຸຍາດໃຫ້ຜູ້ຂາຍອື່ນໆທີ່ຢູ່ນອກລະບົບ Microsoft A. ໃນຕົວຢ່າງນີ້, DeepSeek ບໍ່ພຽງແຕ່ໄດ້ລື່ນກາຍ ChatGPT ໃນແງ່ຂອງຄວາມຮ້ອນຂອງຜະລິດຕະພັນ, ແຕ່ຍັງໄດ້ນໍາສະເຫນີແບບຈໍາລອງ open-source ຫຼັງຈາກການປ່ອຍ o1, ຄ້າຍຄືກັບຄວາມຕື່ນເຕັ້ນທີ່ອ້ອມຮອບການຟື້ນຕົວຂອງ Llama ຂອງ GPT-3.
ໃນຄວາມເປັນຈິງ, ຜູ້ໃຫ້ບໍລິການຟັງຍັງຕັ້ງຕົວເອງເປັນປະຕູການຈະລາຈອນສໍາລັບຄໍາຮ້ອງສະຫມັກ AI, ຊຶ່ງຫມາຍຄວາມວ່າການລົງເລິກສາຍພົວພັນກັບນັກພັດທະນາແປວ່າມີຂໍ້ໄດ້ປຽບກ່ອນ. ບົດລາຍງານຊີ້ໃຫ້ເຫັນວ່າ Baidu Smart Cloud ມີລູກຄ້າຫຼາຍກວ່າ 15,000 ຄົນທີ່ໃຊ້ຮູບແບບ DeepSeek ຜ່ານເວທີ Qianfan ໃນມື້ເປີດຕົວຂອງຕົວແບບ. ນອກຈາກນັ້ນ, ບໍລິສັດຂະຫນາດນ້ອຍຈໍານວນຫນຶ່ງກໍາລັງສະເຫນີການແກ້ໄຂ, ລວມທັງການໄຫຼເຂົ້າທີ່ອີງໃສ່ Silicon, Luchen Technology, Chuanjing Technology, ແລະຜູ້ໃຫ້ບໍລິການ AI Infra ຕ່າງໆທີ່ໄດ້ເປີດຕົວສະຫນັບສະຫນູນແບບ DeepSeek. AI Technology Review ໄດ້ຮຽນຮູ້ວ່າໂອກາດການເພີ່ມປະສິດທິພາບໃນປັດຈຸບັນສໍາລັບການນໍາໃຊ້ທ້ອງຖິ່ນຂອງ DeepSeek ຕົ້ນຕໍແມ່ນມີຢູ່ໃນສອງດ້ານ: ອັນຫນຶ່ງແມ່ນການເພີ່ມປະສິດທິພາບສໍາລັບລັກສະນະຄວາມຫນາແຫນ້ນຂອງແບບຈໍາລອງ MoE ໂດຍໃຊ້ວິທີການສົມເຫດສົມຜົນແບບປະສົມເພື່ອນໍາໃຊ້ຕົວແບບ MoE 671 ຕື້ພາລາມິເຕີຢູ່ໃນທ້ອງຖິ່ນໃນຂະນະທີ່ນໍາໃຊ້ການປະສົມປະສານ GPU / CPU inference. ນອກຈາກນັ້ນ, ການເພີ່ມປະສິດທິພາບຂອງ MLA ແມ່ນສໍາຄັນ. ຢ່າງໃດກໍຕາມ, ສອງຕົວແບບຂອງ DeepSeek ຍັງປະເຊີນກັບສິ່ງທ້າທາຍບາງຢ່າງໃນການເພີ່ມປະສິດທິພາບການໃຊ້ງານ. ນັກຄົ້ນຄວ້າຈາກບໍລິສັດ Chuanjing Technology ກ່າວວ່າ "ເນື່ອງຈາກຂະຫນາດຂອງຕົວແບບແລະຕົວກໍານົດການຈໍານວນຫລາຍ, ການເພີ່ມປະສິດທິພາບແມ່ນສັບສົນແທ້ໆ, ໂດຍສະເພາະແມ່ນການນໍາໃຊ້ທ້ອງຖິ່ນທີ່ບັນລຸຄວາມສົມດຸນທີ່ດີທີ່ສຸດລະຫວ່າງການປະຕິບັດແລະຄ່າໃຊ້ຈ່າຍແມ່ນສິ່ງທ້າທາຍ", ນັກຄົ້ນຄວ້າຈາກບໍລິສັດ Chuanjing Technology ກ່າວ. ອຸປະສັກທີ່ ສຳ ຄັນທີ່ສຸດແມ່ນຢູ່ໃນການເອົາຊະນະຂໍ້ ຈຳ ກັດດ້ານຄວາມ ຈຳ. "ພວກເຮົາຮັບຮອງເອົາວິທີການຮ່ວມມືທີ່ຫລາກຫລາຍເພື່ອນໍາໃຊ້ CPU ແລະຊັບພະຍາກອນຄອມພິວເຕີ້ອື່ນໆຢ່າງເຕັມທີ່, ວາງພຽງແຕ່ສ່ວນທີ່ບໍ່ໄດ້ແບ່ງປັນຂອງ Matrix MoE ເລັກນ້ອຍໃນ CPU / DRAM ສໍາລັບການປຸງແຕ່ງໂດຍໃຊ້ຕົວປະຕິບັດການ CPU ທີ່ມີປະສິດທິພາບສູງ, ໃນຂະນະທີ່ສ່ວນທີ່ຫນາແຫນ້ນຢູ່ໃນ GPU," ລາວອະທິບາຍຕື່ມອີກ. ບົດລາຍງານຊີ້ໃຫ້ເຫັນວ່າ KTransformers ກອບການເປີດແຫຼ່ງຂອງ Chuanjing ຕົ້ນຕໍແມ່ນໃສ່ກົນລະຍຸດຕ່າງໆແລະຜູ້ປະຕິບັດການເຂົ້າໃນການປະຕິບັດ Transformers ຕົ້ນສະບັບໂດຍຜ່ານແມ່ແບບ, ເສີມຂະຫຍາຍຄວາມໄວ inference ຢ່າງຫຼວງຫຼາຍໂດຍໃຊ້ວິທີການເຊັ່ນ CUDAGraph. DeepSeek ໄດ້ສ້າງໂອກາດສໍາລັບການເລີ່ມຕົ້ນເຫຼົ່ານີ້, ຍ້ອນວ່າຜົນປະໂຫຍດການຂະຫຍາຍຕົວແມ່ນປາກົດຂື້ນ; ບໍລິສັດຈໍານວນຫຼາຍໄດ້ລາຍງານການຂະຫຍາຍຕົວຂອງລູກຄ້າທີ່ສັງເກດເຫັນຫຼັງຈາກການເປີດຕົວ DeepSeek API, ໄດ້ຮັບການສອບຖາມຈາກລູກຄ້າທີ່ຜ່ານມາຊອກຫາການເພີ່ມປະສິດທິພາບ. ພາຍໃນອຸດສາຫະກໍາໄດ້ສັງເກດເຫັນວ່າ, "ໃນອະດີດ, ກຸ່ມລູກຄ້າທີ່ຖືກສ້າງຕັ້ງຂື້ນບາງຢ່າງມັກຈະຖືກລັອກເຂົ້າໄປໃນການບໍລິການມາດຕະຖານຂອງບໍລິສັດຂະຫນາດໃຫຍ່, ຜູກມັດຢ່າງແຫນ້ນແຟ້ນກັບຄວາມໄດ້ປຽບຂອງຄ່າໃຊ້ຈ່າຍຂອງພວກເຂົາເນື່ອງຈາກຂະຫນາດ. ຢ່າງໃດກໍຕາມ, ຫຼັງຈາກສໍາເລັດການຈັດຕັ້ງປະຕິບັດ DeepSeek-R1 / V3 ກ່ອນງານບຸນລະດູໃບໄມ້ປົ່ງ, ພວກເຮົາໄດ້ຮັບຄໍາຮ້ອງຂໍການຮ່ວມມືຈາກລູກຄ້າທີ່ມີຊື່ສຽງຫຼາຍແຫ່ງ, ແລະແມ້ກະທັ້ງການຕິດຕໍ່ກັບລູກຄ້າ DeepSeek ຂອງພວກເຮົາໃນເມື່ອກ່ອນ. ໃນປັດຈຸບັນ, ມັນປະກົດວ່າ DeepSeek ກໍາລັງເຮັດໃຫ້ການປະຕິບັດຕົວແບບ inference ມີຄວາມສໍາຄັນເພີ່ມຂຶ້ນ, ແລະດ້ວຍການຮັບຮອງເອົາແບບຈໍາລອງຂະຫນາດໃຫຍ່, ນີ້ຈະສືບຕໍ່ມີອິດທິພົນຕໍ່ການພັດທະນາໃນອຸດສາຫະກໍາ AI Infra ຢ່າງຫຼວງຫຼາຍ. ຖ້າຕົວແບບລະດັບ DeepSeek ສາມາດຖືກນໍາໄປໃຊ້ຢູ່ໃນທ້ອງຖິ່ນດ້ວຍຄ່າໃຊ້ຈ່າຍຕ່ໍາ, ມັນຈະຊ່ວຍລັດຖະບານແລະວິສາຫະກິດຢ່າງຫຼວງຫຼາຍໃນຄວາມພະຍາຍາມຫັນເປັນດິຈິຕອນ. ຢ່າງໃດກໍ່ຕາມ, ສິ່ງທ້າທາຍຍັງຄົງຢູ່, ຍ້ອນວ່າລູກຄ້າບາງຄົນອາດຈະມີຄວາມຄາດຫວັງສູງກ່ຽວກັບຄວາມສາມາດຂອງຕົວແບບຂະຫນາດໃຫຍ່, ເຮັດໃຫ້ມັນເຫັນໄດ້ຊັດເຈນວ່າການດຸ່ນດ່ຽງການປະຕິບັດແລະຄ່າໃຊ້ຈ່າຍກາຍເປັນສິ່ງສໍາຄັນໃນການປະຕິບັດຕົວຈິງ.
ເພື່ອປະເມີນວ່າ DeepSeek ແມ່ນດີກ່ວາ ChatGPT, ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະເຂົ້າໃຈຄວາມແຕກຕ່າງທີ່ສໍາຄັນ, ຄວາມເຂັ້ມແຂງແລະກໍລະນີການນໍາໃຊ້ຂອງພວກເຂົາ. ນີ້ແມ່ນການປຽບທຽບທີ່ສົມບູນແບບ:
ລັກສະນະ/ລັກສະນະ | DeepSeek | ChatGPT |
---|---|---|
ຄວາມເປັນເຈົ້າຂອງ | ພັດທະນາໂດຍບໍລິສັດຈີນ | ພັດທະນາໂດຍ OpenAI |
ຕົວແບບແຫຼ່ງ | ແຫຼ່ງເປີດ | ເປັນເຈົ້າຂອງ |
ຄ່າໃຊ້ຈ່າຍ | ໃຊ້ຟຣີ; ທາງເລືອກການເຂົ້າເຖິງ API ລາຄາຖືກກວ່າ | ການສະໝັກໃຊ້ ຫຼືລາຄາຕໍ່ການໃຊ້ |
ການປັບແຕ່ງ | ສາມາດປັບແຕ່ງໄດ້ສູງ, ໃຫ້ຜູ້ໃຊ້ສາມາດປັບປ່ຽນ ແລະສ້າງມັນ | ມີການປັບແຕ່ງແບບຈຳກັດ |
ການປະຕິບັດໃນວຽກງານສະເພາະ | Excels ໃນບາງຂົງເຂດເຊັ່ນ: ການວິເຄາະຂໍ້ມູນແລະການດຶງຂໍ້ມູນ | Versatile ມີການປະຕິບັດທີ່ເຂັ້ມແຂງໃນການຂຽນສ້າງສັນແລະວຽກງານການສົນທະນາ |
ສະຫນັບສະຫນູນພາສາ | ສຸມໃສ່ຢ່າງແຂງແຮງກ່ຽວກັບພາສາແລະວັດທະນະທໍາຈີນ | ສະຫນັບສະຫນູນພາສາຢ່າງກວ້າງຂວາງແຕ່ US-centric |
ຄ່າໃຊ້ຈ່າຍການຝຶກອົບຮົມ | ຄ່າໃຊ້ຈ່າຍການຝຶກອົບຮົມຕ່ໍາ, ເພີ່ມປະສິດທິພາບສໍາລັບປະສິດທິພາບ | ຄ່າໃຊ້ຈ່າຍໃນການຝຶກອົບຮົມທີ່ສູງຂຶ້ນ, ຮຽກຮ້ອງໃຫ້ມີຊັບພະຍາກອນຄອມພິວເຕີຢ່າງຫຼວງຫຼາຍ |
ການປ່ຽນແປງການຕອບສະຫນອງ | ອາດຈະສະເຫນີຄໍາຕອບທີ່ແຕກຕ່າງກັນ, ອາດຈະເປັນອິດທິພົນຈາກສະພາບການທາງດ້ານພູມສາດ | ຄໍາຕອບທີ່ສອດຄ່ອງໂດຍອີງໃສ່ຂໍ້ມູນການຝຶກອົບຮົມ |
ຜູ້ຊົມເປົ້າໝາຍ | ແນໃສ່ຜູ້ພັດທະນາ ແລະນັກຄົ້ນຄວ້າທີ່ຕ້ອງການຄວາມຍືດຫຍຸ່ນ | ແນໃສ່ຜູ້ໃຊ້ທົ່ວໄປຊອກຫາຄວາມສາມາດໃນການສົນທະນາ |
ໃຊ້ກໍລະນີ | ມີປະສິດທິພາບຫຼາຍຂຶ້ນສຳລັບການສ້າງລະຫັດ ແລະວຽກງານທີ່ວ່ອງໄວ | ເຫມາະສໍາລັບການສ້າງຂໍ້ຄວາມ, ຕອບຄໍາຖາມ, ແລະມີສ່ວນຮ່ວມໃນການສົນທະນາ |
ທັດສະນະທີ່ສໍາຄັນກ່ຽວກັບ "ການຂັດຂວາງ Nvidia"
ໃນປັດຈຸບັນ, ນອກຈາກ Huawei, ຜູ້ຜະລິດຊິບພາຍໃນປະເທດຈໍານວນຫນຶ່ງເຊັ່ນ Moore Threads, Muxi, Biran Technology, ແລະ Tianxu Zhixin ຍັງປັບຕົວເຂົ້າກັບ DeepSeek ສອງຮຸ່ນ. ຜູ້ຜະລິດຊິບບອກ AI Technology Review, "ໂຄງສ້າງຂອງ DeepSeek ສະແດງໃຫ້ເຫັນເຖິງການປະດິດສ້າງ, ແຕ່ມັນຍັງຄົງເປັນ LLM. ການປັບຕົວຂອງພວກເຮົາກັບ DeepSeek ຕົ້ນຕໍແມ່ນສຸມໃສ່ຄໍາຮ້ອງສະຫມັກທີ່ສົມເຫດສົມຜົນ, ເຮັດໃຫ້ການປະຕິບັດດ້ານວິຊາການແມ່ນກົງໄປກົງມາແລະໄວ." ຢ່າງໃດກໍ່ຕາມ, ວິທີການ MoE ຮຽກຮ້ອງໃຫ້ມີຄວາມຕ້ອງການທີ່ສູງຂຶ້ນໃນດ້ານການເກັບຮັກສາແລະການແຈກຢາຍ, ຄຽງຄູ່ກັບການຮັບປະກັນຄວາມເຂົ້າກັນໄດ້ໃນເວລາທີ່ນໍາໃຊ້ກັບຊິບພາຍໃນປະເທດ, ສະເຫນີສິ່ງທ້າທາຍດ້ານວິສະວະກໍາຈໍານວນຫລາຍທີ່ຕ້ອງການການແກ້ໄຂໃນລະຫວ່າງການປັບຕົວ. "ໃນປັດຈຸບັນ, ພະລັງງານຄອມພິວເຕີ້ພາຍໃນປະເທດບໍ່ກົງກັບ Nvidia ໃນການນໍາໃຊ້ແລະຄວາມຫມັ້ນຄົງ, ຮຽກຮ້ອງໃຫ້ມີການມີສ່ວນຮ່ວມຂອງໂຮງງານຕົ້ນສະບັບສໍາລັບການຕິດຕັ້ງສະພາບແວດລ້ອມຊອບແວ, ການແກ້ໄຂບັນຫາແລະການເພີ່ມປະສິດທິພາບພື້ນຖານ," ຜູ້ຊ່ຽວຊານດ້ານອຸດສາຫະກໍາກ່າວວ່າໂດຍອີງໃສ່ປະສົບການປະຕິບັດ. ໃນຂະນະດຽວກັນ, "ເນື່ອງຈາກຂະຫນາດພາລາມິເຕີຂະຫນາດໃຫຍ່ຂອງ DeepSeek R1, ພະລັງງານຄອມພິວເຕີ້ພາຍໃນຈໍາເປັນຕ້ອງມີຂໍ້ເພີ່ມເຕີມສໍາລັບການຂະຫນານ. ນອກຈາກນັ້ນ, ຂໍ້ມູນຈໍາເພາະຂອງຮາດແວພາຍໃນປະເທດຍັງຢູ່ເບື້ອງຫຼັງບາງຢ່າງ; ຕົວຢ່າງ, Huawei 910B ໃນປະຈຸບັນບໍ່ສາມາດສະຫນັບສະຫນູນ FP8 inference ແນະນໍາໂດຍ DeepSeek." ຫນຶ່ງໃນຈຸດເດັ່ນຂອງຕົວແບບ DeepSeek V3 ແມ່ນການນໍາສະເຫນີກອບການຝຶກອົບຮົມຄວາມແມ່ນຍໍາແບບປະສົມ FP8, ເຊິ່ງໄດ້ຮັບການກວດສອບຢ່າງມີປະສິດທິພາບໃນແບບຈໍາລອງຂະຫນາດໃຫຍ່ທີ່ສຸດ, ເຊິ່ງຫມາຍເຖິງຜົນສໍາເລັດທີ່ສໍາຄັນ. ກ່ອນຫນ້ານີ້, ຜູ້ຫຼິ້ນທີ່ສໍາຄັນເຊັ່ນ Microsoft ແລະ Nvidia ໄດ້ແນະນໍາການເຮັດວຽກທີ່ກ່ຽວຂ້ອງ, ແຕ່ຄວາມສົງໃສຍັງຢູ່ໃນອຸດສາຫະກໍາກ່ຽວກັບຄວາມເປັນໄປໄດ້. ມັນເຂົ້າໃຈວ່າເມື່ອປຽບທຽບກັບ INT8, ປະໂຫຍດຕົ້ນຕໍຂອງ FP8 ແມ່ນວ່າການຄິດໄລ່ຫລັງການຝຶກອົບຮົມສາມາດບັນລຸຄວາມແມ່ນຍໍາເກືອບສູນເສຍໃນຂະນະທີ່ເພີ່ມຄວາມໄວ inference ຢ່າງຫຼວງຫຼາຍ. ເມື່ອປຽບທຽບກັບ FP16, FP8 ສາມາດຮັບຮູ້ເຖິງການເລັ່ງສອງເທົ່າໃນ Nvidia's H20 ແລະການເລັ່ງຫຼາຍກວ່າ 1.5 ເທົ່າໃນ H100. ເປັນທີ່ຫນ້າສັງເກດ, ຍ້ອນວ່າການສົນທະນາກ່ຽວກັບແນວໂນ້ມຂອງພະລັງງານຄອມພິວເຕີ້ພາຍໃນປະເທດບວກກັບຕົວແບບພາຍໃນປະເທດເພີ່ມຂຶ້ນ, ການຄາດເດົາກ່ຽວກັບວ່າ Nvidia ອາດຈະຖືກລົບກວນ, ແລະວ່າ CUDA ອາດຈະຖືກຂ້າມຜ່ານ, ກໍາລັງກາຍເປັນທີ່ແຜ່ຫຼາຍ. ຄວາມຈິງທີ່ບໍ່ສາມາດປະຕິເສດໄດ້ແມ່ນວ່າ DeepSeek ໄດ້ເຮັດໃຫ້ມູນຄ່າຕະຫຼາດຂອງ Nvidia ຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ, ແຕ່ການປ່ຽນແປງນີ້ເຮັດໃຫ້ເກີດຄໍາຖາມກ່ຽວກັບຄວາມສົມບູນຂອງພະລັງງານຄອມພິວເຕີ້ສູງຂອງ Nvidia. ການເທື່ອເນື່ອງຈາກທີ່ໄດ້ຮັບການຍອມຮັບໃນເມື່ອກ່ອນກ່ຽວກັບການສະສົມຄໍານວນທີ່ຂັບເຄື່ອນດ້ວຍທຶນນິຍົມແມ່ນກໍາລັງຖືກທ້າທາຍ, ແຕ່ມັນຍັງຄົງເປັນເລື່ອງຍາກສໍາລັບ Nvidia ທີ່ຈະໄດ້ຮັບການທົດແທນຢ່າງເຕັມສ່ວນໃນສະຖານະການການຝຶກອົບຮົມ. ການວິເຄາະການນໍາໃຊ້ CUDA ເລິກຂອງ DeepSeek ສະແດງໃຫ້ເຫັນວ່າຄວາມຍືດຫຍຸ່ນ - ເຊັ່ນການໃຊ້ SM ສໍາລັບການສື່ສານຫຼືການຈັດການບັດເຄືອຂ່າຍໂດຍກົງ - ບໍ່ເປັນໄປໄດ້ສໍາລັບ GPU ປົກກະຕິເພື່ອຮອງຮັບ. ທັດສະນະຂອງອຸດສາຫະກໍາເນັ້ນຫນັກວ່າ moat ຂອງ Nvidia ກວມເອົາລະບົບນິເວດ CUDA ທັງຫມົດແທນທີ່ຈະເປັນພຽງແຕ່ CUDA ເອງ, ແລະຄໍາແນະນໍາ PTX (Parallel Thread Execution) ທີ່ DeepSeek ຈ້າງແມ່ນຍັງເປັນສ່ວນຫນຶ່ງຂອງລະບົບນິເວດ CUDA. "ໃນໄລຍະສັ້ນ, ພະລັງງານຄອມພິວເຕີ້ຂອງ Nvidia ບໍ່ສາມາດຂ້າມຜ່ານໄດ້ - ນີ້ແມ່ນຄວາມຊັດເຈນໂດຍສະເພາະໃນການຝຶກອົບຮົມ; ແນວໃດກໍ່ຕາມ, ການໃຊ້ບັດພາຍໃນປະເທດສໍາລັບການສົມເຫດສົມຜົນຈະຂ້ອນຂ້າງງ່າຍຂຶ້ນ, ດັ່ງນັ້ນຄວາມກ້າວຫນ້າຈະໄວກວ່າ. ໂດຍລວມ, ຈາກທັດສະນະ inference, ສະຖານະການແມ່ນຊຸກຍູ້ໃຫ້ຊິບຮູບແບບຂະຫນາດໃຫຍ່ພາຍໃນປະເທດ. ໂອກາດສໍາລັບຜູ້ຜະລິດຊິບພາຍໃນປະເທດພາຍໃນຂອບເຂດຂອງ inference ແມ່ນເຫັນໄດ້ຊັດເຈນຫຼາຍຂຶ້ນຍ້ອນຄວາມຕ້ອງການທີ່ສູງເກີນໄປຂອງການຝຶກອົບຮົມ, ເຊິ່ງຂັດຂວາງການເຂົ້າມາ. ນັກວິເຄາະເຫັນວ່າ, ພຽງແຕ່ການນຳໃຊ້ບັດອະພິປາຍພາຍໃນປະເທດກໍພຽງພໍແລ້ວ; ຖ້າຈໍາເປັນ, ການໄດ້ຮັບເຄື່ອງຈັກເພີ່ມເຕີມແມ່ນເປັນໄປໄດ້, ໃນຂະນະທີ່ແບບຈໍາລອງການຝຶກອົບຮົມເຮັດໃຫ້ເກີດສິ່ງທ້າທາຍທີ່ເປັນເອກະລັກ - ການຄຸ້ມຄອງຈໍານວນເຄື່ອງຈັກທີ່ເພີ່ມຂຶ້ນສາມາດກາຍເປັນພາລະຫນັກ, ແລະອັດຕາຄວາມຜິດພາດທີ່ສູງຂຶ້ນສາມາດສົ່ງຜົນກະທົບທາງລົບຕໍ່ຜົນຂອງການຝຶກອົບຮົມ. ການຝຶກອົບຮົມຍັງມີຄວາມຕ້ອງການຂະຫນາດກຸ່ມສະເພາະ, ໃນຂະນະທີ່ຄວາມຕ້ອງການຂອງກຸ່ມສໍາລັບການ inference ແມ່ນບໍ່ເຂັ້ມງວດ, ດັ່ງນັ້ນການຫຼຸດຜ່ອນຄວາມຕ້ອງການ GPU. ໃນປັດຈຸບັນ, ປະສິດທິພາບຂອງບັດ H20 ດຽວຂອງ Nvidia ບໍ່ລື່ນກາຍຂອງ Huawei ຫຼື Cambrian; ຄວາມເຂັ້ມແຂງຂອງມັນແມ່ນຢູ່ໃນກຸ່ມ. ອີງຕາມຜົນກະທົບໂດຍລວມຂອງຕະຫຼາດພະລັງງານຄອມພິວເຕີ້, ຜູ້ກໍ່ຕັ້ງຂອງ Luchen Technology, You Yang, ສັງເກດເຫັນໃນການສໍາພາດກັບ AI Technology Review, "DeepSeek ອາດຈະທໍາລາຍການສ້າງຕັ້ງແລະການເຊົ່າກຸ່ມຄອມພິວເຕີ້ການຝຶກອົບຮົມທີ່ມີຂະຫນາດໃຫຍ່ທີ່ສຸດຊົ່ວຄາວ. ຊຸກຍູ້ຄວາມຕ້ອງການທີ່ຍືນຍົງໃນຕະຫຼາດພະລັງງານຄອມພິວເຕີ້." ນອກຈາກນັ້ນ, "ຄວາມຕ້ອງການທີ່ເພີ່ມຂຶ້ນຂອງ DeepSeek ສໍາລັບການບໍລິການສົມເຫດສົມຜົນແລະການປັບໄຫມແມ່ນເຂົ້າກັນໄດ້ກັບພູມສັນຖານຄອມພິວເຕີ້ພາຍໃນປະເທດ, ບ່ອນທີ່ຄວາມສາມາດໃນທ້ອງຖິ່ນຂ້ອນຂ້າງອ່ອນເພຍ, ຊ່ວຍຫຼຸດຜ່ອນສິ່ງເສດເຫຼືອຈາກຊັບພະຍາກອນທີ່ບໍ່ມີປະໂຫຍດຫຼັງຈາກການສ້າງຕັ້ງກຸ່ມ; ນີ້ສ້າງໂອກາດທີ່ເປັນໄປໄດ້ສໍາລັບຜູ້ຜະລິດໃນທົ່ວລະດັບຕ່າງໆຂອງລະບົບນິເວດຄອມພິວເຕີ້ພາຍໃນ." ເທັກໂນໂລຍີ Luchen ໄດ້ຮ່ວມມືກັບ Huawei Cloud ເພື່ອເປີດຕົວ APIs ການໃຫ້ເຫດຜົນຊຸດ DeepSeek R1 ແລະການບໍລິການຮູບພາບຄລາວໂດຍອີງໃສ່ພະລັງງານການຄິດໄລ່ພາຍໃນ. ທ່ານ Yang ສະແດງຄວາມຄິດໃນແງ່ດີກ່ຽວກັບອະນາຄົດວ່າ: "DeepSeek ໄດ້ສ້າງຄວາມໝັ້ນໃຈໃນການແກ້ໄຂທີ່ຜະລິດພາຍໃນປະເທດ, ຊຸກຍູ້ຄວາມກະຕືລືລົ້ນແລະການລົງທຶນໃນຄວາມສາມາດດ້ານຄອມພິວເຕີພາຍໃນປະເທດກ້າວໄປໜ້າ."

ສະຫຼຸບ
ບໍ່ວ່າ DeepSeek ແມ່ນ "ດີ" ກ່ວາ ChatGPT ແມ່ນຂຶ້ນກັບຄວາມຕ້ອງການສະເພາະແລະຈຸດປະສົງຂອງຜູ້ໃຊ້. ສໍາລັບວຽກງານທີ່ຕ້ອງການຄວາມຍືດຫຍຸ່ນ, ຄ່າໃຊ້ຈ່າຍຕ່ໍາ, ແລະການປັບແຕ່ງ, DeepSeek ອາດຈະດີກວ່າ. ສໍາລັບການຂຽນສ້າງສັນ, ການສອບຖາມທົ່ວໄປ, ແລະການໂຕ້ຕອບການສົນທະນາທີ່ເປັນມິດກັບຜູ້ໃຊ້, ChatGPT ອາດຈະນໍາຫນ້າ. ແຕ່ລະເຄື່ອງມືຮັບໃຊ້ຈຸດປະສົງທີ່ແຕກຕ່າງກັນ, ດັ່ງນັ້ນທາງເລືອກຫຼາຍຈະຂຶ້ນກັບສະພາບການທີ່ພວກມັນຖືກນໍາໃຊ້.
ສາຍຄວບຄຸມ
ລະບົບສາຍໄຟທີ່ມີໂຄງສ້າງ
ເຄືອຂ່າຍ&ຂໍ້ມູນ, ສາຍ Fiber-Optic, Patch Cord, Modules, Faceplate
ວັນທີ 16-18 ເມສາ 2024 ພະລັງງານຕາເວັນອອກກາງໃນດູໄບ
ວັນທີ 16-18 ເມສາ 2024 Securika ໃນ Moscow
ວັນທີ 9 ພຶດສະພາ 2024 ງານເປີດຕົວຜະລິດຕະພັນ ແລະເທັກໂນໂລຍີໃໝ່ຢູ່ຊຽງໄຮ
ວັນທີ 22-25 ຕຸລາ 2024 ທີ່ນະຄອນຫຼວງປັກກິ່ງ
ວັນທີ 19-20 ພະຈິກ 2024 ເຊື່ອມຕໍ່ KSA ໂລກ
ເວລາປະກາດ: Feb-10-2025