DeepSeek: ການລົບກວນຫນຶ່ງທີ່ມີການປ່ຽນແປງທິວທັດ AI

Group Aipu Wonon

ການແນະນໍາ

ຄວາມກັງວົນທີ່ກໍາລັງດໍາເນີນຢູ່ໃນບັນດາຕົວແບບໃຫຍ່ໆ, ຜູ້ໃຫ້ບໍລິການຟັງໄດ້ແຂ່ງຂັນສໍາລັບສ່ວນແບ່ງຕະຫລາດ, ແລະຜູ້ຜະລິດຊິບຮາດດິດ - The Deeptseek Effect

ໃນຂະນະທີ່ງານບຸນລະດູໃບໄມ້ປົ່ງມາໃກ້, ຄວາມຕື່ນເຕັ້ນທີ່ຫນ້າຕື່ນເຕັ້ນໃນ DeepSeek ຍັງຄົງແຂງແຮງຢູ່. ວັນພັກຜ່ອນທີ່ຜ່ານມາໄດ້ຊີ້ໃຫ້ເຫັນເຖິງຄວາມຮູ້ສຶກທີ່ສໍາຄັນຂອງການແຂ່ງຂັນພາຍໃນອຸດສາຫະກໍາເຕັກໂນໂລຢີ, ໂດຍມີການສົນທະນາແລະການວິເຄາະແລະວິເຄາະ "ປາດຸກນີ້." Silicon Valley ກໍາລັງປະສົບກັບຄວາມຮູ້ສຶກຂອງວິກິດການທີ່ບໍ່ເຄີຍມີມາກ່ອນ ການສູນເສຍຕ່ອງໂສ້ຕ່ໍາໃນບັນດາປະຫວັດຄວາມເປັນມາຂອງຕະຫຼາດຊິບຂອງສະຫະລັດ, ໃນຂະນະທີ່ອົງການຕ່າງໆຂອງສະຫະລັດກໍາລັງສືບສວນປະຕິບັດຕາມຂອງຊິບທີ່ໃຊ້ໂດຍ DeepSeek. ທ່າມກາງການທົບທວນແບບປະສົມຂອງ DeepSeek ຢູ່ຕ່າງປະເທດ, ພາຍໃນປະເທດ, ມັນກໍາລັງປະສົບການເຕີບໂຕທີ່ແປກປະຫຼາດ. ຫຼັງຈາກເປີດຕົວຮູບແບບ R1, ແອັບທີ່ກ່ຽວຂ້ອງໄດ້ເຫັນການຈະລາຈອນທີ່ເພີ່ມຂື້ນ, ສະແດງວ່າການຂະຫຍາຍຕົວຂອງຂະແຫນງການສະຫມັກແມ່ນຂັບເຄື່ອນລະບົບນິເວດວິທະຍາໂດຍລວມ. ລັກສະນະໃນແງ່ບວກແມ່ນວ່າ DeepSeeK ຈະເປີດກວ້າງຄວາມເປັນໄປໄດ້ຂອງການສະຫມັກ, ແນະນໍາວ່າການຕອບສະຫນອງຕໍ່ການສົນທະນາຈະບໍ່ແພງໃນອະນາຄົດ. ການປ່ຽນແປງນີ້ໄດ້ສະທ້ອນໃຫ້ເຫັນໃນກິດຈະກໍາທີ່ຜ່ານມາຂອງ Openai, ລວມທັງການສະຫນອງຂອງຕົວແບບທີ່ມີຊື່ວ່າ O3-mini ທີ່ໄດ້ຮັບການຍົກລະດັບຕໍ່ມາເຊິ່ງເຮັດໃຫ້ລະບົບຕ່ອງໂສ້ຄວາມຄິດຂອງສາທາລະນະ O3-mini. ຜູ້ໃຊ້ຢູ່ຕ່າງປະເທດຫຼາຍຄົນສະແດງຄວາມຮູ້ບຸນຄຸນຕໍ່ DeepSeek ສໍາລັບການພັດທະນາເຫຼົ່ານີ້, ເຖິງແມ່ນວ່າຕ່ອງໂສ້ການຄິດນີ້ເຮັດຫນ້າທີ່ເປັນບົດສະຫຼຸບ.

Optimistically, ມັນແມ່ນເຫັນໄດ້ວ່າ DeepSeek ແມ່ນການເປັນເອກະພາບຂອງຜູ້ຫຼິ້ນພາຍໃນປະເທດ. ດ້ວຍຄວາມເອົາໃຈໃສ່ໃນການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການຝຶກອົບຮົມ, ຜູ້ໃຫ້ບໍລິການ chip ທີ່ມີຜູ້ເຊົ່າຕ່າງໆ, ແລະການເລີ່ມຕົ້ນທີ່ມີປະສິດຕິພາບສູງຂື້ນ, ເສີມຂະຫຍາຍປະສິດທິພາບດ້ານຕົ້ນທຶນສໍາລັບການນໍາໃຊ້ຮູບແບບ DeepSeek. ອີງຕາມເອກະສານຂອງ PROPSEEK, ການຝຶກແອບແບບຄົບຊຸດຂອງ V3 Model ຕ້ອງໃຊ້ເວລາພຽງແຕ່ 2.788 ລ້ານຊົ່ວໂມງ GPU, ແລະຂະບວນການຝຶກອົບຮົມແມ່ນມີຄວາມຫມັ້ນຄົງສູງ. moe (ປະສົມຂອງຜູ້ຊ່ຽວຊານ) ສະຖາປັດຕະຍະກໍາແມ່ນມີຄວາມສໍາຄັນສໍາລັບການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການຝຶກອົບຮົມກ່ອນການຝຶກອົບຮົມໂດຍປັດໄຈສິບປີທີ່ທຽບໃສ່ກັບ llama 3 ກັບ 405 ພັນລ້ານ. ປະຈຸບັນ, V3 ແມ່ນຮູບແບບທີ່ຖືກຮັບຮູ້ຄັ້ງທໍາອິດທີ່ສະແດງໃຫ້ເຫັນ Sparsity ສູງດັ່ງກ່າວໃນ Moe. ນອກຈາກນັ້ນ, MLA ໄດ້ (Multi ເອົາໃຈໃສ່) ເຮັດວຽກເປັນແບບສະເພາະ, ໂດຍສະເພາະໃນແງ່ດີໃນແງ່ມຸມ. "The Sparser The Moe, ຂະຫນາດທີ່ມີຄວາມຈໍາເປັນຕ້ອງໄດ້ນໍາໃຊ້ຂະຫນາດທີ່ຈໍາກັດຢ່າງເຕັມທີ່," ຄວາມສໍາເລັດໂດຍລວມແລ້ວ, ຄວາມສໍາເລັດຂອງ DeepSeeEk ແມ່ນຢູ່ໃນການປະສົມປະສານຂອງເຕັກໂນໂລຢີຕ່າງໆ, ບໍ່ແມ່ນພຽງແຕ່ດຽວເທົ່ານັ້ນ. ຜູ້ພາຍໃນອຸດສາຫະກໍາສັນລະເສີນຄວາມສາມາດດ້ານວິສະວະກໍາຂອງທີມງານ DeepSeek, ສັງເກດຄວາມດີເລີດຂອງພວກເຂົາໃນການຝຶກອົບຮົມຂະຫນານແລະການເພີ່ມປະສິດທິພາບຂອງຜູ້ປະຕິບັດການໂດຍການປະຕິບັດການຜົນໄດ້ຮັບໂດຍການປັບປຸງທຸກລາຍລະອຽດ. ວິທີການເປີດແຫຼ່ງຂໍ້ມູນຂອງ DeepSeeK ເພີ່ມເຕີມການພັດທະນາໂດຍລວມຂອງຕົວແບບໃຫຍ່, ແລະມັນໄດ້ຖືກຂະຫຍາຍອອກໄປໃນຮູບພາບ, ວີດີໂອ, ມັນຈະຊ່ວຍໃຫ້ຄວາມຕ້ອງການໃນທົ່ວອຸດສາຫະກໍາ.

ໂອກາດສໍາລັບການບໍລິການສົມເຫດສົມຜົນຂອງພາກສ່ວນທີສາມ

ຂໍ້ມູນສະແດງໃຫ້ເຫັນວ່ານັບຕັ້ງແຕ່ການປ່ອຍຕົວຂອງມັນ, DeepSek ໄດ້ເພີ່ມຂື້ນໃນເວລາພຽງ 21,6 ລ້ານຄົນຂອງຜູ້ໃຊ້ທີ່ມີການຂະຫຍາຍຕົວຢ່າງໄວວາ, ການເຂົ້າໄປໃນ Apple App Store ໃນ 157 ປະເທດ / ພາກພື້ນ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ໃນຂະນະທີ່ຜູ້ໃຊ້ໄດ້ລົ້ມລົງໃນການຂັບຂີ່ເຮືອ, ແຮກເກີສາມາດໂຈມຕີຢ່າງບໍ່ຢຸດຢັ້ງແອັບ deeptlesse, ເຊິ່ງກໍ່ໃຫ້ເກີດຄວາມກົດດັນທີ່ສໍາຄັນຢູ່ໃນເຊີບເວີຂອງມັນ. ນັກວິເຄາະອຸດສາຫະກໍາເຊື່ອວ່າສິ່ງນີ້ແມ່ນບາງສ່ວນຍ້ອນ DeepSeeK ການໃຊ້ບັດສໍາລັບການຝຶກອົບຮົມໃນຂະນະທີ່ຂາດຄວາມສົມເຫດສົມຜົນ. ອຸດສາຫະກໍາການທົບທວນກ່ຽວກັບເຕັກໂນໂລຢີ AI, "ຄ່າທໍານຽມການສາກໄຟແບບງ່າຍດາຍໂດຍການສົ່ງຄ່າທໍານຽມຫຼືການເງິນເພື່ອຊື້ເຄື່ອງຈັກເພີ່ມເຕີມ; ມັນຂື້ນກັບການຕັດສິນໃຈຂອງ DeepSeek." ສິ່ງນີ້ສະເຫນີການຄ້າເພື່ອສຸມໃສ່ເຕັກໂນໂລຢີທຽບກັບຜະລິດຕະພັນ. DeepSek ໄດ້ເພິ່ງພາອາໄສປະລິມານສ່ວນໃຫຍ່ໃນການປະເມີນ Quantum ສໍາລັບຕົນເອງ, ໄດ້ຮັບເງິນທຶນຈາກພາຍນອກພຽງເລັກນ້ອຍ, ເຊິ່ງໄດ້ຮັບຄວາມກົດດັນດ້ານກະແສເງິນສົດທີ່ຂ້ອນຂ້າງແລະສະພາບແວດລ້ອມທີ່ຂ້ອນຂ້າງຕໍ່າ. ປະຈຸບັນ, ໃນຄວາມສະຫວ່າງຂອງບັນຫາທີ່ກ່າວມານັ້ນ, ຜູ້ໃຊ້ບາງຄົນກໍາລັງເລັ່ງເລິກໃນສື່ສັງຄົມຫຼືແນະນໍາຄຸນລັກສະນະຂອງການນໍາໃຊ້ເພື່ອຍົກສູງຄວາມສະບາຍຂອງຜູ້ໃຊ້. ນອກຈາກນັ້ນ, ນັກພັດທະນາໄດ້ເລີ່ມຕົ້ນການນໍາໃຊ້ API ທີ່ເປັນທາງການຫຼື apis ພາກສ່ວນທີສາມສໍາລັບການເພີ່ມປະສິດທິພາບ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ເວທີເປີດຂອງ DeepSeek ໄດ້ປະກາດເມື່ອບໍ່ດົນມານີ້, "ຊັບພະຍາກອນຂອງເຊີບເວີໃນປະຈຸບັນແມ່ນການສາກໄຟດ້ານການບໍລິການທີ່ຂາດແຄນ, ແລະ API ໄດ້ຖືກໂຈະ."

 

ແນ່ນອນນີ້ເປີດໂອກາດໃຫ້ຜູ້ຂາຍພາກສ່ວນທີສາມໃນຂະແຫນງການພື້ນຖານໂຄງລ່າງ AI. ເມື່ອບໍ່ດົນມານີ້, ຍັກໃຫຍ່ຟັງສາກົນໃນບ້ານແລະສາກົນໄດ້ເປີດຕົວຮູບແບບ Apis-apiseas ຂອງ Giants Giants ຂອງ Giants Giantsas Giantsas ແລະ Amazon ແມ່ນຫນຶ່ງໃນທ້າຍເດືອນມັງກອນ. ການກວດສອບການບໍລິການຂອງຜູ້ໃຫ້ບໍລິການ Silicon R1 ແລະ V3 ໄດ້ເຫັນວ່າມີການບໍລິການດ້ານເຕັກໂນໂລຢີ Silicon. ການສະເຫນີຂາຍລາຄາສິນຄ້າ 3 ແຫ່ງທີ່ມີຄ່າໃຊ້ຈ່າຍໃນວັນທີ 3 ເດືອນກຸມພາ, ບ່ອນທີ່ DeepSeek ເລີ່ມຕົ້ນທີ່ຈະຖືກຂະຫນານນາມວ່າ "butcher ລາຄາ." ການກະທໍາທີ່ບໍ່ຖືກຕ້ອງຂອງຜູ້ຂາຍຟັງໄດ້ຮັບການລົງທືນທີ່ແຂງແຮງກ່ອນຫນ້ານີ້ໃນການເປີດຕົວຂອງ Meta. ໃນຕົວຢ່າງນີ້, DeepSeEK ບໍ່ພຽງແຕ່ໄດ້ລື່ນກາຍສົນທິສັນຍາຄວາມຮ້ອນຂອງຜະລິດຕະພັນແຕ່ກໍ່ຄ້າຍຄືກັບການປ່ອຍຕົວ O1 ທີ່ຄ້າຍຄືກັບການຟື້ນຟູ O1 ທີ່ຢູ່ອ້ອມຮອບການຟື້ນຟູຂອງ LLAMA ຂອງ GPT-3.

 

ໃນຄວາມເປັນຈິງແລ້ວ, ຜູ້ໃຫ້ບໍລິການ Cloud ກໍ່ກໍາລັງຈັດວາງຕົວເອງໃນຂະນະທີ່ Gateways ການຈະລາຈອນສໍາລັບການສະຫມັກ AI, ຫມາຍຄວາມວ່າເລິກເຊິ່ງທີ່ຈະແປເປັນຂໍ້ດີຂອງ preempers. ບົດລາຍງານຊີ້ໃຫ້ເຫັນວ່າ Baidu Smart Cloud ມີລູກຄ້າຫລາຍກວ່າ 15,000 ຄົນທີ່ໃຊ້ຕົວແບບ DeepSeek ຜ່ານເວທີ Qianfan ໃນມື້ເປີດຕົວແບບ. ນອກຈາກນັ້ນ, ບັນດາບໍລິສັດນ້ອຍໆຫຼາຍຢ່າງກໍາລັງສະເຫນີວິທີແກ້ໄຂ, ລວມທັງເຕັກໂນໂລຢີ Silchen, Technol ເທັກໂນໂລຢີ, ແລະຜູ້ໃຫ້ບໍລິການຕ່າງໆຂອງ Ai ການທົບທວນເຕັກໂນໂລຢີ AI ໄດ້ຮຽນຮູ້ວ່າໂອກາດທີ່ດີທີ່ສຸດໃນປະຈຸບັນສໍາລັບການນໍາໃຊ້ວິທີການທີ່ມີເຫດຜົນຕົ້ນຕໍ ນອກຈາກນັ້ນ, ການເພີ່ມປະສິດທິພາບຂອງ MLA ແມ່ນສໍາຄັນທີ່ສຸດ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ທຸກໆແບບຂອງ DeepSeek ຍັງປະເຊີນກັບສິ່ງທ້າທາຍບາງຢ່າງໃນການເພີ່ມປະສິດທິພາບ. "ເນື່ອງຈາກຂະຫນາດຂອງຕົວແບບແລະຕົວເລກທີ່ດີທີ່ສຸດ, ການເພີ່ມປະສິດທິພາບໃນບ່ອນທີ່ໄດ້ຮັບການສະຫນັບສະຫນູນດ້ານການສຶກສາແລະຄ່າໃຊ້ຈ່າຍໃນເຕັກໂນໂລຢີ Chuanjing. ຄວາມຂີ້ຕົວະທີ່ສໍາຄັນທີ່ສຸດໃນການເອົາຊະນະຂີດຈໍາກັດຄວາມຈໍາ. "ພວກເຮົາຮັບຮອງເອົາວິທີການການຮ່ວມມືດ້ານເຊື້ອສາຍແລະຊັບພະຍາກອນອື່ນໆທີ່ບໍ່ມີການປ່ຽນແປງໂດຍໃຊ້ GPU ທີ່ຫນາແຫນ້ນຢູ່ໃນ GPU," ລາວໄດ້ອະທິບາຍຕື່ມອີກ. ບົດລາຍງານບັນທຶກວ່າ KTransformers Open-Source Ktransferers ຕົ້ນຕໍແມ່ນການຈັດຕັ້ງປະຕິບັດຍຸດທະສາດແລະການຈັດຕັ້ງປະຕິບັດຄວາມໄວໃນການນໍາໃຊ້ວິທີການຕ່າງໆເຊັ່ນ Cudagraph. DeepSeek ໄດ້ສ້າງໂອກາດສໍາລັບການເລີ່ມຕົ້ນເຫຼົ່ານີ້, ຍ້ອນວ່າຜົນປະໂຫຍດການເຕີບໃຫຍ່ກໍາລັງຈະມາເຖິງ; ບັນດາບໍລິສັດຈໍານວນຫລວງຫລາຍໄດ້ລາຍງານການເຕີບໂຕຂອງລູກຄ້າທີ່ສັງເກດເຫັນຫຼັງຈາກທີ່ເປີດຕົວ DeepSeek API, ໄດ້ຮັບການສອບຖາມຈາກລູກຄ້າກ່ອນຫນ້າທີ່ກໍາລັງຊອກຫາການເພີ່ມປະສິດທິພາບ. ຜູ້ທີ່ໄດ້ຮັບການສະຫນັບສະຫນູນຈາກງານລ້ຽງທີ່ມີຄວາມຮູ້ສຶກຢ່າງກະທັນຫັນຈາກງານລ້ຽງທີ່ມີຄວາມຮູ້ສຶກສູງຂື້ນເລື້ອຍໆ, ແຕ່ວ່າລູກຄ້າທີ່ມີຊື່ສຽງຂອງພວກເຂົາ. ໃນປະຈຸບັນ, ມັນປະກົດວ່າ DeepSeek ກໍາລັງເຮັດໃຫ້ການປະຕິບັດງານທີ່ມີຄວາມສໍາຄັນຫຼາຍຂື້ນ, ແລະພ້ອມດ້ວຍການຮັບຮອງເອົາຕົວແບບໃຫຍ່ໆ, ແລະມີອາການສືບຕໍ່ມີອິດທິພົນຕໍ່ອຸດສາຫະກໍາ AI ທີ່ມີຄວາມຫມາຍຢ່າງຫຼວງຫຼາຍ. ຖ້າມີຮູບແບບລະດັບ DeepSeeEk ສາມາດນໍາໃຊ້ໃນທ້ອງຖິ່ນໃນລາຄາຖືກ, ມັນຈະຊ່ວຍໃຫ້ຄວາມພະຍາຍາມໃນການປ່ຽນແປງດິຈິຕອນທີ່ຕໍ່າແລະວິສາຫະກິດ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ສິ່ງທ້າທາຍທີ່ຍັງຄົງຄ້າງ, ຄືກັບຄວາມຄາດຫວັງສູງກ່ຽວກັບຄວາມສາມາດຂອງຕົວແບບໃຫຍ່, ເຮັດໃຫ້ມັນເບິ່ງຄືວ່າສົມດຸນກັບການປະຕິບັດແລະຄ່າໃຊ້ຈ່າຍທີ່ສໍາຄັນໃນການປະຕິບັດຕົວຈິງ. 

ເພື່ອປະເມີນວ່າ DeepSeeK ແມ່ນດີກ່ວາ Chatgpt, ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະເຂົ້າໃຈຄວາມແຕກຕ່າງ, ຄວາມເຂັ້ມແຂງຂອງພວກເຂົາ, ແລະໃຊ້ກໍລະນີ. ນີ້ແມ່ນການປຽບທຽບທີ່ສົມບູນແບບ:

ຄຸນນະສົມບັດ / ດ້ານ DeepSeek ChatGPT
ຄວາມເປັນເຈົ້າຂອງ ພັດທະນາໂດຍບໍລິສັດຈີນ ພັດທະນາໂດຍ Operai
ແບບຈໍາລອງ ເປີດແຫຼ່ງ ທີ່ເປັນເຈົ້າຫນ້າເຫຼື້ອມ
ຄ່າ ບໍ່ເສຍຄ່າໃຊ້ຈ່າຍ; ຕົວເລືອກການເຂົ້າເຖິງ API ທີ່ມີລາຄາຖືກກວ່າ API ການສະຫມັກໃຊ້ຫຼືຄ່າລາຄາທີ່ຈ່າຍໃຫ້
ການປັບແຕ່ງ ສາມາດປັບແຕ່ງໄດ້ສູງ, ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ສາມາດປັບແຕ່ງໄດ້ແລະກໍ່ສ້າງຕາມມັນ ການປັບແຕ່ງທີ່ຈໍາກັດທີ່ມີຢູ່
ການປະຕິບັດງານໃນວຽກງານສະເພາະ ດີເລີດໃນບາງພື້ນທີ່ເຊັ່ນ: ການວິເຄາະຂໍ້ມູນແລະຂໍ້ມູນຄືນ ສົມບູນດ້ວຍການປະຕິບັດທີ່ເຂັ້ມແຂງໃນວຽກງານການຂຽນທີ່ສ້າງສັນແລະການສົນທະນາ
ສະຫນັບສະຫນູນພາສາ ຈຸດສຸມທີ່ເຂັ້ມແຂງກ່ຽວກັບພາສາຈີນແລະວັດທະນະທໍາ ສະຫນັບສະຫນູນພາສາຢ່າງກວ້າງຂວາງແຕ່ US-Centric
ຄ່າຝຶກອົບຮົມ ຄ່າໃຊ້ຈ່າຍໃນການຝຶກອົບຮົມຂັ້ນຕ່ໍາ, ເຫມາະສໍາລັບປະສິດທິພາບ ຄ່າໃຊ້ຈ່າຍໃນການຝຶກອົບຮົມທີ່ສູງກວ່າ, ຮຽກຮ້ອງໃຫ້ມີຊັບພະຍາກອນຄອມພິວເຕີ້ຈໍານວນຫຼວງຫຼາຍ
ການປ່ຽນແປງຂອງການຕອບໂຕ້ ອາດຈະໃຫ້ຄໍາຕອບທີ່ແຕກຕ່າງກັນ, ເປັນທີ່ໄດ້ຮັບຜົນກະທົບຈາກສະພາບການດ້ານພູມສາດ ຄໍາຕອບທີ່ສອດຄ່ອງໂດຍອີງໃສ່ຂໍ້ມູນການຝຶກອົບຮົມ
ຜູ້ຊົມເປົ້າຫມາຍ ແນໃສ່ນັກພັດທະນາແລະນັກຄົ້ນຄວ້າຕ້ອງການຄວາມຍືດຫຍຸ່ນ ແນໃສ່ຜູ້ໃຊ້ທົ່ວໄປຊອກຫາຄວາມສາມາດໃນການສົນທະນາ
ໃຊ້ກໍລະນີ ມີປະສິດທິພາບຫຼາຍສໍາລັບການຜະລິດລະຫັດແລະວຽກງານດ່ວນ ທີ່ເຫມາະສົມສໍາລັບການສ້າງຂໍ້ຄວາມ, ຕອບຄໍາຖາມ, ແລະມີສ່ວນຮ່ວມໃນການສົນທະນາ

ທັດສະນະທີ່ສໍາຄັນກ່ຽວກັບ "ການລົບກວນ Nvidia"

ໃນປະຈຸບັນ, ນອກເຫນືອຈາກ Huawei, ຜູ້ຜະລິດຊິບປະຢັດໃນປະເທດ, MOORE, MUXI, ເຕັກໂນໂລຢີ BiRan, ແລະ Tianxu Zhixin ຍັງໄດ້ຮັບການປັບຕົວເຂົ້າກັບສອງແບບຂອງ DeepSeek. ຜູ້ຜະລິດຊິບໄດ້ບອກການທົບທວນກ່ຽວກັບເຕັກໂນໂລຢີ AI, "ແຕ່ມັນຍັງຄົງເປັນ llm. ເຖິງຢ່າງໃດກໍ່ຕາມ, ວິທີການຂອງ MOE ຮຽກຮ້ອງໃຫ້ມີຄວາມຕ້ອງການສູງຂື້ນໃນແງ່ຂອງການເກັບຮັກສາແລະການແຈກຢາຍດ້ວຍຄວາມເຂົ້າໃຈໃນເຮືອນ, ນໍາສະເຫນີສິ່ງທ້າທາຍດ້ານວິສະວະກໍາທີ່ຕ້ອງການຄວາມລະອຽດໃນລະຫວ່າງການປັບຕົວ. "ປະຈຸບັນ, ອໍານາດຄອມພິວເຕີ້ພາຍໃນປະເທດບໍ່ກົງກັບ Nvidia ໃນການໃຊ້ງານແລະສະຖຽນລະພາບສໍາລັບການຕິດຕັ້ງສິ່ງແວດລ້ອມ, ແລະການປະຕິບັດການປ້ອງກັນໂດຍບັງຄັບໃຊ້ໃນປະສົບການຕົວຈິງ. ພ້ອມດຽວກັນ, "ເນື່ອງຈາກຂະຫນາດພາລາມິເຕີຂະຫນາດໃຫຍ່ຂອງພະລັງງານຄອມພິວເຕີ້ທີ່ມີຂະຫນາດໃຫຍ່. ນອກຈາກນັ້ນ, ປະຈຸບັນແມ່ນຢູ່ເບື້ອງຫຼັງ; ຫນຶ່ງໃນຈຸດເດັ່ນຂອງຮູບແບບ DeepSeek V3 ແມ່ນການແນະນໍາກ່ຽວກັບກອບການຝຶກອົບຮົມແບບປະສົມ FP8, ເຊິ່ງໄດ້ຮັບການຢັ້ງຢືນຢ່າງມີປະສິດທິຜົນໃນຮູບແບບໃຫຍ່ທີ່ສຸດ, ເຊິ່ງເປັນຜົນສໍາເລັດທີ່ສໍາຄັນ. ກ່ອນຫນ້ານີ້, ຜູ້ຫຼິ້ນທີ່ສໍາຄັນເຊັ່ນ Microsoft ແລະ Nvidia ແນະນໍາວຽກທີ່ກ່ຽວຂ້ອງ, ແຕ່ບໍ່ມີຄວາມສົງໃສໃນອຸດສາຫະກໍາກ່ຽວກັບຄວາມເປັນໄປໄດ້ກ່ຽວກັບຄວາມເປັນໄປໄດ້. ມັນເຂົ້າໃຈວ່າເມື່ອທຽບໃສ່ກັບປະໂຫຍດຕົ້ນຕໍຂອງ INT8, FP8 ແມ່ນວ່າປະລິມານການຝຶກອົບຮົມສາມາດບັນລຸຄວາມແມ່ນຍໍາທີ່ບໍ່ມີການປ່ຽນແປງໄດ້ຢ່າງຫຼວງຫຼາຍໃນຂະນະທີ່ເພີ່ມຄວາມໄວໃນຂະນະທີ່ເພີ່ມຄວາມໄວໃນຂະນະທີ່ຊ່ວຍໃຫ້ຄວາມໄວສູງ. ເມື່ອປຽບທຽບກັບ FP16, FP8 ສາມາດຮັບຮູ້ເຖິງການເລັ່ງ 2 ຄັ້ງໃນ H20 ຂອງ Nvidia ແລະໃນໄລຍະ 1,5 ເທື່ອໃນໄລຍະ H100. ໂດຍສະເພາະ, ຍ້ອນວ່າການສົນທະນາທີ່ຢູ່ອ້ອມຂ້າງແນວໂນ້ມຂອງພະລັງງານຄອມພິວເຕີ້ພາຍໃນປະເທດບວກກັບ Moveum ໄດ້ຮັບຄວາມເດືອດຮ້ອນ, ແລະບໍ່ວ່າຈະເປັນທີ່ນິຍົມຂອງ Cuda ສາມາດແຜ່ລາມໄດ້ ຄວາມຈິງທີ່ບໍ່ສາມາດປະຕິເສດໄດ້ວ່າ DeepSeek ໄດ້ເກີດມາຈາກການຫຼຸດລົງຂອງຕະຫຼາດຂອງ NVIDIA ຢ່າງຫຼວງຫຼາຍ, ແຕ່ວ່າການປ່ຽນແປງຄັ້ງນີ້ເຮັດໃຫ້ມີຄໍາຖາມກ່ຽວກັບຄວາມຊື່ສັດດ້ານອໍານາດຂອງ Nvidia. ການຈົດບັນຍາຍທີ່ຍອມຮັບໃນເມື່ອກ່ອນຖືວ່າການສະສົມຄອມພິວເຕີ້ທີ່ມີການສະຫນັບສະຫນູນໂດຍກົງກໍາລັງຖືກທ້າທາຍ, ແຕ່ມັນຍັງມີຄວາມຫຍຸ້ງຍາກໃນການປ່ຽນແທນສະຖານະການການຝຶກອົບຮົມຢ່າງເຕັມສ່ວນ. ການວິເຄາະການນໍາໃຊ້ທີ່ເລິກຂອງ DeepSeek ສະແດງໃຫ້ເຫັນວ່າຄວາມຍືດຫຍຸ່ນ - ເຊັ່ນ: ການໃຊ້ SM ສໍາລັບການສື່ສານຫຼືການຕັດສິນໃຈໂດຍກົງສໍາລັບ gpus ປົກກະຕິເພື່ອຮອງຮັບ. ມຸມມອງຂອງອຸດສາຫະກໍາໄດ້ເນັ້ນຫນັກວ່າ Moat ຂອງ Nvidia ລວມເອົາລະບົບນິເວດຂອງ Nvidia ຫຼາຍກ່ວາພຽງແຕ່ cuda ຕົວມັນເອງ, ແລະການປະຕິບັດກະທູ້ ptx. "ໃນໄລຍະສັ້ນ, ອໍານາດຄອມພິວເຕີ້ຂອງ Nvidia ບໍ່ສາມາດຄວບຄຸມໄດ້ໂດຍອັດຕະໂນມັດ. ໂດຍລວມແລ້ວ, ຈາກຈຸດຢືນທີ່ເປັນເອກະພາບ, ສະພາບການແມ່ນເປັນກໍາລັງໃຈສໍາລັບຊິບແບບໃຫຍ່ໆພາຍໃນປະເທດ. ກາລະໂອກາດສໍາລັບຜູ້ຜະລິດຊິບພາຍໃນປະເທດພາຍໃນສະພາບຂອງ Inference ແມ່ນເຫັນໄດ້ຊັດເຈນກວ່າເນື່ອງຈາກຄວາມຕ້ອງການສູງຂອງການຝຶກອົບຮົມ, ເຊິ່ງກີດຂວາງການເຂົ້າ. ນັກວິເຄາະຂັດແຍ້ງວ່າພຽງແຕ່ການຫມູນວຽນບັດປະຈໍາຕົວທີ່ມີຄວາມພໍໃຈເທົ່ານັ້ນ; ຖ້າຈໍາເປັນ, ການໄດ້ຮັບເຄື່ອງເພີ່ມເຕີມແມ່ນເປັນໄປໄດ້, ໃນຂະນະທີ່ຮູບແບບການຝຶກອົບຮົມກໍ່ມີຄວາມຫຍຸ້ງຍາກໃນການຄຸ້ມຄອງຈໍານວນທີ່ມີຄວາມຫຍຸ້ງຍາກໃນການຝຶກອົບຮົມຜົນກະທົບທາງລົບ. ການຝຶກອົບຮົມຍັງມີຂໍ້ກໍານົດກ່ຽວກັບຂະຫນາດຂະຫນາດສະເພາະ, ໃນຂະນະທີ່ຄວາມຮຽກຮ້ອງຕ້ອງການສໍາລັບຄວາມເຂົ້າໃຈບໍ່ແມ່ນຄວາມຕ້ອງການ, ດັ່ງນັ້ນການຜ່ອນຄາຍຄວາມຕ້ອງການຂອງ GPU. ໃນປະຈຸບັນ, ການປະຕິບັດງານຂອງບັດ H20 ດຽວຂອງ NVIDIA ບໍ່ໄດ້ລື່ນກາຍວ່າ Huawei ຫຼື Cambrian; ຄວາມເຂັ້ມແຂງຂອງມັນແມ່ນຢູ່ໃນກຸ່ມ. ໂດຍອີງໃສ່ຜົນກະທົບໂດຍລວມກ່ຽວກັບຕະຫຼາດພະລັງງານ Luchation, ທ່ານ Yang ແມ່ນການສໍາພາດກັບການຝຶກອົບຮົມແບບໃຫຍ່ໆ, ໂດຍອີງໃສ່ການເພີ່ມຂື້ນ. ຄວາມຕ້ອງການແບບຍືນຍົງໃນຕະຫຼາດພະລັງງານຄອມພິວເຕີ້. " ນອກຈາກນັ້ນ, "ຄວາມຕ້ອງການທີ່ສູງຂອງ DeepSeek ສໍາລັບການບໍລິການທີ່ມີເຫດຜົນແລະການປັບປຸງທີ່ມີຄວາມອ່ອນແອຫຼາຍ, ເຊິ່ງເຮັດໃຫ້ມີການຫຼຸດຜ່ອນສິ່ງເສດເຫຼືອຈາກຜູ້ຜະລິດໃນລະດັບທີ່ແຕກຕ່າງກັນໃນລະດັບທີ່ແຕກຕ່າງກັນຂອງລະບົບນິເວດພາຍໃນປະເທດ." Luchen Technology ໄດ້ຮ່ວມມືກັບ Huawei Cloud ເພື່ອເປີດການອອກເຫດຜົນຂອງ Apis DeepSeek R1 ແລະການບໍລິການພາບຖ່າຍຟັງທີ່ອີງໃສ່ອໍານາດຄອມພີວເຕີ້ພາຍໃນປະຈໍາ. ທ່ານຍາງທີ່ສະແດງອອກໃນອະນາຄົດກ່ຽວກັບອະນາຄົດ: "DeepSeek Instills ຄວາມຫມັ້ນໃຈໃນການແກ້ໄຂບັນຫາທີ່ດີຂື້ນພາຍໃນ.

微信图片 _20240614024024031.jp1

ສະຫຼຸບ

ບໍ່ວ່າ DeepSeeK ແມ່ນ "ດີກວ່າ" ກ່ວາ Chatgpt ແມ່ນຂື້ນກັບຄວາມຕ້ອງການສະເພາະແລະຈຸດປະສົງຂອງຜູ້ໃຊ້. ສໍາລັບວຽກງານທີ່ຕ້ອງການຄວາມຍືດຫຍຸ່ນ, ຕົ້ນທຶນຕໍ່າ, ແລະການປັບແຕ່ງ, DeepSek ອາດຈະສູງກວ່າ. ສໍາລັບການຂຽນທີ່ສ້າງສັນ, ການສອບຖາມທົ່ວໄປ, ແລະໂຕ້ຕອບການສົນທະນາແບບຜູ້ໃຊ້, Chatgp ອາດຈະເປັນຜູ້ນໍາ. ເຄື່ອງມືແຕ່ລະເຄື່ອງຮັບໃຊ້ຈຸດປະສົງທີ່ແຕກຕ່າງກັນ, ສະນັ້ນທາງເລືອກຈະຂື້ນກັບສະພາບການທີ່ພວກມັນຖືກນໍາໃຊ້.

ຊອກຫາວິທີແກ້ໄຂສາຍ ELV

ຄວບຄຸມສາຍ

ສໍາລັບ BMS, ລົດເມ, ສາຍໄຟອຸດສາຫະກໍາ, ສາຍໄຟເຄື່ອງມື.

ລະບົບການປົດປ່ອຍທີ່ມີໂຄງສ້າງ

ເຄືອຂ່າຍ & ຂໍ້ມູນ, ສາຍໄຟສາຍໃຍແກ້ວ, ສາຍເຊືອກ, ໂມດູນ, ໃບດ່ຽວ

2024 ການສະແດງແລະການທົບທວນຄືນເຫດການ

APR.16th-18, ປີ 18, 2024 MIDDLE-EAST-EAST-EAST-EAST

APR.16th-18, ປີ 1824 Securika ໃນ Moscow

ພຶດສະພາ .9, 2024 ຜະລິດຕະພັນໃຫມ່ແລະເຕັກໂນໂລຢີເປີດຕົວຢູ່ຊຽງໄຮ້

Oct.22ND-25, 2024 ຄວາມປອດໄພຂອງຈີນໃນປັກກິ່ງ

NOV.19-20, 2024 ເຊື່ອມຕໍ່ KSA World KSA


ເວລາໄປສະນີ: Feb-10-2025