За BMS, автобус, индустриален, инструментален кабел.

Тъй като пролетният фестивал приключва, вълнението около Deepseek остава силно. Неотдавнашният празник подчерта значително чувство за конкуренция в технологичната индустрия, като мнозина обсъждаха и анализираха този „сом“. Силиконовата долина изпитва безпрецедентно чувство за криза: защитниците на отворен код отново изразяват мнението си и дори Openai преоценява дали стратегията му със затворен код е най-добрият избор. Новата парадигма на по-ниските изчислителни разходи предизвика верижна реакция сред чип гиганти като NVIDIA, което води до записване на загуби на пазарна стойност в историята на фондовия пазар в САЩ, докато правителствените агенции изследват спазването на чиповете, използвани от DeepSeek. На фона на смесени прегледи на Deepseek в чужбина, в страната, той изпитва изключителен растеж. След пускането на модела R1, свързаното приложение се наблюдава скок в трафика, което показва, че растежът в секторите на приложението ще задвижва общата AI екосистема напред. Положителният аспект е, че DeepSeek ще разшири възможностите за приложение, което предполага, че разчитането на Chatgpt няма да бъде толкова скъпо в бъдеще. Тази промяна е отразена в последните дейности на Openai, включително предоставянето на модел за разсъждение, наречен O3-Mini на безплатни потребители в отговор на DeepSeek R1, както и последващи ъпгрейди, които направиха мисловната верига на O3-Mini Public. Много потребители в чужбина изразиха благодарност на Deepseek за тези развития, въпреки че тази мисловна верига служи като обобщение.
Оптимично е очевидно, че Deepseek обединява домашни играчи. С фокуса си върху намаляване на разходите за обучение, различни производители на чипове нагоре, междинни доставчици на облаци и многобройни стартиращи компании активно се присъединяват към екосистемата, повишавайки ефективността на разходите за използване на модела DeepSeek. Според документите на DeepSeek, пълното обучение на модела V3 изисква само 2,788 милиона H800 GPU часа, а процесът на обучение е силно стабилен. Архитектурата на MOE (смес от експерти) е от решаващо значение за намаляване на разходите за предварително обучение с коефициент десет в сравнение с Llama 3 с 405 милиарда параметри. Понастоящем V3 е първият публично признат модел, демонстриращ толкова висока способност в MOE. Освен това, MLA (много слой внимание) работи синергично, особено в аспектите на разсъжденията. "Колкото по -рядко е МО, толкова по -голям е размерът на партидата, необходим по време на разсъждения, за да се използва напълно изчислителната мощност, като размерът на kvcache е основният ограничаващ фактор; MLA значително намалява размера на kvcache", отбелязва изследовател от технологията Chuanjing в анализ на AI технологичния преглед. Като цяло успехът на Deepseek се крие в комбинацията от различни технологии, а не само за един. Вътрешните индустрии похвалят инженерните възможности на екипа на DeepSeek, отбелязвайки тяхното съвършенство в паралелно обучение и оптимизация на операторите, постигайки новаторски резултати чрез усъвършенстване на всеки детайл. Подходът на DeepSeek с отворен код допълнително подхранва цялостното развитие на големи модели и се очаква, че ако подобни модели се разширят в изображения, видеоклипове и други, това значително ще стимулира търсенето в индустрията.
Възможности за услуги за разсъждение на трети страни
Данните показват, че след излизането си, DeepSeek натрупва 22,15 милиона ежедневни активни потребители (DAU) само за 21 дни, постигайки 41,6% от потребителската база на Chatgpt и надминавайки 16,95 милиона ежедневни активни потребители на Doubao, като по този начин се превръщат в най-бързо развиващото се приложение в световен мащаб, оглавявайки Apple App Store в 157 държави/региони. Въпреки това, докато потребителите се стичаха с трудове, кибер хакерите безмилостно атакуват приложението DeepSeek, причинявайки значително напрежение на неговите сървъри. Анализаторите на индустрията смятат, че това се дължи отчасти на DeepSeek разполагането на карти за обучение, като същевременно липсва достатъчно изчислителна мощност за разсъждения. Информираният от индустрията информиран AI технологичен преглед, „Честите проблеми със сървъра могат да бъдат разрешени лесно чрез таксуване на такси или финансиране за закупуване на повече машини; в крайна сметка зависи от решенията на DeepSeek“. Това представя компромис при фокусирането върху технологиите спрямо продукцията. DeepSeek до голяма степен разчита на квантово квантоване за самоподоволяване, като получи малко външно финансиране, което води до сравнително ниско налягане на паричния поток и по-чиста технологична среда. Понастоящем, в светлината на гореспоменатите проблеми, някои потребители призовават DeepSeek в социалните медии да повишат праговете на използване или да въведат платени функции, за да подобрят комфорта на потребителите. Освен това, разработчиците започнаха да използват официалния API или API на трети страни за оптимизация. Въпреки това, отворената платформа на DeepSeek наскоро обяви, че "настоящите ресурси на сървъра са оскъдни, а презарежданията на API Service са спрени."
Това несъмнено отваря повече възможности за доставчици на трети страни в сектора на инфраструктурата на AI. Наскоро многобройни вътрешни и международни облачни гиганти стартираха моделни API на DeepSeek - Upersesse Giants Microsoft и Amazon бяха сред първите, които се присъединиха в края на януари. Вътрешният лидер, Huawei Cloud, направи първия ход, пускайки услугите на DeepSeek R1 и V3 в сътрудничество с потока, базиран на силиций, на 1 февруари. Докладите от AI Technology Review показват, че услугите на базата на силиконов поток са виждали приток на потребители, ефективно "срива" платформата. Големите три технологични компании-Bat (Baidu, Alibaba, Tencent) и Bytedance-също издадоха оферти с нискотарифни и ограничени времена, започващи от 3 февруари, напомнящи за миналогодишния Price Wars, запален от V2 на DeepSeek, където DeepSeek започна да бъде наречен „Ценовия месар“. Неистовите действия на облачните доставчици озвучават по-ранните силни връзки между Microsoft Azure и Openai, където през 2019 г. Microsoft направи значителна инвестиция в размер на 1 милиард долара в Openai и извлече обезщетения след старта на Chatgpt през 2023 г. Въпреки това, тази тясна връзка започна да се разпада, след като мета-входът на Microsoft, след като позволява на други доставчици. В този случай DeepSeek не само надмина Chatgpt по отношение на топлината на продукта, но също така въведе модели с отворен код след освобождаването на O1, подобно на вълнението около възраждането на Llama на GPT-3.
В действителност доставчиците на облаци също се позиционират като шлюзове за трафик за AI приложения, което означава, че задълбочаването на връзките с разработчиците се превежда като превантивни предимства. Отчетите сочат, че Baidu Smart Cloud е имал над 15 000 клиенти, използващи модела DeepSeek чрез платформата Qianfan в деня на стартиране на модела. Освен това, няколко по-малки фирми предлагат решения, включително поток на базата на силиций, Luchen Technology, Chuanjing Technology и различни доставчици на инфра на ИИ, които стартираха поддръжка за DeepSeek модели. AI Technology Review научи, че настоящите възможности за оптимизация за локализирани разгръщания на Deepseek съществуват предимно в две области: една е оптимизираща за характеристиките на оскъдността на модела MOE, използвайки подход на смесена разсъждение за разгръщане на модела на MOE от 671 милиарда MOE локално, докато използва Hybrid GPU/CPU изводи. Освен това, оптимизацията на MLA е жизненоважна. Въпреки това, двата модела на DeepSeek все още са изправени пред някои предизвикателства при оптимизацията на внедряването. „Поради размера на модела и многобройните параметри, оптимизацията наистина е сложна, особено за местните внедрения, при които постигането на оптимален баланс между производителността и разходите ще бъде предизвикателство“, заяви изследовател от Chuanjing Technology. Най -значимото препятствие се крие в преодоляването на ограниченията на капацитета на паметта. „Ние възприемаме хетерогенен подход за сътрудничество, за да използваме пълноценно CPU и други изчислителни ресурси, поставяйки само несподелените части от оскъдната MOE матрица върху CPU/DRAM за обработка, използвайки високоефективни оператори на процесора, докато плътните части остават на GPU“, обясни той по-нататък. Отчетите показват, че рамката на отворен код на Chuanjing Ktransformers в инжектира различни стратегии и оператори в оригиналната реализация на трансформатори чрез шаблон, като значително подобрява скоростта на извода, използвайки методи като Cudagraph. DeepSeek създаде възможности за тези стартиращи компании, тъй като ползите от растежа стават очевидни; Много фирми съобщават за забележим растеж на клиентите след пускането на API на DeepSeek, като получават запитвания от предишни клиенти, които търсят оптимизации. Вътрешните индустрии отбелязват: „В миналото донякъде установените клиентски групи често са били заключени в стандартизираните услуги на по-големите компании, плътно обвързани от техните предимства на разходите поради мащаба. Въпреки това, след като приключихме с разгръщането на DeepSeek-R1/V3 преди пролетния фестивал, изведнъж получихме заявки за сътрудничество от няколко известни клиенти и дори по-рано дорствени клиенти инициираха контакти, за да въведат нашите заявки за сътрудничество от няколко известни клиенти и дори по-рано дорствени клиенти инициираха контакти, за да въведат нашите DeepSeek услуги. Понастоящем изглежда, че DeepSeek прави ефективността на изводите на модела все по -критично и с по -широкото приемане на големи модели това ще продължи да влияе значително на развитието в индустрията на AI Infra. Ако модел на ниво Deepseek може да бъде разгърнат на местно ниво на ниска цена, това ще помогне значително на правителството и усилията за цифрова трансформация на предприятието. Въпреки това, предизвикателствата продължават да съществуват, тъй като някои клиенти могат да имат високи очаквания по отношение на големите възможности на модела, което прави по -очевидно, че балансирането на ефективността и разходите става жизненоважно при практическото внедряване.
За да се оцени дали DeepSeek е по -добър от Chatgpt, е от съществено значение да разберете техните ключови разлики, силни страни и случаи на използване. Ето цялостно сравнение:
Функция/аспект | Deepseek | Chatgpt |
---|---|---|
Собственост | Разработен от китайска компания | Разработен от Openai |
Източник на модел | Отворен код | Собственост |
Разходи | Безплатно за използване; По -евтини опции за достъп до API | Абонамент или ценообразуване на плащане за употреба |
Персонализиране | Силно адаптивно, което позволява на потребителите да ощипват и надграждат върху него | Налична ограничена персонализиране |
Изпълнение в конкретни задачи | Превъзхожда в определени области като анализиране на данни и извличане на информация | Универсално със силно изпълнение в творческото писане и разговорни задачи |
Езикова поддръжка | Силен фокус върху китайския език и култура | Широка езикова поддръжка, но ориентирана към САЩ |
Разходи за обучение | По -ниски разходи за обучение, оптимизирани за ефективност | По -високи разходи за обучение, изискващи значителни изчислителни ресурси |
Вариация на отговора | Може да предложи различни отговори, вероятно повлияни от геополитически контекст | Последователни отговори въз основа на данни за обучение |
Целева аудитория | Насочени към разработчици и изследователи, които искат гъвкавост | Насочени към общи потребители, които търсят разговорни възможности |
Използвайте случаи | По -ефективни за генериране на кодове и бързи задачи | Идеален за генериране на текст, отговаряне на заявки и ангажиране с диалог |
Критична перспектива за „прекъсване на nvidia“
Понастоящем, освен Huawei, няколко домашни производители на чипове като Moore Threads, Muxi, Biran Technology и Tianxu Zhixin също се адаптират към двата модела на DeepSeek. Производител на чипове каза на AI Technology Review, "Структурата на DeepSeek демонстрира иновации, но въпреки това остава LLM. Нашата адаптация към DeepSeek е фокусирана предимно върху приложенията за разсъждения, което прави техническото изпълнение доста просто и бързо." Подходът на MOE обаче изисква по -високи изисквания по отношение на съхранението и разпределението, съчетан с осигуряването на съвместимост при разгръщане с вътрешни чипове, представяйки множество инженерни предизвикателства, които се нуждаят от разделителна способност по време на адаптация. „Понастоящем вътрешната изчислителна мощност не съвпада с NVIDIA в използваемостта и стабилността, като изисква оригинално фабрично участие за настройка на софтуерна среда, отстраняване на неизправности и оптимизация на основополагането“, заяви практикуващият в индустрията въз основа на практически опит. Едновременно с това „Поради големия параметрен мащаб на DeepSeek R1, вътрешната изчислителна мощност налага повече възли за паралелизация. Освен това, спецификациите на вътрешния хардуер все още изостават; например, Huawei 910B понастоящем не може да поддържа извода на FP8, въведен от DeepSeek.“ Един от акцентите на модела DeepSeek V3 е въвеждането на FP8 смесена прецизна тренировъчна рамка, която е валидирана ефективно върху изключително голям модел, отбелязвайки значително постижение. Преди това основни играчи като Microsoft и Nvidia предложиха свързана работа, но съмненията се задържат в индустрията по отношение на осъществимостта. Разбира се, че в сравнение с INT8, основното предимство на FP8 е, че квантът след тренировка може да постигне почти без загуба точност, като същевременно значително повишава скоростта на извода. При сравнение с FP16, FP8 може да реализира до два пъти ускорение на H20 на NVIDIA и над 1,5 пъти ускорение на H100. По -специално, тъй като дискусиите около тенденцията на вътрешната изчислителна мощност плюс вътрешните модели набира скорост, спекулациите дали NVIDIA може да бъде нарушена и дали Cuda Moat може да бъде заобиколен, става все по -разпространен. Един неоспорим факт е, че DeepSeek наистина е причинил значителен спад в пазарната стойност на NVIDIA, но тази промяна повдига въпроси относно целостта на изчислителната мощност от висок клас на NVIDIA. По-рано приетите разкази относно изчислителното натрупване на капитал са оспорвани, но въпреки това остава трудно NVIDIA да бъде напълно заменена в сценарии за обучение. Анализът на дълбокото използване на CUDA на DeepSeek показва, че гъвкавостта - като използването на SM за комуникация или директно манипулиране на мрежови карти - не е възможно за редовни графични процесори да се настанят. Погледни точки на индустрията подчертават, че ровът на Nvidia обхваща цялата екосистема на Cuda, а не просто самата CUDA, а инструкциите на PTX (паралелно изпълнение на нишки), които DeepSeek използва, все още са част от екосистемата Cuda. "В краткосрочен план изчислителната мощност на NVIDIA не може да бъде заобиколена - това е особено ясно в обучението; обаче разполагането на домашни карти за разсъждения ще бъде сравнително по -лесно, така че напредъкът вероятно ще бъде по -бърз. Адаптирането на домашните карти се фокусира основно върху извода; никой все още не е успял да обучи модел на представяне на DeepSeek върху вътрешните карти в мащаб в мащаб", "Анализатор на индустрията, забележителен за преглед на технологията на AI. Като цяло, от гледна точка на извода, обстоятелствата са обнадеждаващи за битови големи моделни чипове. Възможностите за вътрешните производители на чипове в рамките на извода са по -очевидни поради прекомерно високите изисквания на обучението, които възпрепятстват влизането. Анализаторите твърдят, че просто използващите домашни изводни карти е достатъчно; Ако е необходимо, придобиването на допълнителна машина е осъществимо, докато моделите за обучение представляват уникални предизвикателства - управляването на увеличен брой машини може да стане натоварващо и по -високите проценти на грешки могат да повлияят негативно на резултатите от обучението. Обучението също има специфични изисквания за мащаб на клъстера, докато изискванията към клъстерите за извод не са толкова строги, като по този начин се облекчават изискванията на GPU. Понастоящем представянето на единичната карта на NVIDIA не надминава тази на Huawei или Cambrian; Силата му се крие в групирането. Въз основа на цялостното въздействие върху изчислителния пазар на електроенергия, основателят на Luchen Technology, Youg, отбелязано в интервю за AI Technology Review, „Deepseek може временно да подкопае създаването и отдаването под наем на ултра-широки обучения за изчислителни групи. Устойчиво търсене на пазара на изчислителни енергии. " Освен това, „повишеното търсене на услуги за разсъждения и фини настройки на DeepSeek е по-съвместимо с вътрешния изчислителен пейзаж, където местните капацитет са сравнително слаби, помагайки за смекчаване на отпадъците от ресурсите на празни ресурси след създаването на клъстери; това създава жизнеспособни възможности за производителите на различни нива на вътрешната изчислителна екосистема.“ Luchen Technology си сътрудничи с Huawei Cloud, за да стартира API за разсъждения на серията DeepSeek R1 и облачните изображения, базирани на вътрешната изчислителна мощност. Вие Ян изрази оптимизъм за бъдещето: „Deepseek внушава доверие в вътрешно произведените решения, насърчавайки по -голям ентусиазъм и инвестиции в вътрешните изчислителни възможности напред“.

Заключение
Дали DeepSeek е „по -добър“ от Chatgpt зависи от специфичните нужди и цели на потребителя. За задачите, нуждаещи се от гъвкавост, ниска цена и персонализиране, DeepSeek може да е по -добър. За творческо писане, общо запитване и удобни за потребителя разговорни интерфейси, Chatgpt може да поеме водеща роля. Всеки инструмент служи за различни цели, така че изборът ще зависи значително от контекста, в който се използват.
Контролни кабели
Структурирана система за окабеляване
Мрежа и данни, оптичен кабел, кръпка, модули, лицева плоча
Април 16-ти-18-ти, 2024 г. Енергия на Близкия Изток в Дубай
Април 16-ти-18-ти, 2024 г. Securika в Москва
May.9th, 2024 Ново събитие за стартиране на продукти и технологии в Шанхай
22-ри-25 октомври, 2024 г. Сигурност Китай в Пекин
19-20 ноември, 2024 г. Свързан World KSA
Време за публикация: февруари-10-2025