99国产精品99,欧美在线色

中國經(jīng)濟網(wǎng)8月28日訊(記者王惠綿） 8月27日，在貴陽召開的第四屆828 B2B企業(yè)節(jié)開幕式上，華為云宣布其Tokens服務全面接入CloudMatrix384超節(jié)點，通過xDeepServe架構創(chuàng)新，單芯片最高可實現(xiàn)2400TPS、50msTPOT的超高吞吐、低時延的性能，超過業(yè)界水平。

發(fā)揮“大雜燴”優(yōu)勢，以系統(tǒng)能力打造先進算力

過去18個月，中國AI算力需求呈現(xiàn)指數(shù)級增長。數(shù)據(jù)顯示，2024年初中國日均Token的消耗量為1000億，截至今年6月底，日均Token消耗量已突破30萬億，1年半的時間增長了300多倍，反映了我國人工智能應用規(guī)模快速增長，也對算力基礎設施的需求提出了更大的挑戰(zhàn)。

在以往按卡時計費的基礎上，今年3月，華為云正式推出了基于MaaS的Tokens服務。針對不同應用、不同場景的性能和時延要求，還提供了在線版、進線版、離線版乃至尊享版等多種服務規(guī)格，為大模型、Agent智能體等AI工具提供了更為靈活、便捷、低成本的先進算力。

而這一次，華為云的Tokens服務正式接入CloudMatrix384，并通過384原生的xDeepServe框架再次實現(xiàn)了吞吐量的突破，從年初的1920TPS提升至2400TPS，TPOT僅為50ms。

大算力的構建不是單點突破，而是一個從硬件到軟件、從算子到存儲、從推理框架到超節(jié)點的全棧創(chuàng)新，充分依托了華為的“大雜燴”能力。

首先，CloudMatrix384 超節(jié)點以全新的計算架構創(chuàng)新，突破性能瓶頸，構筑穩(wěn)固澎湃的算力根基；CANN昇騰硬件使能，優(yōu)化算子與高效通信策略，讓云端的算力能夠以最高效的方式被調(diào)用和組合；EMS彈性內(nèi)存存儲打破AI內(nèi)存墻，突破性地實現(xiàn)“以存強算”，徹底釋放了每一顆芯片的算力；xDeepServe 分布式推理框架則以極致分離架構Transfomerless讓超節(jié)點釋放出更高效算力。

“拆掉”Transformer，xDeepServe全面激發(fā)算力潛能

作為CloudMatrix384 超節(jié)點的原生服務，xDeepServe以Transformerless 的極致分離架構，把MoE大模型拆成可獨立伸縮的 Attention、FFN、Expert三個微模塊，相當于在一臺CloudMatrix384上把“大模型”拆成“積木”，并分派到不同的NPU上同步處理任務。之后，再用基于內(nèi)存語義的微秒級XCCL通信庫與FlowServe 自研推理引擎把它們重新拼成一個超高吞吐的LLM服務平臺，即Tokens的“超高速流水線”。通過xDeepServe不斷調(diào)優(yōu)，最終實現(xiàn)了從非超節(jié)點單卡吞吐600tokens/s至超節(jié)點單卡吞吐2400tokens/s的提升。

作為硬件加速計算的中間層，CANN包含多個算子庫和XCCL這種高性能通信庫等組件，共同支撐AI模型的高效運行。其中，XCCL作為專為超節(jié)點上的大語言模型（LLM）服務而量身打造的高性能通信庫，能夠充分發(fā)揮CloudMatrix384擴展后的UB互聯(lián)架構（UB fabric）的全部潛力，為 Transformerless的全面分離奠定了帶寬與時延雙重硬底座。

而作為被重構的“去中心”式分布式引擎，F(xiàn)lowServe把CloudMatrix384 切成完全自治的 DP 小組，每個小組自帶 Tokenizer、執(zhí)行器、RTC 緩存與網(wǎng)絡棧，完全自給自足，做到千卡并發(fā)也不“擁堵”。

xDeepServe已經(jīng)實現(xiàn)MA分離，下一步，將把Attention、MoE、Decode全部改成自由流動的數(shù)據(jù)流，并把同樣的拼圖方法復制到多臺超節(jié)點，讓推理吞吐像鋪軌一樣線性延伸，最終或?qū)崿F(xiàn)線吞吐量的更大突破，讓每塊NPU都高效運作，“芯片永不排隊，推理永不塞車”。

聚焦主流大模型，不斷提升模型性能

據(jù)悉，華為云MaaS服務已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平臺。

華為云積累了大量模型性能優(yōu)化、效果調(diào)優(yōu)的技術和能力，從而實現(xiàn)“源于開源，高于開源”，讓更多大模型可以在昇騰云上跑得更快更好。以文生圖大模型來說，在輕微損失畫質(zhì)的情況下，通過Int8量化、旋轉(zhuǎn)位置編碼融合算子等方式，在華為云MaaS平臺實現(xiàn)了2倍于業(yè)界主流平臺的出圖速度，最大尺寸支持2K×2K。而在文生視頻大模型上，不僅通過量化方式來提速，還通過通算并行等方式，降低延遲與顯存占用，大幅提升視頻生成速度，相較于友商實現(xiàn)了3.5倍的性能提升。華為云Tokens服務在性能、模型適配、效果調(diào)優(yōu)方面的基礎，也讓更多企業(yè)能夠快速開發(fā)和構建AI Agent。

而在應用層，華為云已與超過100家伙伴攜手深入行業(yè)場景，共建豐富的Agent，在調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運維等領域解決產(chǎn)業(yè)難題，讓企業(yè)更便捷地擁抱AI創(chuàng)新，加速智能化。

如基于MaaS平臺推出的今日人才數(shù)智員工解決方案，集成了先進的自然語言處理、機器學習和深度學習技術，能實現(xiàn)與用戶的智能交互和任務處理，顯著提升服務效率與客戶滿意度；而北京方寸無憂科技開發(fā)的無憂智慧公文解決方案可以提升公文處理效能，實現(xiàn)政企辦公智能化轉(zhuǎn)型。

以Token為動力的智能社會已經(jīng)到來，而華為云將以系統(tǒng)級創(chuàng)新能力和全新的Tokens服務構筑先進算力，助力各行各業(yè)加速落地AI。

（責任編輯：佟明彪）

在线精品免费,大香线中文字幕,图片区视频区小说区,天天骑夜夜操,人人插人人射,国产亚洲精品女人久久久久久,7777久久久国产精品

從1920TPS到2400TPS，華為云Tokens服務全面接入384超節(jié)點

從1920TPS到2400TPS，華為云Tokens服務全面接入384超節(jié)點

在线精品免费,大香线中文字幕,图片区视频区小说区,天天骑夜夜操,人人插人人射,国产亚洲精品女人久久久久久,7777久久久国产精品

從1920TPS到2400TPS，華為云Tokens服務全面接入384超節(jié)點

從1920TPS到2400TPS，華為云Tokens服務全面接入384超節(jié)點

從1920TPS到2400TPS，華為云Tokens服務全面接入384超節(jié)點