国产日产韩国精品视频 I 国产一卡2卡3卡四卡精品网站免费国 I 亚洲国产一区二区av I 欧美网站在线 I 我爱avav色aⅴ爱avav I 国产精品资源 I 日韩av高潮喷水在线观看 I 青草社区在线观看 I 黄瓜视频91 I 羞羞影院午夜男女爽爽免费视频 I 国产三级在线免费 I 性国产激情精品 I 天天在线免费视频 I 无码人妻精品专区在线视频 I 成年女人免费v片 I 欧美日本高清 I 青草成人免费视频 I 在线高清理伦片a I 性午夜 I 久草在线成人 I 综合在线视频精品专区 I 日本在线看片免费人成视频 I 欧美老熟妇xb水多毛多 I 在线亚洲精品国产成人av剧情 I 国产精品嫩草影院精东 I 欧美美女视频在线 I 韩国三级丰满少妇高潮 I 国产男女av I 羞羞视频入口 I 伊人蕉久 I 国产成人欧美在线观看 I 中文字幕在线播放网址 I 人人精品亚洲 I 激情五月激情四射 I 波多野结衣久久精品

Linux vLLM方案本地部署DeepSeek 32B和QWQ 32B大模型攻略來啦

隨著大語言模型的廣泛應(yīng)用,如何在低成本硬件上實現(xiàn)高性能、高并發(fā)的本地化部署成為關(guān)鍵需求。vLLM是一個開源的大語言模型推理庫,它能夠顯著提升大語言模型推理的速度和效率,讓開發(fā)者可以更高效地部署和運(yùn)行大語言模型,尤其對于多GPU跑LLM的優(yōu)化表現(xiàn)突出。在Linux操作系統(tǒng),Intel在vLLM上提供完整的打包步驟和鏡像,方便用戶進(jìn)行本地部署大模型,支持多用戶多并發(fā),性能優(yōu)異。

圖片

在眾多大模型里,DeepSeek-R1-32B在數(shù)學(xué)推理、代碼生成與邏輯分析等場景表現(xiàn)尤為突出,實測性能接近 70B 級別模型,成為目前DeepSeek蒸餾模型中的理想優(yōu)選!    

圖片

而阿里Qwen團(tuán)隊發(fā)布的QwQ-32B大語言模型,一經(jīng)推出便廣受關(guān)注,在測試數(shù)學(xué)能力的AIME24評測集上,以及評估代碼能力的LiveCodeBench中,QwQ-32B表現(xiàn)與DeepSeek-R1相當(dāng),遠(yuǎn)勝于o1-mini及相同尺寸的R1蒸餾模型。可以說,QwQ-32B模型是目前業(yè)界表現(xiàn)更為突出、被廣泛運(yùn)用的強(qiáng)悍選擇。下面就跟大家詳細(xì)介紹如何通過Intel在vLLM上提供的完整打包方案和鏡像本地部署DeepSeek 32B和QWQ 32B模型。本地部署32B模型前,需先確認(rèn)本機(jī)具備至少20G顯存以確保充分發(fā)揮性能,此次演示使用的配置為:

圖片

(以上整機(jī)配置成本僅約11720元起,具備更強(qiáng)的性價比優(yōu)勢)

本地部署DeepSeek 32B模型具體步驟:    

1、確認(rèn)OS版本為:Ubuntu 22.04 + Intel Out-of-Tree GPU drivers.

2、在BIOS設(shè)置中,找到“PCI Express Configuration”并且打開“PCIE Resizable BAR Support”

          

3、進(jìn)行UBUNTU安裝:

1)安裝Ubuntu22.04.1+Kernel 6.5.0-35-generic

—下載https://old-releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1 desktop-amd64.iso

—使用燒錄工具 (比如rufus) 來創(chuàng)建U-Disk

安裝Ubuntu

確保網(wǎng)絡(luò)可以正常使用

          

2)安裝 Intel Out-of-Tree GPU driver

· # Install the Intel graphics GPG public key

· wget -q0 - https://repositories.intel.com/gpu/intel-graphics.key |

· sudo gpg --yes --dearmor --output /usr/share/keyrings/intel-graphics.gpg

· # Configure the repositories.intel.com package repository

 · echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy unified" |     

· sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list

· # Update the package repository metadata

· sudo apt update

· sudo apt install -y intel-i915-dkms intel-fw-gpu

          

3)Configuring Render Group Membership

· sudo gpasswd -a ${USER} render

· sudo reboot

          

4)驗證Intel® Arc™ A770 PCIe Configuration Space

· #List the VGA device PCIe bus address to confirm 2x A770s are detected

· sudo lspci | grep -i vga

o 03:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

o 04:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

· sudo lspci -s 03:00.0 -vvv

· #You should see an output as following:

o Capabilities: [420 v1] Physical Resizable BAR

·  BAR 2: current size: 16GB, supported: 256MB 512MB 1GB 2GB 4GB 8GB 16GB    

          

5)Install Docker – 或參考https://docs.docker.com/engine/install/ubuntu/

· # Add Docker's official GPG key:

· sudo apt-get update

· sudo apt-get install ca-certificates curl

· sudo install -m 0755 -d /etc/apt/keyrings

· sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc

· sudo chmod a+r /etc/apt/keyrings/docker.asc

· # Add the repository to Apt sources:

· echo

· "deb [arch=$(dpkg --print-architecture) signed- by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu

· $(. /etc/os-release && echo "${UBUNTU_CODENAME:-$VERSION_CODENAME}") stable" |

· sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

· sudo apt-get update

· sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx plugin docker-compose-plugin    

          

4、Huggingface 下載 32B-AWQ 模型

1)訪問

https://huggingface.co/Valdemardi/DeepSeek-R1-Distill-Qwen-32B-AWQ

2)下載模型到文件目錄/model(如果沒有該目錄,請在root模式下創(chuàng)建/model)

3)所有鏡像和腳本,已經(jīng)打包上傳到百度網(wǎng)盤:通過網(wǎng)盤分享的文件:model.zip 鏈接: https://pan.baidu.com/s/1a019IPXap5OmnPM9WICwBg?pwd=mp8w 提取碼: mp8w        

5、載入鏡像

1)載入Intel提供的LLM后端鏡像:

把ipex-llm-serving.tar.gz 拷貝到本機(jī)

加載docker鏡像:sudo docker load -i ipex-llm-serving.tar.gz

2)載入Intel提供的前端鏡像:

把openwebui.tar.gz 拷貝到本機(jī)

加載docker鏡像:sudo docker load -i openwebui.tar.gz

3)確認(rèn)鏡像加載成功:加載成功后sudo docker images 應(yīng)該出現(xiàn)以下打印:

圖片          

6、啟動容器Pod    

1)啟動后端容器:

把create-llm.sh 拷貝到本機(jī)

啟動腳本:sudo bash create-llm.sh

如果第一次創(chuàng)建,那么將會有打印,這是正常現(xiàn)象:Error response from daemon: No such container: llm-backend

確認(rèn)pod已經(jīng)啟動:

圖片          

2)啟動前端容器:

把create-ui.sh 拷貝到本機(jī)

啟動腳本:sudo bash create-ui.sh

如果第一次創(chuàng)建,那么將會有打印,這是正常現(xiàn)象:Error response from daemon: No such container: llm-frontend

確認(rèn)pod已經(jīng)啟動:

圖片          

7、啟動應(yīng)用

1)啟動后端應(yīng)用:

新建shell窗口,執(zhí)行命令docker exec -it llm-backend bash /model/ds.sh    

程序開始后等待約數(shù)分鐘,出現(xiàn)如下打印為正常啟動:

圖片

2)啟動前端應(yīng)用:

前端應(yīng)用為容器自啟動,執(zhí)行命令docker logs llm-frontend,出現(xiàn)下圖的打印為已經(jīng)啟動:

圖片

3)在啟動完前后端后,需要手動設(shè)置顯存頻率和CPU頻率:

— 設(shè)置CPU頻率,以Ultra 7 265K為例

cpupower frequency-set -d 3.9GHz

設(shè)置顯存頻率

xpu-smi config -d 0 -t 0 --frequencyrange 2400,2400

xpu-smi config -d 1 -t 0 --frequencyrange 2400,2400

10、交互

1)圖形界面打開firefox瀏覽器,輸入地址127.0.0.1:8080,跳轉(zhuǎn)本地前端頁面:

圖片

Email填寫admin@intel.com, Password填寫admin完成登錄,如果界面是注冊界面,則按照個人偏好完成管理員注冊即可。

2)如果后端服務(wù)正常,在登陸后會在左上角下拉菜單里看到啟動的模型,點(diǎn)擊模型名稱應(yīng)用該模型:    

圖片

完成以上操作啟用對應(yīng)模型,輸入Prompt即可進(jìn)行推理及內(nèi)容輸出。

如果需要進(jìn)行QwQ-32B-AWQ模型的本地部署,只需要基于以上步驟的基礎(chǔ),進(jìn)行3步操作:

1)下載QwQ-32B-AWQ模型

https://huggingface.co/Qwen/QwQ-32B-AWQ,下載完成后將模型放在/model下

2)修改ds.sh

圖片

3)啟動后端,選擇模型名稱應(yīng)用該模型

圖片   

以下為MS-iCraft Z890 Pacific搭載雙Intel Arc A770顯卡運(yùn)行DeepSeek-R1-Distill-Qwen-32B和QwQ-32B-AWQ的實機(jī)截圖,實測輸出Token數(shù)為27.2/S,充分滿足日常工作需求。

圖片

(QwQ-32B-AWQ運(yùn)行速度實機(jī)截圖)

圖片

(DeepSeek-R1-Distill-Qwen-32B運(yùn)行速度實機(jī)截圖)

相較于Windows版本,通過Linux vLLM方案進(jìn)行大模型的本地部署在多并發(fā)優(yōu)化和多卡優(yōu)化性能上有明顯優(yōu)勢。基于vLLM的后端服務(wù)框架,能打造一個支持20路并發(fā)請求,單路推理速度達(dá)10+tokens/s的企業(yè)AI私有云,支持局域網(wǎng)內(nèi)的所有用戶同時訪問。推薦銘瑄Z890主板搭配雙Intel Arc A770顯卡,打造萬元級高配性價比整機(jī)方案,實現(xiàn)AI推理、內(nèi)容輸出高效流暢。    

圖片

作為iCraft系列下的明星產(chǎn)品,MS-iCraft Z890 Pacific和MS-iCraft Z890 Arctic創(chuàng)新配備一塊3.4英寸銳影LED顯示屏,支持多種模式設(shè)置,除了可實時顯示系統(tǒng)信息、個性化開關(guān)機(jī)畫面外,還可開啟桌面映射,同步顯示專屬畫面或影像。供電方面,采用16+1+1相Dr.MOS直出供電,充分發(fā)揮CPU潛能。內(nèi)存方面,配備4*高速DDR5內(nèi)存插槽,超頻沖擊8800MHz,同時8層服務(wù)器級低損耗PCB和背鉆工藝能有效降低信號損耗、增強(qiáng)信號完整性、助力DDR5高速傳輸。    

圖片

快來選擇一款銘瑄Z890主板,充分發(fā)揮性能潛力,讓 32B 大模型的推理效率與并發(fā)能力突破極限吧!   

主站蜘蛛池模板: 黄色影院在线看 | 日韩午夜精品 | 日韩亚洲精品国产第二页 | 欧美日韩中文 | 欧美一级电影在线播放 | 青草视频网址 | 亚洲成色| 人人看人人看 | 污污成人一区二区三区四区 | 久久久久久久女国产乱让韩 | 毛片成人网| 国产欧美性成人精品午夜 | 久久久久国产精品无码免费看 | 国产成a人亚洲精v品无码 | 91精品视频在线播放 | 91麻豆精品国产91久久久更新资源速度超快 | a视频在线播放 | 亚洲国产精品成人精品无码区在线 | 欧美精品18 | 亚洲午夜视频在线观看 | 中文亚洲成a人片在线观看 中文亚洲欧美日韩无线码 中文有码vs无码人妻 | www.色网站| 日产国产欧美视频一区精品 | 一区二区在线 | 欧洲 | a天堂资源在线观看 | 久久久亚洲伊人色综合网站 | 中文字幕网在线 | 国产av福利久久 | 日韩成人一区 | 狠狠色噜噜狠狠狠狠米奇7777 | 欧美剧场成人精品午夜 | 九九99久久精品在免费线bt | 国产精品美女久久久久久免费 | 性一交一黄一片 | 亚洲人成一区二区三区 | 国产又a又黄又潮娇喘视频 国产又色又爽又黄的网站在线 | 人妻少妇中文字幕乱码 | 东北女人毛多水多牲交视频 | 青青青国产免费线在 | 成人乱人乱一区二区三区 | 国产精品色 | 夜夜爽妓女8888视频免费观看 | www午夜 | 国产精品偷窥熟女精品视频 | 1级片在线观看 | 美女黄网站18禁免费看 | 少妇人妻偷人精品无码视频新浪 | 欧美精品一区二区三区在线播放 | 九九精品九九 | 亚洲 欧美 精品 | 亚洲熟妇无码爱v在线观看 亚洲熟妇无码八av在线播放 | 亚洲欧洲精品一区二区 | 国产凸凹视频一区二区 | 中文字幕人妻丝袜成熟乱 | 一本一本大道香蕉久在线精品 | 波多野结衣中文字幕2022免费 | 超碰97人人射妻 | 亚洲熟女乱色综合亚洲图片 | www.精品久久 | 亚洲精品成人区在线观看 | 国产乱人乱精一区二区视频密 | 欧美乱妇在线观看 | 精品国产第一国产综合精品 | 傲视影院午夜毛片 | 欧美 亚洲 另类 热图 | 人妻洗澡被强公日日澡 | 天堂网中文字幕 | 91中文视频 | 日本大片久久久高清免费看 | 久久久www免费人成精品 | 免费三级pq| 丰满女人又爽又紧又丰满 | 久久亚洲色www成人欧美 | 亚洲精品在线视频 | 久草97| 69久久国产露脸精品国产 | 免费午夜不卡毛片 | 国产在线精品一区二区三区直播 | 福利视频第一页 | 色综合久久天天综合网 | 亚洲黄色免费观看 | 大学生久久香蕉国产线看观看 | 高清国产一区二区三区 | 三级国产精品一区二区 | 国产成人精品亚洲午夜麻豆 | 毛片一区二区三区无码 | 欧美最猛性xxxxx免费 | 天天骑夜夜操 | 无码人妻aⅴ一区二区三区玉蒲团 | 国产精品国产三级国产a | 久草手机视频在线观看 | 久久草在线视频 | 日本在线看 | 丁香花在线观看免费观看图片 | 精品国产乱码久久久久久口爆 | 精品二区 | 一级毛片aaaaaa视频免费看 | 人禽杂交18禁网站免费 | 精品人妻一区二区三区四区 |