英特爾Day0完成文心大模型4.5系列開源模型的端側部署_ai|人工智能

今天，百度正式發布文心大模型4.5系列開源模型。英特爾Open VINO與百度飛槳多年來一直保持著緊密的合作。在此次文心系列模型的發布過程中，英特爾借助OpenVINO在模型發布的第零日即實現對文心端側模型的適配和在英特爾酷睿Ultra平臺上的端側部署。
OpenVINO工具套件是由英特爾開發的開源工具套件，旨在優化和加速深度學習模型的推理性能，支持跨平臺部署并充分利用英特爾硬件資源。 OpenVINO助力行業中廣泛的先進模型在英特爾人工智能產品和解決方案中的性能，應用在AIPC、邊緣AI和更多人工智能的使用場景當中。
從2021年開始，百度飛槳和英特爾OpenVINO進行深入合作，雙方進行深度適配，為開發者提供了更有效更便捷的AI開發工具鏈。經過雙方適配的眾多模型，如PaddleOCR ， PaddleSeg ， PaddleDection等，在金融、醫療、智能智造等領域被廣泛應用，開發者可以直接將飛槳模型用OpenVINO推理和部署，或通過OpenVINO的模型優化器轉化為IR格式，進一步部署和推理。
今天，百度基于多年積累的雄厚的AI技術實力，為業界帶來了開源的文心4.5系列大模型。英特爾宣布OpenVINO已經對0.3B參數量的稠密模型成功適配，并在英特爾酷睿Ultra平臺上成功部署且獲得了優異的推理性能。
英特爾助力百度文心大模型的首次亮相，共同為行業帶來全新的人工智能體驗。接下來，英特爾將持續與百度保持緊密合作，適配更多的文心系列模型，攜手拓寬AI技術的新邊界。
快速上手指南(Get Started)
第一步，環境準備
基于以下命令可以完成模型部署任務在Python上的環境安裝。
python -m venv py_venv
./py_venv/Scripts/activate.bat
pip install nncf
第二步，模型下載和轉換
在部署模型之前，我們首先需要將原始的PyTorch模型轉換為OpenVINO的IR靜態圖格式，并對其進行壓縮，以實現更輕量化的部署和最佳的性能表現。通過Optimum提供的命令行工具optimum-cli ，我們可以一鍵完成模型的格式轉換和權重量化任務：
optimum-cli export openvino --modelbaidu/ERNIE-4.5-0.3B-PT --task text-generation-with-past--weight-format fp16 --trust-remote-code ERNIE-4.5-0.3B-PT-OV
開發者可以根據模型的輸出結果，調整其中的量化參數，包括：
--weight-format：量化精度，可以選擇fp32fp16int8int4int4_sym_g128int4_asym_g128int4_sym_g64int4_asym_g64
--group-size：權重里共享量化參數的通道數量
--ratio：int4/int8權重比例，默認為1.0 ， 0.6表示60%的權重以int4表， 40%以int8表示
--sym：是否開啟對稱量化
第三步，模型部署
針對ERNIE-4.5系列的文本生成類模型，我們可以使用Optimum-Intel進行任務部署和加速。 Optimum-Intel可以通過調用OpenVINO runtime后端，以實現在IntelCPU及GPU平臺上的性能優化，同時由于其兼容Transformers庫，因此我們可以直接參考官方示例，將其遷移至Optimum-Intel執行。
fromtransformersimportAutoTokenizer
fromoptimum.intelimportOVModelForCausalLM
model_path=\"ERNIE-4.5-0.3B-PT-OV\"
#load the tokenizer and the model
tokenizer=AutoTokenizer.from_pretrained(model_pathtrust_remote_code=True)
model=OVModelForCausalLM.from_pretrained(model_pathtrust_remote_code=True)
#prepare the model input
prompt=\"Giveme a short introduction to large language model.\"
messages=[
{\"role\":\"user\"\"content\":prompt

text=tokenizer.apply_chat_template(
messages
tokenize=False
add_generation_prompt=True
)
model_inputs=tokenizer([text
add_special_tokens=Falsereturn_tensors=\"pt\").to(model.device)
#conduct text completion
generated_ids=model.generate(
model_inputs.input_ids
max_new_tokens=1024
)
output_ids=generated_ids[0
[len(model_inputs.input_ids[0
):
.tolist
#decode the generated ids
generate_text=tokenizer.decode(output_idsskip_special_tokens=True).strip(\"\\")
【英特爾Day0完成文心大模型4.5系列開源模型的端側部署】print(\"generate_text:\"generate_text)
輸入結果參考：
generate_text: \"Large LanguageModels (LLMs) are AI-powered tools that use natural languageprocessing (NLP) techniques to generate human-like text answerquestions and perform reasoning tasks. They leverage massivedatasets advanced algorithms and computational power to processanalyze and understand human language enabling conversational AIthat can understand interpret and respond to a wide range ofinputs. Their applications range from customer support to academicresearch from language translation to creative content generation.\"
(10064498)

英特爾Day0完成文心大模型4.5系列開源模型的端側部署

推薦閱讀

梔子花有什么顏色

宮保雞丁怎么炒

金屬氧化性順序表金屬離子氧化性順序表

廣東廣西的廣是指廣東廣西的廣是指什么

爐石傳說擎旗奔行者怎么樣爐石擎旗奔行者效果一覽

沖雞是好是壞

夢見女鬼對我笑夢見女鬼對我笑是什么意思

過了三伏適合游泳嗎

席地而坐簡筆畫步驟席地而坐簡筆畫畫法

陳醋雞腳的正確方法

榆次御?Z房價,太原榆次房價漲了還是跌了

外媒評測iPhone,iphone xs評測

牛肉怎么醬出來的

長沙民政職業技術學院官網，了解長沙航空職業技術學院請進

讀《濫竽充數》有感濫竽充數讀后感

breadnbutter,面包黃油是什么顏色