30. 大語言模型 Large Language Models (LLM)
大型語言模型是基於大量資料進行預
訓練的超大型深度學習模型。基礎轉換器是一組神經網
路,這些神經網路由具有自我專注功能的編碼器和解碼
器組成。編碼器和解碼器從一系列文字中提取含義,並
理解其中的字詞和片語之間的關係。這類大規模的模型,
其中通常具有數千億個參數。這種大規模模型可以擷取
通常來自網際網路的大量資料,但也可以從包含 500
多億個網頁的 Common Crawl 和擁有約 5700 萬個頁
面的 Wikipedia 等來源擷取資料。目前常見的大模型包
含GPT-4、LLAMA等,且大部分都是基於Transformer
的架構上做改動跟開發。
Transformer 架構
專案動機及場景介紹 方案流程介紹 專案使用模型 方案工作流程 工作總結及展望
31. Model
Architecture Transformer Transformer
Open-sourced Yes No
Capability Text generation
Text summarization
Math
Common reasoning
General knowledge
Reading comprehension
QA
Text generation
Text summarization
Math
Common reasoning
General knowledge
Reading comprehesion
QA
Cost Free Free, with limited request
Data privacy High, offline Low, queries will be recorded
by OpenAI
GPT-4 VS LLAMA2
專案動機及場景介紹 方案流程介紹 專案使用模型 方案工作流程 工作總結及展望
33. 量化技術-Quantization
LLAMA2-7b 4-bit 3.5 GB GGML version running on
the Mac M2 Laptop
https://chih-sheng-huang821.medium.com/ai%E6%A8%A1%E5%9E%8B%E5%A3%93%E7%B8%AE%E6%8A%80%E8%A1%93-
%E9%87%8F%E5%8C%96-quantization-966505128365
https://ggml.ai/?utm_source=talkingdev
GGML is a tensor library for machine learning
to enable large models and high performance on
commodity hardware. It is used by llama.cpp and
whisper.cpp
• Written in C
• 16-bit float support
• Integer quantization support (e.g. 4-bit, 5-bit,
8-bit)
量化:將模型縮小的方式
• 模型量化主要是將浮點數轉換成整數,減少空間的同時,減少計算上精度損
失的方法。
• 常見的量化手段包含QLoRA以及GGML,GGML專注於CPU優化的量化實
踐。
專案動機及場景介紹 方案流程介紹 專案使用模型 方案工作流程 工作總結及展望