Skip to content
Home » Huấn luyện Mô hình Ngôn ngữ Lớn (LLM)

Huấn luyện Mô hình Ngôn ngữ Lớn (LLM)

Ⓐ. Đề dẫn

Giả thiết rằng bỗng nhiên chúng ta “mơ” phát triển một LLM (Large Language Model). Dĩ nhiên việc đầu tiên chúng ta phải tính đến là làm cái đó mất bao lâu và tốn bao nhiêu tiền.

Đầu tiên, mời anh/chị tham khảo ước lượng về thời gian và chi phí cần thiết để huấn luyện một LLM. Tiếp đó là một vài dữ liệu về mối tương quan quốc tế trong việc tạo dựng và phát triển LLM. Phần cuối xin có một vài bình luận về “hiện tượng” DeepSeek.

Dữ liệu trong bài post này không có các tham chiếu cụ thể (tôi tìm kiếm trên Internet phối hợp sử dụng chatbot). Nếu có các nhận định thì đó là do chủ quan của cá nhân. Tóm lại, đây chỉ là bài đàm luận để giải trí đơn thuần, không có gì là “hàn lâm” cả.

Ⓑ. Thời gian và chi phí

Huấn luyện Mô hình Ngôn ngữ Lớn (LLM) là một quá trình tiêu tốn rất nhiều tài nguyên, phụ thuộc vào kích thước mô hình, kiến trúc, phần cứng và dữ liệu huấn luyện. Dưới đây là phân tích chi tiết về thời gian và chi phí cần thiết để huấn luyện một LLM:

1. Thời gian huấn luyện
Thời gian huấn luyện một LLM phụ thuộc vào quy mô mô hình và sức mạnh phần cứng. Dưới đây là ước tính sơ bộ:

  • Mô hình nhỏ (1–10 tỷ tham số). Thời gian huấn luyện: Vài tuần đến một tháng. Phần cứng: Vài trăm GPU (NVIDIA A100, H100 hoặc TPU).
  • Mô hình tầm trung (10–100 tỷ tham số, như GPT-3). Thời gian huấn luyện: 1 đến 3 tháng. Phần cứng: Hơn 1.000 GPU/TPU.
  • Mô hình lớn (100+ tỷ tham số, như GPT-4, PaLM, LLaMA-3). Thời gian huấn luyện: Từ 3 đến 6+ tháng. Phần cứng: Hơn 10.000 GPU/TPU.

Ví dụ, GPT-3 (175 tỷ tham số) được huấn luyện bằng hơn 10.000 GPU NVIDIA V100 trong vài tháng. GPT-4 có thể đã sử dụng GPU mạnh hơn (A100/H100) và thời gian huấn luyện lâu hơn.

2. Chi phí huấn luyện
Chi phí huấn luyện một LLM phụ thuộc vào:

  • Chi phí thuê GPU/TPU (hoặc tự xây dựng hạ tầng phần cứng).
  • Điện năng và hệ thống làm mát.
  • Lưu trữ và xử lý dữ liệu.
  • Chi phí nhân sự và bảo trì.

Ví dụ thực tế:

  • GPT-3 (175 tỷ tham số) → 4–12 triệu USD
  • GPT-4 (lớn hơn GPT-3, đa phương thức – multimodal) → 50–100+ triệu USD.
  • PaLM (540 tỷ tham số, Google) → 10–20 triệu USD.
  • LLaMA-2 (65 tỷ tham số, Meta) → 2–5 triệu USD.

3. Yêu cầu phần cứng
Để huấn luyện một LLM, cần có:

  • GPU/TPU hiệu suất cao, ví dụ: NVIDIA A100, H100, hoặc TPU của Google.
  • Hệ thống kết nối tốc độ cao (NVLink, InfiniBand) để giúp GPU giao tiếp hiệu quả.
  • Lưu trữ khổng lồ (hàng terabyte đến petabyte) để chứa dữ liệu huấn luyện
  • Hệ thống làm mát và cung cấp điện tối ưu, vì hàng nghìn GPU tạo ra lượng nhiệt khổng lồ.

Ví dụ, GPT-4 có thể đã sử dụng 20.000–25.000 GPU NVIDIA A100, mỗi GPU có giá từ 10.000–30.000 USD, làm cho chi phí hạ tầng rất đắt.

4. Dữ liệu và tiêu thụ năng lượng

  • Dữ liệu huấn luyện: LLM được huấn luyện bằng dữ liệu thu thập được từ các trang web, sách, bài báo nghiên cứu, mã nguồn, và dữ liệu tổng hợp – có thể lên đến hàng nghìn tỷ token.
  • Tiêu thụ năng lượng: Huấn luyện một LLM có thể tiêu thụ hàng triệu kWh, tương đương với lượng điện của một thành phố nhỏ trong vài tháng.

Ví dụ, quá trình huấn luyện GPT-3 tiêu thụ 1.287 MWh, phát thải 550 tấn CO₂ – tương đương với một chuyến bay xuyên Đại Tây Dương cho hàng trăm hành khách.

5. Chi phí vận hành sau huấn luyện
Sau khi huấn luyện, chi phí khai thác (inference) và bảo trì cũng rất cao:

  • Chạy một LLM trong thực tế có thể tiêu tốn hàng triệu USD mỗi tháng do chi phí GPU/TPU.
  • Inference (trả lời câu hỏi) rất tốn kém vì mỗi truy vấn đều yêu cầu tính toán GPU/TPU.
  • Để duy trì độ chính xác, các mô hình phải được cập nhật liên tục với dữ liệu mới.

6. Tóm tắt

  • Mô hình nhỏ → Vài tuần huấn luyện, 1–5 triệu USD.
  • Mô hình trung bình (GPT-3) → 1–3 tháng huấn luyện, 4–12 triệu USD.
  • Mô hình lớn (GPT-4) → 3–6+ tháng huấn luyện, 50–100+ triệu USD.
  • Yêu cầu cơ sở hạ tầng lớn và tiêu thụ năng lượng khổng lồ.
  • Chi phí vận hành và duy trì rất cao.

Vì lý do này, chỉ những công ty công nghệ lớn (OpenAI, Google, Meta, Microsoft) hoặc các tổ chức nghiên cứu có nguồn vốn lớn mới có thể huấn luyện LLM tiên tiến nhất. Các nhóm nhỏ thường sẽ tinh chỉnh (fine-tune) các mô hình mã nguồn mở thay vì huấn luyện từ đầu.

Ⓒ. Tương quan quốc tế

Các công ty và tổ chức hàng đầu trong lĩnh vực LLM chủ yếu là các tập đoàn công nghệ lớn, phòng thí nghiệm nghiên cứu AI và các tổ chức được chính phủ hậu thuẫn. Dưới đây là danh sách các “ông lớn” theo khu vực và mức độ ảnh hưởng của họ trong hệ sinh thái AI.

1. Mỹ

  • OpenAI – Nhà phát triển GPT-4, ChatGPT, Codex, DALL·E (được Microsoft hỗ trợ)
  • Google DeepMind – Phát triển Gemini (trước đây là Bard), GLaM, PaLM, LaMDA
  • Anthropic – Nhà sáng lập Claude AI (được Google và Amazon đầu tư)
  • Meta (Facebook AI) – Phát triển LLaMA models (LLaMA 2, LLaMA 3)
  • Microsoft – Tích hợp mô hình OpenAI vào Copilot, phát triển dòng Phi models
  • NVIDIA – Xây dựng Megatron-Turing NLG, hệ sinh thái AI dựa trên phần cứng
  • Cohere – Nhà phát triển Command R, Embed models cho doanh nghiệp
  • Mistral AI – Dẫn đầu phong trào mã nguồn mở với Mistral 7B, Mixtral
  • AI21 Labs – Nổi bật với Jurassic models, đối thủ cạnh tranh của GPT
  • Hugging Face – Duy trì các mô hình mã nguồn mở và thư viện Transformers
  • xAI – Phát triển Grok (hiện là Grok 3)

2. Trung Quốc

  • Baidu – Ernie models (Ernie 4.0)
  • Alibaba Cloud – Qwen (Qwen 2.5, Tongyi Qianwen)
  • Huawei – PanGu-Σ và các mô hình AI khác
  • Tencent AI Lab – Phát triển Hunyuan model
  • Moonshot AI – Kimi models (Kimi k1.5)
  • ByteDance (công ty mẹ của TikTok) – Doubao-1.5-Pro
  • Viện Hàn lâm AI Bắc Kinh (BAAI) – WuDao 2.0 (1.75 nghìn tỷ tham số)

3. Châu Âu & phần còn lại của thế giới

  • Mistral AI (Pháp) – Dẫn đầu phong trào LLM mã nguồn mở, với Mistral 7B, Mixtral
  • LightOn (Pháp) – Phát triển Lyra-fr, Orion-fr dành cho tiếng Pháp
  • EleutherAI (Anh/Toàn cầu) – Tạo dựng các mô hình GPT-J, GPT-NeoX, Pythia
  • LAION (Đức) – Hỗ trợ OpenAssistant và AI mã nguồn mở
  • Aleph Alpha (Đức) – Phát triển Luminous models
  • TII (UAE – Các Tiểu vương quốc Ả Rập Thống nhất) – Phát hành Falcon 180B, Falcon 40B
  • Sber AI (Nga) – Phát triển GigaChat
  • G42 (UAE) – Hợp tác với OpenAI & Microsoft để phát triển LLM

Nhận định

  • Mỹ đang dẫn đầu trong lĩnh vực AI tiên tiến, với sự thống trị của OpenAI, Google, Meta và Microsoft.
  • Trung Quốc đang bắt kịp rất nhanh, tập trung vào tự chủ AI, với những “gã khổng lồ” như Alibaba, Baidu.
  • Châu Âu đang đẩy mạnh phong trào mã nguồn mở, với Mistral AI & Hugging Face đóng vai trò quan trọng.
  • Trung Đông (UAE, Ả Rập Xê Út) đang đầu tư mạnh mẽ vào AI, nhằm dẫn đầu AI trong khu vực.

Ⓓ. DeepSeek

DeepSeek AI là một cái tên đang lên trong hệ sinh thái AI Trung Quốc, tập trung vào LLM mã nguồn mở và mô hình nền tảng (foundation models). DeepSeek hướng đến việc cạnh tranh với các LLM phương Tây như GPT-4 của OpenAI hay LLaMA của Meta, mang đến một lựa chọn thay thế cho các nhà phát triển và doanh nghiệp ở Trung Quốc cũng như toàn cầu.

Những điểm nổi bật của DeepSeek AI

  1. DeepSeek-Coder – Một mô hình chuyên biệt cho tạo mã lập trình, tối ưu hóa để hỗ trợ lập trình bằng AI.
  2. DeepSeek-LLM – Được phát triển để cạnh tranh với LLaMA và Mistral AI, hướng đến cả ứng dụng AI tổng quát lẫn chuyên sâu.
  3. Chiến lược mã nguồn mở – Không giống các công ty AI Trung Quốc khác như Baidu (Ernie) hay Alibaba (Qwen), DeepSeek đi theo hướng mã nguồn mở, giúp thu hút cộng đồng nghiên cứu và doanh nghiệp.
  4. Tính mở rộng & hiệu suất cao – Tập trung vào tối ưu hóa hiệu suất mô hình để có thể ứng dụng thực tế tốt hơn và mở rộng dễ dàng.
  5. Vị thế chiến lược – Dù chưa lớn như OpenAI hay Google, DeepSeek đang tự định vị là đối thủ AI mã nguồn mở hàng đầu của Trung Quốc.

Nhận định
DeepSeek AI là một trong những startup AI mã nguồn mở triển vọng nhất của Trung Quốc, đang tạo ra sự cạnh tranh mạnh mẽ với LLaMA của Meta và Mistral AI. Nếu tiếp tục phát triển hiệu quả và bền vững, DeepSeek có thể trở thành một nhân tố quan trọng trong hệ sinh thái LLM toàn cầu, đặc biệt tại châu Á và trong cộng đồng AI mã nguồn mở.

Ⓔ. Suy ngẫm chậm

Giả thiết rằng chúng ta có tiền để dựng một LLM. Tất nhiên, tiền chỉ là một phần của nguồn lực. Tôi thấy có 2 điểm thách thức:

Tính khả thi

  • Cần nguồn nhân lực có hiểu biết sâu về Machine Learning, về Data Analytics, về vận hành hạ tầng phần cứng.
  • Cần hạ tầng là các Data Centers với hàng ngàn, hàng chục ngàn (thậm chí là hàng trăm ngàn) GPU.
  • Có một nguồn điện dồi dào, tương đương với nguồn điện cho một thành phố (nhỏ).

Tính cạnh tranh

  • Sau khi dựng được LLM rồi thì tiếp theo là phải làm benchmarking (kiểm chuẩn). Số lượng các benchmarks ngày càng nhiều, với độ khó ngày càng tăng. Thông thường chúng ta phải so sánh kết quả benchmarking với các LLM khác của thế giới.
  • Khai thác mô hình (inference: suy diễn): ví dụ, GPT-4 (của OpenAI) cần hơn 30.000 GPU, tiêu thụ điện khổng lồ.
  • Tiếp theo, phải tính đến chuyện liên tục mở rộng (scaling) cả về dữ liệu và quy mô của mô hình (số tham số). Chú ý rằng tăng số lượng tham số của mô hình là làm tăng nhu cầu bộ nhớ và tính toán theo cấp số nhân.

FB Lê Văn Lợi

Leave a Reply

Your email address will not be published. Required fields are marked *

ĐĂNG KÝ THAM QUAN

    Ngày tham quan