20+ thuật ngữ AI tạo hình ảnh quan trọng bạn cần biết

Tác giả: EQVN.NET | Chuyên mục: , , | Ngày cập nhật: 19 - 08 - 2025

Bài viết này hữu ích cho bạn không?
20+ thuật ngữ AI tạo hình ảnh quan trọng bạn cần biết Trong bối cảnh công nghệ phát triển nhanh chóng, trí tuệ nhân tạo (AI) đã và đang mở ra những bước tiến vượt bậc trong lĩnh vực sáng tạo hình ảnh. Tuy nhiên, việc tiếp cận và khai thác sức mạnh của các công cụ AI tạo hình ảnh không hề đơn giản, bởi đi…
5 1 5 2
0 / 5 5

Your page rank:

20+ thuật ngữ AI tạo hình ảnh quan trọng bạn cần biết

Chia sẻ bài viết này:

Trong bối cảnh công nghệ phát triển nhanh chóng, trí tuệ nhân tạo (AI) đã và đang mở ra những bước tiến vượt bậc trong lĩnh vực sáng tạo hình ảnh. Tuy nhiên, việc tiếp cận và khai thác sức mạnh của các công cụ AI tạo hình ảnh không hề đơn giản, bởi đi kèm với nó là hệ thống thuật ngữ chuyên ngành dày đặc và dễ gây nhầm lẫn.

Chính vì vậy, việc nắm vững các thuật ngữ AI tạo hình ảnh không chỉ giúp người dùng hiểu rõ cách hoạt động của công cụ, mà còn tối ưu hóa trải nghiệm sáng tạo, tiết kiệm thời gian và nâng cao chất lượng đầu ra. Mỗi khái niệm, từ “prompt” cho đến “checkpoint” hay “LoRA”, đều ẩn chứa ý nghĩa quan trọng, quyết định mức độ thành công khi tạo ra một hình ảnh AI. Trong bài viết này, EQVN sẽ cung cấp cái nhìn toàn diện và chuyên sâu về các thuật ngữ AI tạo hình ảnh phổ biến và quan trọng.

1. Các mô hình nền tảng (Base Models)

Đây là “bộ não” của hệ thống AI tạo hình ảnh. Chọn đúng mô hình nền tảng quyết định tông màu, phong cách và mức độ hiện thực—giống như chọn máy ảnh/ống kính trước khi chụp.

1.1. Checkpoint (Model gốc)

20-thuat-ngu-AI-tao-hinh-anh-quan-trong-ban-can-biet
Checkpoint, “bộ não” đã được huấn luyện trên hàng triệu bức ảnh để AI có thể hiểu về con người, vật thể, phong cách…

Checkpoint hay còn gọi là mô hình gốc, là thuật ngữ AI tạo hình ảnh về file nền tảng của AI tạo hình ảnh. Đây chính là “bộ não” đã được huấn luyện trên hàng triệu bức ảnh để AI có thể hiểu về con người, vật thể, phong cách…

Các checkpoint gốc thường nặng từ vài GB trở lên (ví dụ: SDXL ~6–7GB). Ngoài ra, chúng được huấn luyện để “biết một ít về mọi thứ”, nhưng chưa quá chuyên sâu về phong cách hay lĩnh vực cụ thể. Để mở rộng hoặc làm chuyên sâu hơn về một phong cách, bạn có thể áp dụng các kĩ thuật như Fine-tuning (tinh chỉnh toàn bộ mô hình), LoRA (thêm lớp học nhỏ, nhẹ hơn) hay DreamBooth (huấn luyện thêm dữ liệu cá nhân hóa, ví dụ nhân vật cụ thể).

Ví dụ trong Stable Diffusion:

  • SD v1.4 / v1.5: huấn luyện trên LAION-5B (tập dữ liệu hình ảnh – văn bản lớn). Đây là checkpoint gốc phổ biến, cho ra hình ảnh tổng quát nhiều chủ đề.
  • SDXL 1.0: là phiên bản base model tiên tiến hơn, huấn luyện với dữ liệu nhiều chất lượng và chi tiết hơn, cho hình ảnh sắc nét, tự nhiên hơn.

Checkpoint quyết định phong cách tổng thể của ảnh, giống như việc bạn chọn một chiếc máy ảnh với ống kính riêng biệt.

1.2. Custom Checkpoint

Nếu như Checkpoint gốc là một người họa sĩ đã học mỹ thuật cơ bản: biết vẽ người, phong cảnh, động vật, màu sắc, thì Custom Checkpoint là cách để bạn giúp người họa sĩ đó vẽ đúng các phong cách chuyên biệt như phong cách anime Nhật Bản, phong cách siêu thực hay fantasy.

Đây là checkpoint được cộng đồng hoặc cá nhân tinh chỉnh lại để nhấn mạnh một phong cách nhất định (anime mềm màu, chân thực điện ảnh, fantasy). Custom checkpoint thường được thiết kế theo dạng “plug-and-play”, nghĩa là bạn chỉ cần tải về, load lên là có thể dùng ngay, không cần chỉnh quá nhiều thông số phức tạp để đạt được phong cách mong muốn.

Tóm lại, thuật ngữ AI tạo hình ảnh Custom Checkpoint chính là giải pháp tối ưu cho nhu cầu “ra ảnh nhanh – đẹp – đúng phong cách” mà không đòi hỏi người dùng phải quá am hiểu kỹ thuật. Nó giống như việc chọn một chiếc máy ảnh với preset màu sẵn có, bạn chỉ cần bấm máy là đã ra đúng tông hình mong muốn.

1.3. Diffusion Model

Thuật ngữ AI tạo hình ảnh Diffusion Model là kiến trúc tạo ảnh phổ biến nhất hiện nay: bắt đầu từ nhiễu ngẫu nhiên, mô hình dần “khử nhiễu” qua nhiều bước để xuất hiện hình ảnh hoàn chỉnh. Diffusion model là nền tảng cốt lõi của nhiều công cụ tạo ảnh hiện nay (Stable Diffusion, DALL·E, MidJourney,…).

Thuật ngữ AI tạo hình ảnh này mang lại nhiều ưu điểm nổi bật trong việc tạo ảnh bằng trí tuệ nhân tạo. Trước hết, ảnh được tạo ra thường có độ phân giải cao với nhiều chi tiết nhỏ, đảm bảo tính sắc nét và chân thực. Bên cạnh đó, nhờ quá trình tạo ảnh trải qua nhiều bước, mô hình này thể hiện tính ổn định cao, giảm thiểu rủi ro phát sinh lỗi trong quá trình sinh ảnh.

Một lợi thế khác là khả năng kiểm soát linh hoạt, khi diffusion model dễ dàng kết hợp với các kỹ thuật như LoRA, ControlNet hay OpenPose để điều chỉnh chi tiết theo nhu cầu. Không chỉ vậy, mô hình còn có khả năng sáng tạo mạnh mẽ, vừa có thể sinh ảnh hoàn toàn mới từ số không, vừa hỗ trợ chỉnh sửa ảnh thông qua các kỹ thuật inpainting và outpainting.

2. Các kỹ thuật huấn luyện bổ sung

Khi mô hình gốc chưa đủ “hiểu” về nhân vật hoặc phong cách bạn chuyên biệt, các kỹ thuật huấn luyện bổ sung sẽ giúp mô hình học nhanh, nhẹ và linh hoạt hơn.

2.1. LoRA (Low‑Rank Adaptation)

LoRA như một tệp nhỏ “dạy thêm” cho mô hình về một nhân vật, trang phục, chất liệu hoặc phong cách cọ vẽ.
LoRA như một tệp nhỏ “dạy thêm” cho mô hình về một nhân vật, trang phục, chất liệu hoặc phong cách cọ vẽ.

Khi muốn tạo các nhân vật nhất quán, bạn không thể bỏ qua thuật ngữ AI tạo hình ảnh này. LoRA là một phương pháp huấn luyện mô hình AI, bạn có thể hình dùng LoRA như một tệp nhỏ “dạy thêm” cho mô hình về một nhân vật, trang phục, chất liệu hoặc phong cách cọ vẽ. Nó được phát triển để giúp người dùng tinh chỉnh (fine-tune) mô hình gốc mà không cần phải huấn luyện lại toàn bộ, từ đó tiết kiệm thời gian, tài nguyên máy tính và dung lượng lưu trữ.

Nói nôm na, nếu một mô hình gốc là một cuốn sách dày 1000 trang, thì LoRA giống như những tờ ghi chú dán thêm vào cuốn sách để bổ sung kiến thức mới, thay vì phải viết lại cả cuốn sách từ đầu. Điều này giúp LoRA rất nhẹ (chỉ vài MB, thay vì vài GB như checkpoint).

Ứng dụng của LoRa

  • Huấn luyện nhân vật nhất quán: ví dụ muốn AI luôn vẽ một nhân vật cụ thể (gương mặt ca sĩ, anime, idol).
  • Học phong cách vẽ: giúp AI “bắt chước” phong cách của một họa sĩ hoặc một bộ phim hoạt hình.
  • Học vật thể mới: dạy AI vẽ một chiếc xe, trang phục, phụ kiện, thương hiệu… chưa có trong dữ liệu gốc.

Bạn có thể nạp nhiều LoRA cùng lúc và điều chỉnh trọng số để pha trộn phong cách theo ý muốn mà không phải thay checkpoint.

2.2. Embedding / Textual Inversion

Đây là thuật ngữ AI tạo hình ảnh chỉ cách tạo ra một token đặc biệt (thường 1–2 từ) đại diện cho một phong cách hay đối tượng. Khi chèn token vào prompt, mô hình sẽ tái hiện đúng “ý niệm” đã học.

Ví dụ, nếu bạn muốn AI tạo đúng một nhân vật gốc của mình (một OC, idol, phong cách vẽ đặc thù…), bạn sẽ gán cho nhân vật đó một “từ khóa” riêng, như tuankun-style hoặc mycharacter. Sau đó bạn huấn luyện embedding để AI hiểu rằng mỗi khi gặp từ khóa này thì phải tạo ra hình ảnh theo phong cách/nhân vật đó. Embedding rất nhẹ, dễ chia sẻ và huấn luyện rất nhanh, phù hợp cho các yếu tố tinh tế hoặc nhãn hiệu cá nhân.

Tóm lại, thuật ngữ AI tạo hình ảnh Embedding giống như việc bạn dạy AI học một “từ mới” hoặc “tag đặc biệt” để mỗi lần nhắc đến, AI sẽ tái tạo đúng phong cách, nhân vật hay chi tiết mà bạn muốn, mà không cần phải thay đổi toàn bộ mô hình gốc.

2.3. Hypernetwork

Hypernetwork, là một thuật ngữ AI tạo hình ảnh chỉ một kỹ thuật mở rộng giúp mô hình gốc học thêm những “kiểu phong cách” hoặc đặc trưng riêng mà không cần phải huấn luyện lại toàn bộ checkpoint. Bạn có thể hình dung thuật ngữ AI tạo hình ảnh hypernetwork giống như một “mạng phụ” gắn kèm vào mô hình chính. Khi kết hợp, nó sẽ tác động lên cách mô hình xử lý và tạo ra hình ảnh, từ đó thay đổi phong cách, chi tiết hoặc cảm xúc tổng thể của tác phẩm.

Dù hiện ít phổ biến hơn LoRA do nặng và khó kiểm soát, hypernetwork vẫn hữu ích cho các yêu cầu phong cách rộng và đậm chất thẩm mỹ.

2.4. DreamBooth

20-thuat-ngu-AI-tao-hinh-anh-quan-trong-ban-can-biet
DreamBooth là một thuật ngữ AI tạo hình ảnh, dùng để chỉ kỹ thuật huấn luyện tùy biến mô hình AI hình ảnh, được phát triển bởi Google Research

DreamBooth là một thuật ngữ AI tạo hình ảnh, dùng để chỉ kỹ thuật huấn luyện tùy biến mô hình AI hình ảnh, được phát triển bởi Google Research, cho phép mô hình tạo ra hình ảnh mang đặc điểm riêng của một đối tượng cụ thể dựa trên một số ít hình ảnh tham chiếu (thường từ 3–5 tấm).

Cơ chế hoạt động của thuật ngữ AI tạo hình ảnh này là dựa trên việc gán một token (từ khóa đặc biệt) cho đối tượng cần cá nhân hóa. Khi huấn luyện, mô hình học cách liên kết token này với đặc trưng hình ảnh cụ thể của đối tượng. Nhờ đó, sau khi hoàn tất, người dùng có thể tạo prompt chứa token này để sinh ra hình ảnh mới, vừa giữ đúng bối cảnh mà họ mong muốn (ví dụ: “con chó [token] mặc áo giáp trong rừng tuyết”), vừa duy trì được đặc điểm độc nhất của đối tượng gốc (giống hệt chú chó trong ảnh tham chiếu).

Nói đơn giản, thuật ngữ AI tạo hình ảnh DreamBooth giống như cách bạn “dạy” cho mô hình AI biết một nhân vật hay vật thể mới, để sau đó nó có thể tưởng tượng và tái hiện nhân vật ấy trong hàng ngàn tình huống sáng tạo khác nhau.

2.5. So sánh các kỹ thuật huấn luyện bổ sung

Mỗi phương pháp đều có ưu điểm, hạn chế và mức độ phù hợp riêng. Bảng sau đây sẽ giúp bạn dễ dàng so sánh sự khác biệt giữa các thuật ngữ AI tạo hình ảnh:

Tiêu chíLoRAEmbeddingHypernetworkDreamBooth
Mục đích chínhTinh chỉnh mô hình nhanh gọn, nhẹ, tập trung vào vài tham số trọng yếuTạo vector đại diện cho khái niệm/nhân vật/đối tượng mớiGắn thêm mạng nhỏ để điều chỉnh trọng số mô hình lớn mà không làm thay đổi gốcHuấn luyện mô hình để ghi nhớ đặc trưng cá nhân, phong cách hoặc đối tượng cụ thể
Kích thước file
Nhẹ (vài MB đến chục MB)
Rất nhẹ (KB – vài MB)Nhẹ vừa (tương tự LoRA hoặc hơn một chút)Rất nặng (vài trăm MB đến vài GB)
Tốc độ trainNhanh (vài phút – vài chục phút)Rất nhanh (chỉ vài phút)Trung bìnhRất chậm (hàng giờ đến vài ngày)
Khả năng ghi nhớ chi tiết nhân vậtTốt, ổn định, dễ khái quát nhiều tư thế/góc chụpHạn chế, chỉ phù hợp với khái niệm trừu tượng hoặc đặc điểm nhỏỔn định, có thể áp dụng rộng hơn embeddingRất mạnh, tái hiện chi tiết chính xác nhân vật/đối tượng
Khả năng giữ nguyên style/mô hình gốcRất tốt, vì chỉ tinh chỉnh một phầnRất tốt, vì chỉ thêm vector nhỏTốt, vì gắn thêm mạng nhỏ thay vì thay đổi gốcTrung bình – dễ làm mô hình “quá nhớ” một nhân vật, khó khái quát
Ứng dụng phù hợpTạo nhân vật nhất quán, tinh chỉnh style nhanh.Thêm prompt từ khóa riêng (ví dụ: tên nhân vật) để mô tả dễ hơnDùng để mở rộng phong cách sáng tạo mà không ảnh hưởng nhiều mô hình gốcGhi nhớ chính xác nhân vật/thương hiệu, dùng cho dự án cá nhân hóa cao
Độ phổ biến hiện nayRất phổ biến, cộng đồng dùng nhiều nhấtPhổ biến nhưng chủ yếu để thêm khái niệm nhỏÍt phổ biến hơn, thiên về nghiên cứuPhổ biến trong lĩnh vực cá nhân hóa (ví dụ: ảnh người thật)

3. Prompt và các biến thể

Prompt là một thuật ngữ AI tạo hình ảnh rất phổ biến. Prompt là “ngôn ngữ” bạn dùng để nói chuyện với mô hình. Cách viết, cấu trúc, trọng số và từ vựng sẽ ảnh hưởng trực tiếp đến chất lượng của hình ảnh.

3.1. Prompt

Prompt là thuật ngữ AI tạo hình ảnh, dùng để chỉ đoạn mô tả bạn nhập vào để “ra lệnh” cho AI tạo ra hình ảnh. Prompt càng rõ ràng, càng nhiều ngữ cảnh, kết quả càng sát mong muốn.

Cấu trúc thường có:

  • Chủ thể chính: con người, động vật, đồ vật.
  • Bối cảnh: trong rừng, thành phố, không gian ảo.
  • Ánh sáng & chất liệu: soft lighting, neon glow, metallic surface.
  • Ống kính & góc chụp: 35mm, fisheye, portrait shot.
  • Phong cách nghệ thuật: photorealistic, anime, digital painting.

Ví dụ: “A futuristic city skyline at night, neon lights, cyberpunk style, highly detailed, 8k render.”

3.2. Negative Prompt

Trong các thuật ngữ AI tạo hình ảnh, đây là danh sách những gì bạn không muốn xuất hiện trong hình ảnh (nhòe, méo tay, noise, watermark, lowres). Thuật ngữ AI tạo hình ảnh Negative prompt sẽ giúp bạn “lọc sạch” được các lỗi phổ biến, giúp AI có thể tạo ảnh chính xác và đúng theo các yêu cầu của bạn hơn.

Ví dụ:

  • Negative prompt: “blurry, deformed hands, watermark, lowres, bad anatomy, extra limbs”.
  • Kết quả: Ảnh sắc nét hơn, nhân vật có bàn tay rõ ràng, không còn lỗi “3 tay, 6 ngón”.

3.3. Prompt Weight

20-thuat-ngu-AI-tao-hinh-anh-quan-trong-ban-can-biet
Prompt Weight là thuật ngữ chỉ việc bạn điều khiển mức độ ảnh hưởng của một số cụm từ trong prompt

Đây là thuật ngữ AI tạo hình ảnh dùng để chỉ kĩ thuật gán trọng số cho một số cụm từ trong prompt để AI hiểu được đâu là yếu tố mà bạn muốn nhấn mạnh hơn.

Cách sử dụng:

  • (từ khóa) hoặc (từ khóa:1.3) → tăng độ ưu tiên.
  • [từ khóa] hoặc (từ khóa:0.7) → giảm độ ưu tiên.

Thông thường, các mô hình tạo ảnh AI sẽ cho phép bạn chọn các thông số cho các cụm từ, không cần phải nhập tay, nên bạn chỉ cần hiểu rõ cơ chế hoạt động của kĩ thuật này

Ví dụ:

  • Prompt: “A portrait of a woman, (soft lighting:1.4), [busy background:0.6]”.
  • Kết quả: Hình tập trung vào ánh sáng mềm, background ít chi tiết gây nhiễu.

3.4. Style Prompt

Style Prompt là một thuật ngữ AI tạo hình ảnh không được nhắc đến thường xuyên, thông thường các công cụ sẽ gộp thuật ngữ này vào Prompts. Đây là các cụm mô tả có sẵn thể hiện lối xử lý ánh sáng, grading, chất liệu (cinematic lighting, volumetric fog, 35mm, photorealistic, painterly). Style prompt là một thuật ngữ AI tạo hình ảnh rất hữu ích khi bạn mong muốn một bộ ảnh nhất quán phong cách, ánh sáng, chất liệu.

Ví dụ phổ biến:

  • Ảnh điện ảnh: cinematic lighting, anamorphic lens, film grain.
  • Ảnh thực tế: ultra realistic, photorealistic, DSLR 50mm lens.
  • Nghệ thuật: oil painting, watercolor, cyberpunk, ukiyo-e.

3.5. Tokenization

Đây là quá trình mô hình cắt prompt thành các “token”. Mỗi mô hình chỉ đọc được số lượng token nhất định (ví dụ 75 token). Nếu prompt quá dài thì phần sau có thể bị cắt bỏ; vì vậy hãy ưu tiên từ khóa quan trọng lên đầu, dùng dấu phẩy phân đoạn rõ ràng để mô hình “đọc” trúng trọng tâm hơn.

Ví dụ:

  • Prompt: “A detailed photo of a knight in armor, standing in a misty forest, cinematic lighting, epic composition, 8k render”.
  • Tokenization: được chia nhỏ thành “a”, “detailed”, “photo”, “of”, “knight”, … để mô hình hiểu từng ý.

4. Các thông số kĩ thuật

4.1. Sampler

Sampler là thuật ngữ AI tạo hình ảnh, thể hiện thuật toán lấy mẫu trong quá trình “khử nhiễu” (denoising). Khi mô hình Diffusion tạo ảnh, nó bắt đầu từ một ma trận nhiễu ngẫu nhiên. Sampler sẽ quyết định cách từng lớp nhiễu được loại bỏ dần để hình thành hình ảnh cuối cùng. Nói cách khác, đây là “cách mô hình đi từ nhiễu → ảnh rõ nét”.

Các loại phổ biến:

  • Euler / Euler a: chạy nhanh, dễ dùng, thường phù hợp để test prompt hoặc sinh nhiều bản nháp.
  • DDIM: tốc độ tốt, ảnh thường mềm mại, mượt hơn so với Euler.
  • DPM++ 2M: cho kết quả chi tiết, ổn định, hợp với ảnh có bố cục phức tạp.
  • DPM++ SDE: xử lý nhiễu mượt, được ưa chuộng khi tạo ảnh chân dung, đặc biệt là làn da tự nhiên, ít bị “bệt”.

Ứng dụng:
Mỗi sampler có “tính cách” riêng, vì vậy người dùng thường chọn 2–3 loại quen thuộc để thay đổi tùy nhu cầu. Ví dụ:

  • Làm anime → Euler a hoặc DDIM.
  • Làm chân dung → DPM++ SDE.
  • Làm phong cảnh, concept art → DPM++ 2M.

4.2. Steps

20-thuat-ngu-AI-tao-hinh-anh-quan-trong-ban-can-biet
Steps là số vòng lặp mà sampler chạy để khử nhiễu.

Steps là thuật ngữ AI tạo hình ảnh mà bạn nên biết. Đây là số vòng lặp mà sampler chạy để khử nhiễu. Càng nhiều steps, ảnh càng có cơ hội rõ nét, nhưng vượt quá một ngưỡng thì sự cải thiện hầu như không đáng kể.

Chi tiết:

  • Steps thấp (10–15): ảnh thường còn thô, dễ gặp lỗi chi tiết (tay, mắt, vật thể).
  • Steps trung bình (20–30): đây là “điểm ngọt” của phần lớn model và sampler, tạo ra ảnh đẹp, rõ nét mà vẫn tiết kiệm thời gian.
  • Steps cao (50+): ít khi mang lại thêm chất lượng, nhưng tốn thời gian và tài nguyên.

Ứng dụng:

  • Dùng 20–30 steps cho hầu hết nhu cầu.
  • Nếu cần ảnh siêu chi tiết (ví dụ concept art, in khổ lớn) có thể thử 40–50 steps, nhưng nên cân nhắc hiệu suất.

4.3. CFG Scale (Classifier-Free Guidance)

CFG scale là hệ số hướng dẫn mức độ bám sát prompt. Nó quyết định cân bằng giữa sáng tạo của AIđộ chính xác theo mô tả.

Chi tiết:

  • CFG thấp (3–5): AI thoải mái sáng tạo, nhưng dễ lệch xa prompt.
  • CFG trung bình (6–9): cân bằng tốt, vừa bám theo mô tả, vừa giữ sự tự nhiên.
  • CFG cao (10–12): AI sẽ bám sát prompt tối đa, nhưng ảnh dễ bị cứng, thiếu mềm mại.

Ứng dụng:

  • Ảnh nghệ thuật, sáng tạo → CFG trung bình.
  • Ảnh sản phẩm, nhân vật cần chính xác → CFG cao hơn để đảm bảo đúng yêu cầu.

4.4. Seed

Seed là thuật ngữ AI tạo hình ảnh, dùng để biểu thị số ngẫu nhiên khởi tạo nhiễu ban đầu. Thay đổi seed bằng với thay đổi bố cục, dáng nhân vật, phối màu, nhưng vẫn trong phạm vi prompt đã mô tả.

Ứng dụng quan trọng:

  • Seed cố định: dùng để tái tạo ảnh nhất quán, ví dụ khi cần giữ nhân vật giống nhau xuyên suốt nhiều cảnh.
  • Seed ngẫu nhiên (-1): mỗi lần chạy cho ra bố cục mới, phù hợp khi muốn khám phá nhiều ý tưởng.

4.5. Resolution (Độ phân giải)

Resolution là thuật ngữ AI tạo hình ảnh sẽ quyết định kích thước ảnh đầu ra (ngang × dọc). Độ phân giải cao giúp ảnh có nhiều chi tiết hơn nhưng cũng ngốn VRAM và tốn thời gian.

Chi tiết:

  • 512×512: mức cơ bản, nhẹ, nhanh, thường để test.
  • 768×768 / 832×1216 / 1024×1024: độ chi tiết cao, thích hợp để render cuối cùng hoặc in ấn.
  • Aspect Ratio (tỷ lệ khung): quan trọng để tránh hình bị méo. Ví dụ:
    • Chân dung → nên dùng khung dọc (832×1216).
    • Phong cảnh → nên dùng khung ngang (1216×832).

Ứng dụng:
Lựa chọn resolution dựa vào chủ thể chính. Chân dung cần tỷ lệ dọc, phong cảnh cần ngang. Nếu dùng sai tỷ lệ sẽ dễ bị kéo dãn nhân vật hoặc bố cục mất cân đối.

4.6. Batch Size / Batch Count

  • Batch size: số ảnh được sinh song song trong một lần chạy.
  • Batch count: số lần lặp lại batch đó.

Chi tiết:

  • Batch size = 1, batch count = 4 → sinh 4 ảnh liên tiếp nhau.
  • Batch size = 4, batch count = 1 → sinh 4 ảnh cùng lúc.

Ứng dụng:

  • Tăng batch size → nhanh lọc ra nhiều ảnh cùng lúc, nhưng cần VRAM lớn.
  • Tăng batch count → tiết kiệm VRAM, phù hợp khi máy yếu, nhưng chạy lâu hơn.

5. Công cụ kiểm soát cấu trúc (Control Tools)

5.1 ControlNet

Đây có thể là thuật ngữ AI tạo hình ảnh bạn thấy thường xuyên. ControlNet là mô-đun cho phép mô hình diffusion nhận thêm tín hiệu phụ (pose, edge, depth…) để kiểm soát cấu trúc hình ảnh. Nó hoạt động như một “khung xương” khóa bố cục.

  • Chi tiết:
    • Giữ nguyên dáng, tư thế hoặc bố cục từ ảnh gốc.
    • Cho phép thay đổi trang phục, phong cách mà vẫn giữ khung hình ban đầu.
    • Hỗ trợ nhiều loại input: pose (tư thế), canny (viền), depth (độ sâu), line art,…
  • Ứng dụng:
    • Tạo nhiều phiên bản nhân vật cùng dáng → đổi outfit, đổi style.
    • Giữ nguyên bố cục ảnh mẫu để tái tạo cảnh phức tạp.
    • Phác thảo nhanh bằng sketch rồi để AI hoàn thiện.

5.2 OpenPose

20-thuat-ngu-AI-tao-hinh-anh-quan-trong-ban-can-biet
OpenPose có thể giúp bạn tạo được hình ảnh có chuyển động và cử chỉ như mong muốn.

OpenPose là mô-đun chuyên đọc và biểu diễn khung xương, cử chỉ của cơ thể và bàn tay. Mô-đun này có thể giúp bạn tạo được hình ảnh có chuyển động và cử chỉ như mong muốn.

  • Chi tiết:
    • Tạo “skeleton” (bộ xương khớp) từ ảnh người thật.
    • Hỗ trợ chi tiết cả bàn tay, ngón tay.
    • Dùng làm input cho ControlNet để đảm bảo tư thế chính xác.
  • Ứng dụng:
    • Tái tạo động tác phức tạp (nhảy, võ thuật, múa, tạo dáng thời trang).
    • Dùng để giữ nhân vật nhất quán tư thế giữa nhiều cảnh.
    • Làm hoạt cảnh truyện tranh hoặc storyboard.

5.3. Canny / Scrib

Canny là một thuật ngữ AI tạo hình ảnh, dùng để chỉ các phương pháp dùng đường viền hoặc phác thảo tay làm input cho ControlNet. Khi sử dụng phương pháp này, AI sẽ lấy đường viền của ảnh mẫu và tạo hình ảnh tương tự theo ý muốn của bạn.

  • Chi tiết:
    • Canny: tự động trích xuất contour từ ảnh gốc.
    • Scribble: sử dụng nét vẽ tay tự do làm khung.
    • Cả hai đều cung cấp cấu trúc cơ bản, AI sẽ hoàn thiện chi tiết.
  • Ứng dụng:
    • Phác layout nhanh bằng scribble để lên ý tưởng concept art.
    • Giữ bố cục từ ảnh thật rồi thay đổi style (anime hóa ảnh người).
    • Dàn cảnh poster, bìa truyện, banner mà không cần vẽ chi tiết.

5.4 Depth Map

20-thuat-ngu-AI-tao-hinh-anh-quan-trong-ban-can-biet
Depth Map là bản đồ độ sâu, phù hợp để tạo các ảnh về nội thất, kiến trúc

Đây là một thuật ngữ AI tạo hình ảnh thường được ứng dụng khi tạo các hình ảnh nghiêng về nội thất, kiến trúc. Depth Map là bản đồ độ sâu, giúp AI hiểu khoảng cách giữa các vật thể (gần – xa).

  • Chi tiết:
    • Input dạng ảnh grayscale: càng sáng → càng gần, càng tối → càng xa.
    • Giữ logic phối cảnh, lớp nền, chiều sâu không gian.
    • Rất hiệu quả với cảnh kiến trúc, phong cảnh.
  • Ứng dụng:
    • Render nội thất/kiến trúc chính xác với chiều sâu.
    • Giữ phối cảnh hợp lý khi mở rộng ảnh (outpainting).
    • Tạo hiệu ứng 3D hoặc ảnh có chiều sâu mạnh.

5.5. Normal Map

Normal Map là một thuật ngữ AI tạo hình ảnh không quá phổ biến. Đây là từ dùng để chỉ bản đồ vector mô tả hướng bề mặt, dùng để mô phỏng ánh sáng và đổ bóng thực tế.

  • Chi tiết:
    • Biểu diễn hướng của từng điểm trên bề mặt.
    • Giúp ánh sáng chiếu vào vật thể trở nên logic và tự nhiên hơn.
    • Thường dùng trong game/3D, nhưng áp dụng cho diffusion để tăng realism.
  • Ứng dụng:
    • Render chất liệu da, kim loại, vải có độ nổi khối.
    • Tăng tính chân thực cho close-up (cận cảnh).
    • Làm ảnh sản phẩm (quần áo, đồng hồ, đồ trang sức) có ánh sáng sống động.

5.6. IP-Adapter

IP-Adapter là một thuật ngữ AI tạo hình ảnh, để biểu thị công cụ tham chiếu trực tiếp từ ảnh mẫu (khuôn mặt, phong cách, bố cục) mà không cần pose hoặc edge map. Đây là một công cụ rất hữu dụng, khi bạn muốn sao chép phong cách của ảnh mẫu.

  • Chi tiết:
    • Có thể học từ ảnh gốc để “copy” phong cách, màu sắc, ánh sáng.
    • Linh hoạt hơn ControlNet vì không yêu cầu dữ liệu cấu trúc cụ thể.
    • Dùng tốt cho style transfer.
  • Ứng dụng:
    • Sao chép phong cách một bức ảnh (ví dụ: biến ảnh chụp thành tranh vẽ theo style có sẵn).
    • Giữ khuôn mặt nhân vật nhất quán xuyên suốt nhiều ảnh.
    • Lấy bố cục/màu sắc của ảnh tham chiếu để áp dụng cho ảnh mới.

6. Công cụ nâng cấp chất lượng ảnh

Khi cần in ấn, crop sâu hoặc đăng trên nền tảng đòi hỏi độ phân giải cao, các công cụ nâng cấp giúp hình ảnh trở nên sắc nét, nhiều chi tiết hơn mà không bị “bể” hay vỡ hạt. Đây là các thuật ngữ AI tạo hình ảnh bạn nên biết.

6.1. Upscale / Hi-Res Fix

Upscale là quá trình phóng to ảnh bằng mô hình học sâu, trong khi Hi-Res Fix xử lý việc sinh ảnh ở độ phân giải cao ngay trong quy trình diffusion. Khi kết hợp cả hai, ảnh vừa giữ được chi tiết gốc vừa bổ sung thêm độ mịn và hạn chế vỡ hạt

  • Chi tiết kỹ thuật:
    • Upscale: tăng pixel trực tiếp bằng AI.
    • Hi-Res Fix: tái sinh ảnh ở độ phân giải cao hơn, giảm mất chi tiết.
    • Thường dùng chung để vừa phóng to vừa tái tạo chi tiết mới.
  • Ứng dụng:
    • In ấn poster, bìa sách, tranh treo tường.
    • Làm ảnh nhân vật hoặc phong cảnh ở độ phân giải cao.
    • Giảm hiện tượng bể hình khi crop sâu.

6.2. Latent Upscale

Latent Upscale là thuật ngữ AI tạo hình ảnh, thể hiện việc phóng to ảnh trong không gian latent trước khi giải mã ra pixel, giúp bảo toàn cấu trúc tổng thể và tạo chi tiết mượt mà hơn so với upscale pixel thông thường.

  • Chi tiết kỹ thuật:
    • Thao tác trong latent space nên giữ bố cục tốt.
    • Độ chi tiết hài hòa, ít gây méo hình.
    • Tránh được nhiều lỗi khi upscale quá lớn.
  • Ứng dụng:
    • Dùng khi muốn phóng to ảnh gấp nhiều lần nhưng vẫn giữ sự tự nhiên.
    • Tốt cho chân dung, concept art, ảnh chi tiết phức tạp.

6.3. Tile Upscale

Thuật ngữ AI tạo hình ảnh Tile Upscale, dùng để chỉ việc chia ảnh thành nhiều ô nhỏ để phóng to từng phần riêng biệt, sau đó ghép lại. Cách này giảm tải cho VRAM nhưng vẫn giữ được chi tiết sắc nét ở từng khu vực.

  • Chi tiết kỹ thuật:
    • Hỗ trợ nâng từ 2K lên 4K/8K mà không tràn bộ nhớ.
    • Giữ tốt texture cục bộ (gỗ, vải, tóc…).
    • Cần pipeline ghép mượt để tránh đường viền.
  • Ứng dụng:
    • Làm ảnh khổ lớn cho in ấn quảng cáo.
    • Ảnh phong cảnh, kiến trúc nhiều chi tiết nhỏ.
    • Render game/art cần độ phân giải cực cao.

6.4. VAE (Variational Autoencoder)

Đây là một thuật ngữ AI tạo hình ảnh mà bạn có thể thấy thường xuyên. VAE là bộ giải mã màu trong Stable Diffusion. Nếu chọn sai VAE, ảnh có thể bị sai lệch sắc độ (quá xỉn, cháy màu). Nhiều checkpoint đi kèm VAE chuẩn và nên được dùng đúng cặp để đảm bảo màu sắc trung thực.

  • Chi tiết kỹ thuật:
    • Giữ đúng bảng màu mà model gốc được huấn luyện.
    • Tránh hiện tượng lệch màu khi upscale hoặc xuất ảnh.
    • Có thể thay VAE khác để điều chỉnh tone màu.
  • Ứng dụng:
    • Dùng khi cần ảnh chuẩn màu (in ấn, sản phẩm thương mại).
    • Hữu ích cho ảnh fashion, nhân vật, concept art yêu cầu màu trung thực.
    • Tránh mất độ tươi hoặc bão hòa sai.

6.5. Noise Strength

Noise Strength là thuật ngữ AI tạo hình ảnh, dùng để biểu thị mức độ thêm nhiễu trong quá trình upscale hoặc inpaint. Nó quyết định ảnh giữ nguyên bao nhiêu từ bản gốc và tái tạo thêm bao nhiêu chi tiết mới.

  • Chi tiết kỹ thuật:
    • Noise thấp: giữ gần nguyên ảnh gốc nhưng ít tái tạo chi tiết.
    • Noise cao: tái cấu trúc chi tiết mạnh, nhưng dễ lệch phong cách.
    • Tốt nhất thử ở mức trung bình rồi tinh chỉnh theo nhu cầu.
  • Ứng dụng:
    • Dùng noise thấp khi cần giữ nguyên nhân vật/ảnh gốc.
    • Dùng noise cao khi muốn thêm chi tiết hoặc chỉnh sửa mạnh.
    • Hữu ích cho upscale kết hợp inpaint (sửa tay, mặt, phụ kiện).

7. Kết luận

Việc hiểu rõ các thuật ngữ AI tạo hình ảnh như prompt, checkpoint, LoRA, ControlNet, OpenPose… không chỉ giúp bạn làm chủ công cụ mà còn mở ra khả năng ứng dụng mạnh mẽ trong thiết kế, truyền thông và quảng cáo. Khi nắm vững những thuật ngữ AI tạo hình ảnh này, bạn sẽ dễ dàng hơn trong việc tạo ra hình ảnh đúng ý, đồng nhất thương hiệu và tiết kiệm đáng kể thời gian sáng tạo.

Nếu bạn muốn đi sâu hơn vào cách ứng dụng AI trong kinh doanh, quảng cáo và truyền thông số, EQVN hiện đang triển khai khóa học AI Marketing. Khóa học không chỉ giúp bạn hiểu công nghệ mà còn hướng dẫn cách tận dụng AI để tối ưu hiệu quả chiến dịch marketing, tăng năng suất và tạo lợi thế cạnh tranh trên thị trường.

Chỉ 8 buổi học – từ cơ bản đến nâng cao – thực hành 100%

Tạo trợ lý AI cá nhân để viết content, email, kịch bản chỉ trong 1 phút – tiết kiệm 80% thời gian làm việc.
Tự thiết kế hình ảnh quảng cáo với MidJourney, Leonardo mà không cần đến designer.
Làm video marketing siêu nhanh bằng CapCut AI, Runway… chỉ cần ý tưởng, không cần kỹ năng dựng phim.
Thiết lập quy trình automation bằng AI để chăm sóc khách hàng, gửi email, phân tích hiệu quả – tất cả đều tự động.

🔥Đăng ký để nâng cấp bản thân ngay hôm nay!

 

:

EQVN là đơn vị tiên phong trong lĩnh vực đào tạo khóa học Digital Marketing từ năm 2009 và là đối tác chính thức của Facebook và Google. Với kinh nghiệm hơn 20 năm, chúng tôi sẽ cung cấp cho bạn những kiến thức Digital Marketing mới nhất và hữu ích nhất! Tìm hiểu thêm về EQVN tại đây nhé!

Bài viết này hữu ích cho bạn không?
0 / 5 5

Your page rank:

Chia sẻ bài viết này:

Giới thiệu về tác giả

EQVN là đơn vị tiên phong trong lĩnh vực đào tạo Digital Marketing tại Việt Nam từ năm 2003. Là đối tác chính thức với Facebook, Google, Zalo và các đối khác trong ngành

Bài viết cùng chủ đề

seo-tai-sao-can-tai-khoan

Tại Sao Doanh Nghiệp Cần Tài Khoản TikTok Ngay Hôm Nay

Mục lục1. Giới thiệu về TikTok và sự phát triển của nền tảng này trong Digital Marketing2. Tại sao bạn nên tạo tài khoản TikTok cho doanh nghiệp của mình? 3.…

Xác nhận danh tính Facebook

Hướng Dẫn Xác Nhận Danh Tính Facebook Nhanh Gọn Và Thành Công

Đôi lúc trong quá trình sử dụng Facebook, bạn thường xuyên gặp phải trường hợp nhận thông báo xác nhận danh tính Facebook. Vậy tại sao vấn đề này lại…

cách tìm từ khóa trên google ads

Cách Tìm Từ Khóa Trên Google Ads Chuẩn Xác Nhất

Khám phá cách tìm từ khóa trên Google Ads để xây dựng chiến dịch quảng cáo hiệu quả, tiết kiệm ngân sách và tiếp cận đúng khách hàng mục tiêu!…

mo-hinh-paid-owned-earned

Mô hình Paid Owned Earned: Chìa khóa thành công Marketing

Trong thế giới marketing không ngừng biến đổi, việc hiểu rõ các kênh truyền thông và cách chúng tương tác với nhau là yếu tố then chốt để xây dựng…

cách lên xu hướng tiktok

Cách lên xu hướng TikTok nhanh chóng, hiệu quả

Với hơn 1 tỷ người dùng mỗi tháng và khả năng tiếp cận nhanh chóng, TikTok không chỉ là một ứng dụng giải trí mà còn là một cơ hội…

logo eqvn

Đào tạo, tư vấn giải pháp và
triển khai Digital Marketing

Được thành lập vào tháng 4 năm 2003 và bắt đầu đào tạo Digital Marketing vào năm 2009. Với mục tiêu, Hỗ trợ doanh nghiệp và các cá nhân nắm bắt cơ hội và khai thác tối đa ứng dụng của Internet vào hoạt động kinh doanh.

Dịch vụ Digital Marketing

dịch vụ DM2@3x-8
Dịch vụ Digital Marketing

Nội dung cơ bản đến nâng cao nhằm giúp bạn ứng dụng thành thạo các kênh truyền thông phổ biến trên Internet: Facebook, Google Ads, SEO...

seo
Dịch vụ SEO

Chương trình đem đến cho CEO, Quản lý ... giải pháp Quản trị trong hoạt động truyền thông số trong doanh nghiệp, như lập kế hoạch, đo lường,...

Khóa học Digital Marketing

digital marketing
Chuyên viên Digital Marketing

Nội dung cơ bản đến nâng cao nhằm giúp bạn ứng dụng thành thạo các kênh truyền thông phổ biến trên Internet: Facebook, Google Ads, SEO...

mm4.0
Marketing Manager 4.0
Chương trình đem đến cho CEO, Quản lý ... giải pháp Quản trị trong hoạt động truyền thông số trong doanh nghiệp, như lập kế hoạch, đo lường, ...
inhouse
Đào tạo tại doanh nghiệp

Song song với các chương trình đào tạo tập trung về Digital Marketing, EQVN đặc biệt thiết kế riêng chương trình đào tạo tại chỗ dựa trên yêu cầu của doanh nghiệp (Inhouse Training).

Đăng ký tải tài liệu Tổng quan Digital Marketing cho người mới bắt đầu