เริ่มต้นจากการวิจัยพัฒนาการเรียนรู้ให้ Gemini 1.5 Pro

Gemini 1.5 Pro สามารถทำการเรียกคืน “เข็ม” ได้ใกล้เคียงสมบูรณ์ (>99.7%) สำหรับข้อมูลขนาด 1M โทเค็นของ “ฟาง” ในทุกโมดาลิตี้ ได้แก่ ข้อความ วิดีโอ และเสียง แม้เมื่อขยายไปถึง 10M โทเค็นในโมดาลิตี้ข้อความ (ประมาณ 7M คำ); 9.7M โทเค็นในโมดาลิตี้เสียง (สูงสุด 107 ชั่วโมง); 9.9M โทเค็นในโมดาลิตี้วิดีโอ (สูงสุด 10.5 ชั่วโมง) แกน x แสดงหน้าต่างของบริบท และแกน y แสดงเปอร์เซ็นต์ความลึกของเข็มที่วางไว้สำหรับความยาวบริบทที่กำหนด ผลลัพธ์ถูกทำเครื่องหมายสีเพื่อระบุ: สีเขียวสำหรับการเรียกคืนที่สำเร็จ และสีแดงสำหรับที่ไม่สำเร็จ โปรดทราบว่าประสิทธิภาพสำหรับทุกโมดาลิตี้นี้ได้จากเวอร์ชัน Gemini 1.5 Pro ที่รายงานก่อนหน้านี้ในเดือนกุมภาพันธ์

เราเริ่มต้นด้วยการประเมินประสิทธิภาพของโมเดล Gemini ในด้านความสามารถหลักของข้อความทั้งเจ็ดด้าน:

(1) คณิตศาสตร์และวิทยาศาสตร์ (มาตรา 6.1.1); (2) การใช้เหตุผลทั่วไป (มาตรา 6.1.2), (3) การเขียนโค้ด (มาตรา 6.1.3); (4) ความสามารถหลายภาษา (มาตรา 6.1.4); (5) การเรียกใช้งานฟังก์ชัน (มาตรา 6.1.5); (6) การปฏิบัติตามคำสั่ง (มาตรา 6.1.6); และ (7) งาน GenAI ด้านโลกจริงและงานชั้นเชิงผู้เชี่ยวชาญระยะยาว (มาตรา 6.1.7) ดูตาราง 11 สำหรับสรุปผลลัพธ์เหล่านี้; ดูภาคผนวกสำหรับรายละเอียดแต่ละข้อ และการประเมินเพิ่มเติมเกี่ยวกับ QA สำหรับหัวข้อการค้นหาบนเว็บ.

ปัจจุบัน 16-10-2568 | โลกเปลี่ยนแบบว่า เร็วไหม | ผมขอตอบแบบ (ประสบการณ์ที่นั่งหมกมุ่นเลยครับ) | เปลี่ยนทุกวันครับ

Latest Gemini API topics - Google AI Developers Forum

สร้างวิดีโอด้วย Veo 3 1 ใน Gemini API

Veo 3.1 เป็นเทคโนโลยีล้ําสมัยของ Google โมเดลสําหรับสร้างวิดีโอ 8p หรือ 720p 1080p ที่มีความเที่ยงตรงสูงที่มี ความสมจริงที่น่าทึ่งและเสียงที่สร้างขึ้นโดยกําเนิด คุณสามารถเข้าถึง โมเดลนี้โดยทางโปรแกรมโดยใช้ Gemini API หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ รุ่น Veo ที่มีจําหน่าย โปรดดูส่วนรุ่นของรุ่น

Veo 3.1 มีความเป็นเลิศในสไตล์ภาพและภาพยนตร์ที่หลากหลาย และแนะนํา ความสามารถใหม่หลายอย่าง:

ส่วนขยายวิดีโอ: ขยายวิดีโอที่เคยเป็นมาก่อน สร้างขึ้นโดยใช้ Veo
การสร้างเฉพาะเฟรม: สร้างวิดีโอโดย การระบุเฟรมแรกและเฟรมสุดท้าย
ทิศทางตามภาพ: ใช้ภาพอ้างอิงสูงสุดสามภาพเพื่อเป็นแนวทาง เนื้อหาของวิดีโอที่คุณสร้างขึ้น

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการเขียนข้อความแจ้งที่มีประสิทธิภาพสําหรับการสร้างวิดีโอ ดูคู่มือพรอมต์ Veo

Generate videos with Veo 3.1 in Gemini API | Google AI for Developers

คู่มือการสร้างด้วย 'ส่วนผสมในวิดีโอ'

ตอนนี้คุณสามารถแนะนํากระบวนการสร้างโดยให้ภาพอ้างอิงของตัวละคร วัตถุ หรือฉากได้สูงสุด 3 ภาพ สิ่งนี้มีประโยชน์ในการรักษาความสอดคล้องของตัวละครในหลายช็อตหรือใช้สไตล์เฉพาะกับวิดีโอ

from google import genai
from google.genai import types

client = genai.Client()

operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=[reference_image1, reference_image2],
),
)

เริ่มสร้างวันนี้

Veo 3.1 และความสามารถใหม่เหล่านี้พร้อมใช้งานแล้วในการแสดงตัวอย่างแบบชําระเงินผ่าน Gemini API

ดําดิ่งสู่เอกสารประกอบสําหรับข้อมูลพารามิเตอร์โดยละเอียดและการควบคุมความยาววิดีโอ

เริ่มใช้ Veo 3.1 และคุณสมบัติใหม่ใน Veo Studio แอปสาธิต AI Studio ใหม่ของเรา (ต้องใช้คีย์ Gemini API แบบชําระเงิน)

หรือกระโดดเข้าสู่โค้ดทันทีด้วยคู่มือตําราอาหารที่อัปเดต

Veo 3.1 มีราคาเท่ากับ Veo 3 เรารู้สึกตื่นเต้นอย่างไม่น่าเชื่อที่จะได้เห็นสิ่งที่คุณจะสร้างด้วยความสามารถใหม่เหล่านี้

System instructions and other configurations

การเพิ่มประสิทธิภาพบริบทแบบยาว

การเพิ่มประสิทธิภาพหลักเมื่อทํางานกับบริบทที่ยาวและราศีเมถุน โมเดลคือการใช้บริบท การแคช หมายเหตุ ** มีความเป็นไปไม่ได้ในการประมวลผลเพียงครั้งเดียวในการส่งข้อมูลบริบทไม่ว่าจะแบบสั้นหรือแบบยาวหรือแม้กระทั่งโครงสร้างที่ซับซ้อนข้อจำกัดคือต้นทุนหากคุณมีแอปหรือระบบแชทกับข้อมูลในรูปแบบ PDF จำนวน 10 ไฟล์และเอกสารการทำงานบางส่วนขององค์กรของคุณเพื่อทำงานกับเครื่องมือ Retrieval Augmented Generation (RAG) ที่มีความซับซ้อนมากยิ่งขึ้น

ด้วยต้นทุนในการย้ายข้อมูลจากหน้าต่าง 1 ไปสู่อีกหน้าต่างหนึ่ง Token ที่ย้ายปัจจุบันคุณสามารถแอดไลน์ได้ถือเป็นการประหยัดไม่ต้องจ่ายเงินฟุ่มเฟือยรายชั่วโมงกรณีที่คุณทำระบบเกี่ยวกับการสนทนาผ่านการแชทด้วยเจอทีม AI ควรพิจารณาเพิ่มเติมเกี่ยวกับคุณสมบัติโมเดล Gemini Flash ซึ่งมี ต้นทุนอินพุต / เอาต์พุตต่อ
เช่น ~4x น้อยกว่ามาตรฐาน ต้นทุนอินพุต / เอาต์พุต

** ส่งผลให้ "แชท" พูดคุยสนทนาประหยัดมากยิ่งขึ้น ทั้งในแง่ความฉลาดที่ตอบโจทยฺ แก้ไขปัญหาให้ผู้ใช้ได้รวกเร็ว ลดการรับส่งข้อมูลที่มีบริบทต่างกันบ่อยครั้ง ผ่านหน้าต่าง (ต้นทุน) ระดับการพัฒนาจึงควรศึกษาการแคช

Function ประกอบร่าง Prompt นี้ขึ้นมาจาก Input ของผู้ใช้ได้ 100%

Created Date: 2025-10-12 11:16:52pm

โดย: กฤติเดช ฉายจรุง | ติดต่อ: 089-4222-350

สารบัญ / เนื้อหา

Gen AI คำตอบสำหรับธุรกิจทั่วโลก

สำหรับกลุ่มมือใหม่: "การทำโฆษณามันไปช่วยอะไรกับธุรกิจ?"

(รับรู้) เปิดประเด็นด้วยปัญหาที่ทุกคนเคยเจอ

(ไว้วางใจ) สร้างความเชื่อมั่นด้วยความจริงที่จับต้องได้

(ใช้งานได้จริง) เชื่อมโยงกับชีวิตประจำวัน

(เกิดความเข้าใจ) สรุปแก่นความคิด

(แรงจูงใจ) กระตุ้นให้ลงมือทำ

สำหรับกลุ่มที่มีประสบการณ์ (ธุรกิจอุตสาหกรรม / ห้างร้านขนาดกลาง) "ทำโฆษณาไปเพื่ออะไร?"

(รับรู้) เปิดด้วยความขัดแย้งที่กำลังเผชิญ

(ไว้วางใจ) ชี้ให้เห็นความจริงจากการทำงาน

(ใช้งานได้จริง & เกิดความเข้าใจ) จัดลำดับความคิดใหม่ทั้งหมด

(แรงจูงใจ) ปรับมุมมองและสร้างพลัง

เจาะลึกสิ่งสำคัญอะไรคือ "ปัจจัยที่แท้จริง"
ที่ทำให้เนื้อหาเป็นไวรัล

เป็นสิ่ง "เจาะลึก ... ที่ลึก" มากที่สุดเลยครับ

หัวข้อ: การสร้าง "สมองที่สอง" ให้ AI สถาปัตยกรรมสำหรับระบบที่ใช้กันในระดับโลกครับ

(รับรู้) สะท้อนความสับสนที่ถูกต้อง

(ไว้วางใจ) คลี่คลายความขัดแย้งและมอบความจริง

(ใช้งานได้จริง) เสนอพิมพ์เขียวสถาปัตยกรรม นี่คือแนวทางที่ดีที่สุดในการสร้างระบบที่อาจารย์ต้องการครับ

1. แยก "บริบท" ออกจาก "คำสั่ง":

2. สถาปัตยกรรม "RAG" (Retrieval-Augmented Generation):

3. โครงสร้าง JSON ของ API Call จะเรียบง่ายและคงที่

(เข้าใจ) ยกระดับมุมมองความคิด

(แรงจูงใจ) สร้างพลังเพื่อก้าวต่อไป

ก่อนเริ่ม

ความรู้สึกคัดใจตัวเอง (นี้คือสิ่งสำคัญ)

พิมพ์เขียวคำสั่ง (Prompt Blueprint) สำหรับ API

ส่วนที่ 1: กำหนดบทบาทและเป้าหมายสูงสุด (Role & Goal)

ส่วนที่ 2: บริบทของปัญหา (User's Context)

* ส่วนนี่คือส่วนที่เราจะนำ Input Data จาก Database และแหล่งข้อมูลที่รวบรวมไว้อย่างเหมาะสม

ส่วนที่ 3: คำสั่งหลัก: โครงสร้าง 5 องค์ประกอบ (The Core Instruction)

ตัวอย่างการนำปัญหาจากการ คิดคำสั่ง Prompt ระบบสามารถช่วยผู้ประกอบการนำไปใช้งานจริง

การประเมินประสิทธิภาพของโมเดล Gemini

เปิด: บทความและเนื้อหาอื่นๆ

บทความ คำแนะนำ บทความ

เนื้อหาและบทความอื่นๆ