การประเมินประสิทธิภาพของโมเดล Gemini
เริ่มต้นจากการวิจัยพัฒนาการเรียนรู้ให้ Gemini 1.5 Pro
Gemini 1.5 Pro สามารถทำการเรียกคืน “เข็ม” ได้ใกล้เคียงสมบูรณ์ (>99.7%) สำหรับข้อมูลขนาด 1M โทเค็นของ “ฟาง” ในทุกโมดาลิตี้ ได้แก่ ข้อความ วิดีโอ และเสียง แม้เมื่อขยายไปถึง 10M โทเค็นในโมดาลิตี้ข้อความ (ประมาณ 7M คำ); 9.7M โทเค็นในโมดาลิตี้เสียง (สูงสุด 107 ชั่วโมง); 9.9M โทเค็นในโมดาลิตี้วิดีโอ (สูงสุด 10.5 ชั่วโมง) แกน x แสดงหน้าต่างของบริบท และแกน y แสดงเปอร์เซ็นต์ความลึกของเข็มที่วางไว้สำหรับความยาวบริบทที่กำหนด ผลลัพธ์ถูกทำเครื่องหมายสีเพื่อระบุ: สีเขียวสำหรับการเรียกคืนที่สำเร็จ และสีแดงสำหรับที่ไม่สำเร็จ โปรดทราบว่าประสิทธิภาพสำหรับทุกโมดาลิตี้นี้ได้จากเวอร์ชัน Gemini 1.5 Pro ที่รายงานก่อนหน้านี้ในเดือนกุมภาพันธ์
เราเริ่มต้นด้วยการประเมินประสิทธิภาพของโมเดล Gemini ในด้านความสามารถหลักของข้อความทั้งเจ็ดด้าน:
(1) คณิตศาสตร์และวิทยาศาสตร์ (มาตรา 6.1.1); (2) การใช้เหตุผลทั่วไป (มาตรา 6.1.2), (3) การเขียนโค้ด (มาตรา 6.1.3); (4) ความสามารถหลายภาษา (มาตรา 6.1.4); (5) การเรียกใช้งานฟังก์ชัน (มาตรา 6.1.5); (6) การปฏิบัติตามคำสั่ง (มาตรา 6.1.6); และ (7) งาน GenAI ด้านโลกจริงและงานชั้นเชิงผู้เชี่ยวชาญระยะยาว (มาตรา 6.1.7) ดูตาราง 11 สำหรับสรุปผลลัพธ์เหล่านี้; ดูภาคผนวกสำหรับรายละเอียดแต่ละข้อ และการประเมินเพิ่มเติมเกี่ยวกับ QA สำหรับหัวข้อการค้นหาบนเว็บ.
ปัจจุบัน 16-10-2568 | โลกเปลี่ยนแบบว่า เร็วไหม | ผมขอตอบแบบ (ประสบการณ์ที่นั่งหมกมุ่นเลยครับ) | เปลี่ยนทุกวันครับ
Latest Gemini API topics - Google AI Developers Forum
สร้างวิดีโอด้วย Veo 3 1 ใน Gemini API
Veo 3.1 เป็นเทคโนโลยีล้ําสมัยของ Google โมเดลสําหรับสร้างวิดีโอ 8p หรือ 720p 1080p ที่มีความเที่ยงตรงสูงที่มี ความสมจริงที่น่าทึ่งและเสียงที่สร้างขึ้นโดยกําเนิด คุณสามารถเข้าถึง โมเดลนี้โดยทางโปรแกรมโดยใช้ Gemini API หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ รุ่น Veo ที่มีจําหน่าย โปรดดูส่วนรุ่นของรุ่น
Veo 3.1 มีความเป็นเลิศในสไตล์ภาพและภาพยนตร์ที่หลากหลาย และแนะนํา ความสามารถใหม่หลายอย่าง:
- ส่วนขยายวิดีโอ: ขยายวิดีโอที่เคยเป็นมาก่อน สร้างขึ้นโดยใช้ Veo
- การสร้างเฉพาะเฟรม: สร้างวิดีโอโดย การระบุเฟรมแรกและเฟรมสุดท้าย
- ทิศทางตามภาพ: ใช้ภาพอ้างอิงสูงสุดสามภาพเพื่อเป็นแนวทาง เนื้อหาของวิดีโอที่คุณสร้างขึ้น
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการเขียนข้อความแจ้งที่มีประสิทธิภาพสําหรับการสร้างวิดีโอ ดูคู่มือพรอมต์ Veo
Generate videos with Veo 3.1 in Gemini API | Google AI for Developers
คู่มือการสร้างด้วย 'ส่วนผสมในวิดีโอ'
ตอนนี้คุณสามารถแนะนํากระบวนการสร้างโดยให้ภาพอ้างอิงของตัวละคร วัตถุ หรือฉากได้สูงสุด 3 ภาพ สิ่งนี้มีประโยชน์ในการรักษาความสอดคล้องของตัวละครในหลายช็อตหรือใช้สไตล์เฉพาะกับวิดีโอ
from google import genai
from google.genai import types
client = genai.Client()operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=[reference_image1, reference_image2],
),
)..
เริ่มสร้างวันนี้
Veo 3.1 และความสามารถใหม่เหล่านี้พร้อมใช้งานแล้วในการแสดงตัวอย่างแบบชําระเงินผ่าน Gemini API
ดําดิ่งสู่เอกสารประกอบสําหรับข้อมูลพารามิเตอร์โดยละเอียดและการควบคุมความยาววิดีโอ
เริ่มใช้ Veo 3.1 และคุณสมบัติใหม่ใน Veo Studio แอปสาธิต AI Studio ใหม่ของเรา (ต้องใช้คีย์ Gemini API แบบชําระเงิน)
หรือกระโดดเข้าสู่โค้ดทันทีด้วยคู่มือตําราอาหารที่อัปเดต
Veo 3.1 มีราคาเท่ากับ Veo 3 เรารู้สึกตื่นเต้นอย่างไม่น่าเชื่อที่จะได้เห็นสิ่งที่คุณจะสร้างด้วยความสามารถใหม่เหล่านี้
System instructions and other configurations
การเพิ่มประสิทธิภาพบริบทแบบยาว
การเพิ่มประสิทธิภาพหลักเมื่อทํางานกับบริบทที่ยาวและราศีเมถุน โมเดลคือการใช้บริบท การแคช หมายเหตุ ** มีความเป็นไปไม่ได้ในการประมวลผลเพียงครั้งเดียวในการส่งข้อมูลบริบทไม่ว่าจะแบบสั้นหรือแบบยาวหรือแม้กระทั่งโครงสร้างที่ซับซ้อนข้อจำกัดคือต้นทุนหากคุณมีแอปหรือระบบแชทกับข้อมูลในรูปแบบ PDF จำนวน 10 ไฟล์และเอกสารการทำงานบางส่วนขององค์กรของคุณเพื่อทำงานกับเครื่องมือ Retrieval Augmented Generation (RAG) ที่มีความซับซ้อนมากยิ่งขึ้น
ด้วยต้นทุนในการย้ายข้อมูลจากหน้าต่าง 1 ไปสู่อีกหน้าต่างหนึ่ง Token ที่ย้ายปัจจุบันคุณสามารถแอดไลน์ได้ถือเป็นการประหยัดไม่ต้องจ่ายเงินฟุ่มเฟือยรายชั่วโมงกรณีที่คุณทำระบบเกี่ยวกับการสนทนาผ่านการแชทด้วยเจอทีม AI ควรพิจารณาเพิ่มเติมเกี่ยวกับคุณสมบัติโมเดล Gemini Flash ซึ่งมี ต้นทุนอินพุต / เอาต์พุตต่อ
เช่น ~4x น้อยกว่ามาตรฐาน ต้นทุนอินพุต / เอาต์พุต** ส่งผลให้ "แชท" พูดคุยสนทนาประหยัดมากยิ่งขึ้น ทั้งในแง่ความฉลาดที่ตอบโจทยฺ แก้ไขปัญหาให้ผู้ใช้ได้รวกเร็ว ลดการรับส่งข้อมูลที่มีบริบทต่างกันบ่อยครั้ง ผ่านหน้าต่าง (ต้นทุน) ระดับการพัฒนาจึงควรศึกษาการแคช
#การประเมินประสิทธิภาพของโมเดล Gemini ในด้านความสามารถหลักของข้อความทั้งเจ็ดด้าน
การประเมินประสิทธิภาพของโมเดล Gemini
#การประเมินประสิทธิภาพของโมเดล Gemini ในด้านความสามารถหลักของข้อความทั้งเจ็ดด้าน
