การประเมินประสิทธิภาพของโมเดล Gemini

เริ่มต้นจากการวิจัยพัฒนาการเรียนรู้ให้ Gemini 1.5 Pro

Gemini 1.5 Pro สามารถทำการเรียกคืน “เข็ม” ได้ใกล้เคียงสมบูรณ์ (>99.7%) สำหรับข้อมูลขนาด 1M โทเค็นของ “ฟาง” ในทุกโมดาลิตี้ ได้แก่ ข้อความ วิดีโอ และเสียง แม้เมื่อขยายไปถึง 10M โทเค็นในโมดาลิตี้ข้อความ (ประมาณ 7M คำ); 9.7M โทเค็นในโมดาลิตี้เสียง (สูงสุด 107 ชั่วโมง); 9.9M โทเค็นในโมดาลิตี้วิดีโอ (สูงสุด 10.5 ชั่วโมง) แกน x แสดงหน้าต่างของบริบท และแกน y แสดงเปอร์เซ็นต์ความลึกของเข็มที่วางไว้สำหรับความยาวบริบทที่กำหนด ผลลัพธ์ถูกทำเครื่องหมายสีเพื่อระบุ: สีเขียวสำหรับการเรียกคืนที่สำเร็จ และสีแดงสำหรับที่ไม่สำเร็จ โปรดทราบว่าประสิทธิภาพสำหรับทุกโมดาลิตี้นี้ได้จากเวอร์ชัน Gemini 1.5 Pro ที่รายงานก่อนหน้านี้ในเดือนกุมภาพันธ์

 

เราเริ่มต้นด้วยการประเมินประสิทธิภาพของโมเดล Gemini ในด้านความสามารถหลักของข้อความทั้งเจ็ดด้าน:

(1) คณิตศาสตร์และวิทยาศาสตร์ (มาตรา 6.1.1); (2) การใช้เหตุผลทั่วไป (มาตรา 6.1.2), (3) การเขียนโค้ด (มาตรา 6.1.3); (4) ความสามารถหลายภาษา (มาตรา 6.1.4); (5) การเรียกใช้งานฟังก์ชัน (มาตรา 6.1.5); (6) การปฏิบัติตามคำสั่ง (มาตรา 6.1.6); และ (7) งาน GenAI ด้านโลกจริงและงานชั้นเชิงผู้เชี่ยวชาญระยะยาว (มาตรา 6.1.7) ดูตาราง 11 สำหรับสรุปผลลัพธ์เหล่านี้; ดูภาคผนวกสำหรับรายละเอียดแต่ละข้อ และการประเมินเพิ่มเติมเกี่ยวกับ QA สำหรับหัวข้อการค้นหาบนเว็บ.


ปัจจุบัน 16-10-2568 | โลกเปลี่ยนแบบว่า เร็วไหม | ผมขอตอบแบบ (ประสบการณ์ที่นั่งหมกมุ่นเลยครับ) | เปลี่ยนทุกวันครับ 

 

 

Latest Gemini API topics - Google AI Developers Forum

สร้างวิดีโอด้วย Veo 3 1 ใน Gemini API

 

Veo 3.1 เป็นเทคโนโลยีล้ําสมัยของ Google โมเดลสําหรับสร้างวิดีโอ 8p หรือ 720p 1080p ที่มีความเที่ยงตรงสูงที่มี ความสมจริงที่น่าทึ่งและเสียงที่สร้างขึ้นโดยกําเนิด คุณสามารถเข้าถึง โมเดลนี้โดยทางโปรแกรมโดยใช้ Gemini API หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ รุ่น Veo ที่มีจําหน่าย โปรดดูส่วนรุ่นของรุ่น

Veo 3.1 มีความเป็นเลิศในสไตล์ภาพและภาพยนตร์ที่หลากหลาย และแนะนํา ความสามารถใหม่หลายอย่าง:

  • ส่วนขยายวิดีโอ: ขยายวิดีโอที่เคยเป็นมาก่อน สร้างขึ้นโดยใช้ Veo
  • การสร้างเฉพาะเฟรม: สร้างวิดีโอโดย การระบุเฟรมแรกและเฟรมสุดท้าย
  • ทิศทางตามภาพ: ใช้ภาพอ้างอิงสูงสุดสามภาพเพื่อเป็นแนวทาง เนื้อหาของวิดีโอที่คุณสร้างขึ้น

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการเขียนข้อความแจ้งที่มีประสิทธิภาพสําหรับการสร้างวิดีโอ ดูคู่มือพรอมต์ Veo

 

Generate videos with Veo 3.1 in Gemini API  |  Google AI for Developers

คู่มือการสร้างด้วย 'ส่วนผสมในวิดีโอ'

ตอนนี้คุณสามารถแนะนํากระบวนการสร้างโดยให้ภาพอ้างอิงของตัวละคร วัตถุ หรือฉากได้สูงสุด 3 ภาพ สิ่งนี้มีประโยชน์ในการรักษาความสอดคล้องของตัวละครในหลายช็อตหรือใช้สไตล์เฉพาะกับวิดีโอ

from google import genai
from google.genai import types


client = genai.Client()

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        reference_images=[reference_image1, reference_image2],
    ),
)

..

เริ่มสร้างวันนี้

Veo 3.1 และความสามารถใหม่เหล่านี้พร้อมใช้งานแล้วในการแสดงตัวอย่างแบบชําระเงินผ่าน Gemini API

  • ดําดิ่งสู่เอกสารประกอบสําหรับข้อมูลพารามิเตอร์โดยละเอียดและการควบคุมความยาววิดีโอ

  • เริ่มใช้ Veo 3.1 และคุณสมบัติใหม่ใน Veo Studio แอปสาธิต AI Studio ใหม่ของเรา (ต้องใช้คีย์ Gemini API แบบชําระเงิน)

  • หรือกระโดดเข้าสู่โค้ดทันทีด้วยคู่มือตําราอาหารที่อัปเดต

Veo 3.1 มีราคาเท่ากับ Veo 3 เรารู้สึกตื่นเต้นอย่างไม่น่าเชื่อที่จะได้เห็นสิ่งที่คุณจะสร้างด้วยความสามารถใหม่เหล่านี้

 

 

System instructions and other configurations

การเพิ่มประสิทธิภาพบริบทแบบยาว

การเพิ่มประสิทธิภาพหลักเมื่อทํางานกับบริบทที่ยาวและราศีเมถุน โมเดลคือการใช้บริบท การแคช  หมายเหตุ ** มีความเป็นไปไม่ได้ในการประมวลผลเพียงครั้งเดียวในการส่งข้อมูลบริบทไม่ว่าจะแบบสั้นหรือแบบยาวหรือแม้กระทั่งโครงสร้างที่ซับซ้อนข้อจำกัดคือต้นทุนหากคุณมีแอปหรือระบบแชทกับข้อมูลในรูปแบบ PDF จำนวน 10 ไฟล์และเอกสารการทำงานบางส่วนขององค์กรของคุณเพื่อทำงานกับเครื่องมือ  Retrieval Augmented Generation (RAG)  ที่มีความซับซ้อนมากยิ่งขึ้น 

ด้วยต้นทุนในการย้ายข้อมูลจากหน้าต่าง 1 ไปสู่อีกหน้าต่างหนึ่ง Token ที่ย้ายปัจจุบันคุณสามารถแอดไลน์ได้ถือเป็นการประหยัดไม่ต้องจ่ายเงินฟุ่มเฟือยรายชั่วโมงกรณีที่คุณทำระบบเกี่ยวกับการสนทนาผ่านการแชทด้วยเจอทีม AI ควรพิจารณาเพิ่มเติมเกี่ยวกับคุณสมบัติโมเดล Gemini Flash ซึ่งมี ต้นทุนอินพุต / เอาต์พุตต่อ 
เช่น ~4x น้อยกว่ามาตรฐาน ต้นทุนอินพุต / เอาต์พุต 

** ส่งผลให้ "แชท" พูดคุยสนทนาประหยัดมากยิ่งขึ้น ทั้งในแง่ความฉลาดที่ตอบโจทยฺ แก้ไขปัญหาให้ผู้ใช้ได้รวกเร็ว ลดการรับส่งข้อมูลที่มีบริบทต่างกันบ่อยครั้ง ผ่านหน้าต่าง (ต้นทุน) ระดับการพัฒนาจึงควรศึกษาการแคช

 

    คลิก ติดต่อรับคำปรึกษา (ฟรี)  

#การประเมินประสิทธิภาพของโมเดล Gemini ในด้านความสามารถหลักของข้อความทั้งเจ็ดด้าน  

การประเมินประสิทธิภาพของโมเดล Gemini

การประเมินประสิทธิภาพของโมเดล Gemini

#การประเมินประสิทธิภาพของโมเดล Gemini ในด้านความสามารถหลักของข้อความทั้งเจ็ดด้าน