ก้าวถัดไปของ Gemini สำหรับเหล่านักพัฒนามาถึงแล้ว

Pitcha Gunteethong
ม.ค. 9, 2025

2:33

Gemini 2.0 - ก้าวถัดไปของ Gemini สำหรับเหล่านักพัฒนามาถึงแล้ว

Google ได้มอบความสามารถใหม่ให้กับนักพัฒนาเพื่อสร้างอนาคตของ AI ด้วยโมเดลที่ล้ำสมัย เครื่องมืออัจฉริยะที่ช่วยเขียนโค้ดได้เร็วขึ้น และการเปลี่ยนแปลงบนแพลตฟอร์มและอุปกรณ์ต่างๆ ในเดือนธันวาคมปี 2566 Google ได้เปิดตัว Gemini 1.0 ซึ่งนักพัฒนาหลายล้านคนได้ใช้ Google AI Studio และ Vertex AI เพื่อสร้างด้วย Gemini ใน 109 ภาษา

Google ได้ประกาศเปิดตัว Gemini 2.0 Flash Experimental เพื่อให้สามารถใช้งานแอปพลิเคชันและสามารถโต้ตอบกันได้ดียิ่งขึ้น รวมถึง coding agents ใหม่ที่จะปรับปรุงเวิร์กโฟลว์โดยดำเนินการทำงานในนามของนักพัฒนา

Gemini 2.0 Flash ดีกับนักพัฒนาอย่างไร?

ประสิทธิภาพที่ดีขึ้น
- Gemini 2.0 Flash นั้นมีประสิทธิภาพที่ดีกว่า 1.5 Pro พร้อมมอบความเร็วและประสิทธิภาพที่เป็นไปตามความคาดหวังของนักพฒนา นอกจากนี้ยังมีการปรับปรุงประสิทธิภาพการทำงานแบบมัลติโมดัล ข้อความ รหัส วิดีโอ ความตระหนักรู้ และการใช้เหตุผลในเกณฑ์มาตรฐานที่สำคัญ ความตระหนักรู้ที่ดีขึ้นช่วยให้สร้างกรอบขอบเขตได้แม่นยำยิ่งขึ้นสำหรับวัตถุขนาดเล็กในรูปภาพที่ยุ่งเหยิง และสามารถระบุวัตถุและใส่คำบรรยายภาพได้ดีขึ้น
รูปแบบ output ใหม่
- นักพัฒนาจะสามารถใช้ Gemini 2.0 Flash เพื่อสร้างการตอบสนองแบบบูรณาการที่รวมทั้งข้อความ เสียง และรูปภาพได้ทั้งหมดผ่านการเรียก API เพียงครั้งเดียว โหมด output ใหม่เหล่านี้พร้อมให้ผู้ทดสอบในช่วงแรกใช้งานได้แล้ว โดยคาดว่าจะมีการเปิดตัวในวงกว้างขึ้นในปีหน้า SynthID จะถูกเปิดใช้งานใน output ภาพและเสียงทั้งหมด ซึ่งจะช่วยลดความกังวลเกี่ยวกับข้อมูลที่ผิดพลาดและการระบุแหล่งที่มาที่ไม่ถูกต้อง
  1. Multilingual native audio output: Gemini 2.0 Flash มีคุณสมบัติ text-to-speech audio output แบบดั้งเดิม ซึ่งช่วยให้นักพัฒนาสามารถควบคุมได้อย่างละเอียดไม่เพียงแค่ว่าโมเดลพูดอะไรเท่านั้น แต่ยังรวมถึงพูดอย่างไรด้วย โดยมีเสียงคุณภาพสูงให้เลือก 8 เสียง รวมถึงภาษาและสำเนียงต่างๆ มากมาย
  2. Native image output: Gemini 2.0 Flash สามารถสร้างรูปภาพโดยตรงและรองรับการสนทนาและการแก้ไขแบบหลายขั้นตอน ดังนั้นคุณจึงสร้างจากผลลัพธ์ก่อนหน้าและปรับแต่งผลลัพธ์ได้ นอกจากนี้ยังสามารถส่งออกข้อความและรูปภาพแบบสลับกันได้ ทำให้มีประโยชน์ในเนื้อหาแบบหลายโหมด เช่น สูตรอาหาร
การใช้เครื่องมือแบบดั้งเดิม (Native tool )
- Gemini 2.0 ได้รับการฝึกอบรมให้ใช้เครื่องมือ ซึ่งเป็นความสามารถพื้นฐานในการสร้างประสบการณ์การใช้งานแบบเอเจนต์ โดยสามารถเรียกใช้เครื่องมือต่างๆ เช่น Google Search และการเรียกใช้โค้ดได้แบบเนทีฟ นอกเหนือจากฟังก์ชันของบุคคลที่สามที่กำหนดเองผ่านการเรียกใช้ฟังก์ชัน การใช้ Google Search แบบดั้งเดิม เป็นเครื่องมือช่วยให้ได้คำตอบที่เป็นข้อเท็จจริงและครอบคลุมมากขึ้น และยังเพิ่มปริมาณการเข้าชมไปยังผู้เผยแพร่อีกด้วย สามารถดำเนินการค้นหาหลายรายการพร้อมกันได้ ทำให้ดึงข้อมูลได้ดีขึ้นโดยค้นหาข้อเท็จจริงที่เกี่ยวข้องมากขึ้นจากหลายแหล่งพร้อมกันและรวมเข้าด้วยกันเพื่อความแม่นยำ
Multimodal Live API
- ปัจจุบันนักพัฒนาสามารถสร้างแอปพลิเคชันมัลติโหมดแบบเรียลไทม์ด้วยอินพุตสตรีมเสียงและวิดีโอจากกล้องหรือหน้าจอ รองรับรูปแบบการสนทนาตามธรรมชาติ เช่น การขัดจังหวะและการตรวจจับกิจกรรมเสียง API รองรับการผสานรวมเครื่องมือต่างๆ เข้าด้วยกันเพื่อบรรลุกรณีการใช้งานที่ซับซ้อนด้วยการเรียกใช้ API เพียงครั้งเดียว