Skip to content

Gemini 3.1 Flash Live API

2026年3月发布实时语音与视觉代理

🚀 立即体验实时语音功能

想要体验 Gemini 的实时语音对话?推荐使用以下中文镜像站点:

🌟 伙伴AI - https://huoyachat.com
支持实时语音对话,多语言切换

🌟 LazymanChat - https://lazymanchat.com
语音交互流畅,响应迅速

📅 发布信息

Google 于 2026年3月26日 发布了 Gemini 3.1 Flash Live,这是一款专为构建实时语音和视觉代理而设计的 AI 模型。所有音频输出均带有防篡改水印,确保内容真实性。

🎯 核心特性

实时语音对话

Gemini 3.1 Flash Live 实现了业界领先的实时语音交互能力:

特性详情
支持语言90+ 种语言
音频延迟业界领先
对话自然度接近人类对话
打断处理支持随时打断

技术亮点:

  • 支持双向实时语音流
  • 低延迟响应,接近人类对话节奏
  • 可靠的自然语言理解
  • 多语言平滑切换

ComplexFuncBench Audio 表现

在 ComplexFuncBench Audio 基准测试中获得 90.8% 的高分,验证了其在复杂语音任务中的卓越能力。

安全性

  • 所有音频输出均带有防篡改水印
  • 符合 Google AI 安全准则
  • 企业级数据隐私保护

🛠️ 可用渠道

开发者渠道

渠道说明
Gemini Live API实时音频对话 API
Google AI Studio在线测试和开发平台
Vertex AI企业级部署

企业应用

  • Gemini Enterprise for Customer Experience:企业客服解决方案
  • Search Live:实时搜索对话
  • Gemini Live:移动端实时对话应用

💻 开发指南

Python SDK 示例

python
import google.generativeai as genai
import asyncio

# 初始化
genai.configure(api_key='YOUR_API_KEY')
model = genai.GenerativeModel('gemini-3.1-flash-live')

async def realtime_conversation():
    """实时语音对话示例"""
    
    # 启动实时会话
    async with model.start_realtime(
        voice_config={
            "language": "zh-CN",
            "voice_name": "Kore",
            "speed": 1.0,
            "pitch": 0.0
        }
    ) as session:
        
        # 发送语音输入
        await session.send_audio_file("question.wav")
        
        # 接收回复
        async for response in session.receive_responses():
            if response.audio:
                # 处理音频回复
                save_audio(response.audio)
            if response.text:
                # 打印文本回复
                print(f"Gemini: {response.text}")

# 运行
asyncio.run(realtime_conversation())

JavaScript/Node.js 示例

javascript
import { GoogleGenerativeAI } from "@google/generative-ai";

const genAI = new GoogleGenerativeAI(process.env.API_KEY);
const model = genAI.getGenerativeModel({ 
    model: "gemini-3.1-flash-live" 
});

async function realtimeDemo() {
    const session = await model.startRealtimeSession({
        voiceConfig: {
            language: "zh-CN",
            voiceName: "Kore"
        }
    });

    // 监听回复
    session.on('message', (response) => {
        if (response.audio) {
            // 播放音频回复
            playAudio(response.audio);
        }
        if (response.text) {
            console.log("Gemini:", response.text);
        }
    });

    // 发送语音输入
    await session.sendAudioFile('./microphone-input.wav');
}

realtimeDemo();

视觉代理开发

python
async def vision_agent():
    """视觉+语音代理示例"""
    
    async with model.start_realtime(
        modalities=["audio", "video"],
        voice_config={"language": "zh-CN"}
    ) as session:
        
        # 开启摄像头并发送视频流
        camera_stream = await get_camera_stream()
        await session.send_video_stream(camera_stream)
        
        # 同时接收语音回复
        async for response in session.receive_responses():
            if response.text:
                print(f"视觉分析: {response.text}")
            if response.audio:
                play_audio(response.audio)

📊 API 参数说明

实时会话配置

参数类型说明
voice_configobject语音配置
voice_config.languagestring语言代码(如 "zh-CN")
voice_config.voice_namestring音色名称
voice_config.speedfloat语速(0.5-2.0)
voice_config.pitchfloat音调(-1.0 到 1.0)
modalitiesarray输入模态(["audio", "video"])

音频格式

格式编码采样率
输入opus16kHz
输出opus24kHz

🎨 应用场景

1. 智能客服

python
# 语音客服代理
async def customer_service_agent():
    async with model.start_realtime(
        voice_config={"language": "zh-CN"}
    ) as session:
        print("客服已上线,请说话...")
        
        async for response in session.receive_responses():
            if response.text:
                # 自动记录对话
                log_conversation(response.text)
            if response.audio:
                play_audio(response.audio)

2. 实时翻译

python
# 实时翻译代理
async def translation_agent():
    async with model.start_realtime(
        voice_config={
            "language": "en-US",  # 目标语言
        }
    ) as session:
        
        async for response in session.receive_responses():
            # 实时翻译说话内容
            print(f"翻译: {response.text}")

3. 视觉问答

python
# 基于摄像头的视觉问答
async def vision_qa():
    async with model.start_realtime(
        modalities=["audio", "video"],
        voice_config={"language": "zh-CN"}
    ) as session:
        
        # 持续发送视频流
        camera = start_camera()
        await session.send_video_stream(camera.get_frames())
        
        # 接收语音回答
        async for response in session.receive_responses():
            if response.text:
                print(f"回答: {response.text}")

4. 教育辅导

python
# 口语练习辅导
async def language_tutor():
    async with model.start_realtime(
        voice_config={
            "language": "en-US",  # 练习英语
        }
    ) as session:
        prompt = """
        你是一位英语口语教师。请:
        1. 用英语和学生对话
        2. 纠正发音和语法错误
        3. 给出改进建议
        """
        await session.send_text(prompt)
        
        async for response in session.receive_responses():
            if response.audio:
                play_audio(response.audio)

🔒 安全与水印

Gemini 3.1 Flash Live 在音频安全方面做了重要增强:

防篡改水印

  • 所有 AI 生成的音频都带有隐式水印
  • 可用于识别 AI 生成内容
  • 符合负责任 AI 开发原则

内容安全

  • 内置内容过滤机制
  • 实时监测不当内容
  • 符合 Google AI 安全准则

📈 性能对比

指标Gemini 3.1 Flash Live竞品 A竞品 B
延迟极低中等较高
多语言90+40+30+
打断处理优秀良好一般
情感表达自然机械机械
ComplexFuncBench90.8%85.2%78.5%

🚀 未来展望

Google 计划持续优化 Flash Live:

  • 更多语言支持
  • 更低延迟
  • 增强情感表达
  • 视频理解能力提升

🔗 相关资源


最后更新: 2026年5月