利用音频和视频模式开启新的应用案例
Gemini团队正在不断推进Gemini 1.5 Pro模型的功能升级,他们正在积极扩展其输入模式,以便更好地整合Gemini API以及Google AI Studio中的音频(语音)理解功能。这一改进将极大地丰富模型的输入类型,提高其在多样化场景下的适应性和应用范围。
此外,针对在Google AI Studio中上传的视频内容,Gemini 1.5 Pro现在具备了对图像(帧)和音频(语音)数据进行综合推理的能力。这意味着模型能够从视频资料中提取和理解更加丰富和复杂的信息,为用户提供更加精准和深入的分析结果。