kaiyun登录入口登录根据图片识人、识物钉钉AI升级多模态能力

新闻资讯 | 2024-04-10 21:08

　　kaiyun登录入口登录根据图片识人、识物钉钉AI升级多模态能力3月28日，钉钉AI助理迎来重要升级KAIYUN，正式上线图片理解KAIYUN、文档速读和工作流等产品能力。此次升级后，钉钉AI助理将拥有更强的视觉推理能力和长文本速读能力。在AI助理对话框，用户发送长文件、在线文档、网页链接、视频内容kaiyun全站入口，即可进行多轮交互和智能问答。

　　资料显示，基于通义千问Qwen-VL-Max视觉理解模型，钉钉AI助理能够准确描述和识别图片信息，并进行信息推理、扩展创作、文字提取和翻译等；在收到用户发来的视频后kaiyun登录入口登录kaiyun全站入口，AI助理会根据视频内容生成字幕，提取关键词，并生成一份智能摘要，对于最高2GB的视频内容，仅需3分钟即可完成智能解读kaiyun全站入口。

　　如下图（左）所示，根据我们提供的照片kaiyun登录入口登录kaiyun登录入口登录，钉钉AI助理几乎瞬间认出了小猫的品种kaiyun全站入口，并对该品种猫咪的特征和照片背景进行了简单描述；在没有任何文字提醒，以及照片内没有文字提示的情况下，钉钉AI助理准确识别了拍摄于上海迪士尼的城堡照片（如下图右）。

　　我们随手拍摄并上传了一张耳塞外包装（纯英文说明）图片。在识别产品品牌kaiyun官网入口地址、功能等常规信息之外kaiyun全站入口，钉钉AI助理在外包装明显破损的情况下，对英文说明进行了简单分析和翻译kaiyun全站入口，并提取了关键词。令人感到意外的是，在密集的英文印刷中，AI识别出了模糊的NRR信息（降噪等级），并提示用户对此进行关注。

　　综合来看，基于通义千问Qwen-VL-Max视觉理解模型，钉钉AI助理能做的事情明显变多了。

　　公开资料显示kaiyun官网入口地址，Qwen-VL-Max整体性能堪比GPT-4V和Gemini Ultrakaiyun全站入口。在MMMUkaiyun全站入口、MathVista等测评中超过业界所有开源模型kaiyun全站入口，在文档分析（DocVQA）、中文图像相关（MM-Bench-CN）等任务上超越GPT-4V，位于世界第一梯队水平。

　　不过kaiyun全站入口，AI助理也不是全能的。从实测来看，未来它仍有大量提升空间。例如对影视剧中穿戴墨镜的人物KAIYUN，以及身着古装服饰的人物，钉钉AI有时无法精准识别。此外，对于“一个月才几百块，你玩什么命啊”这样较为晦涩的网梗，AI的理解能力也有待继续完善。

　　更新后，AI助理强化了文档速读和视频速读能力：用户上传相关的文件和视频，即可得到一份内容总结。

　　值得一提的是，根据不同需要kaiyun全站入口，AI助理能生成各细分领域的助手，用户还能通过链接等形式和他人分享。例如“我的歌曲助手”：用户只需输入音乐和唱法风格等“诉求”，在约5分钟左右的时间里，AI就会自动生成歌曲，并发送至指定邮箱——初步来看kaiyun全站入口，这些歌曲和音乐其实都有不错的完成度。

　　据公开资料kaiyun官网入口地址，此次更新后，钉钉对“工作流”玩法也进行了升级。用户可以通过工作流，对AI执行任务的流程进行拆解和编排，主动接管完成相应操作，并打通外部系统数据和API能力，例如搭建能自动写脚本并生成视频的创作AI助理等。为降低用户的使用门槛，钉钉官方还将提供多种工作流模板。

kaiyun登录入口登录根据图片识人、识物钉钉AI升级多模态能力

联系信息

热点资讯

kaiyun登录入口登录WPS 移动端新增「图片翻译」「PDF 目录提取」「文字

kaiyun登录入口登录根据图片识人、识物钉钉AI升级多模态能力

快捷导航

扫描二维码