kaiyun登录入口登录华科大研发多模态大模型“猴子”升级

新闻资讯 | 2024-03-20 03:05

　　kaiyun登录入口登录华科大研发多模态大模型“猴子”升级3月16日，极目新闻记者从华中科技大学获悉，华中科技大学和金山办公的研究人员开发的Monkey多模态大模型已被人工智能领域的国际会议CVPR2024接收KAIYUN，并且曾在Meta AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首KAIYUN，仅次于行业领先者OpenAI的GPT4V以及谷歌的Gemini等闭源模型。

　　多模态大模型是一类可以同时处理和整合多种感知数据的AI架构kaiyun登录入口登录，在众多场景中表现出色。据介绍，TextMonkey是Monkey在文档领域的重要升级，突破了通用文档理解能力的边界，在场景文字识别kaiyun官方网、办公文档摘要生成kaiyun登录入口登录kaiyun全站入口、数学问题问答、文档版式分析，表格理解KAIYUNkaiyun全站入口，图表问答，电子文档关键信息抽取等12项等文档权威数据集以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破，通用文档理解性能大幅超越现有方法。

　　该科研团队相关负责人介绍kaiyun全站入口，Monkey能帮助我们解答数学题并给出解题步骤，有助于教育自动化KAIYUN。TextMonkey能帮助我们结构化图表kaiyun登录入口登录、表格以及文档数据KAIYUN，通过将图像内容转化为轻量级的数据交换格式kaiyun全站入口，方便记录和提取kaiyun登录入口登录kaiyun全站入口。TextMonkey也能作为智能手机代理，无需接触后端kaiyun登录入口登录KAIYUNkaiyun全站入口，仅需语音输入及屏幕截图，即能够模仿人类的点击手势，能够在手机上执行各种任务kaiyun官方网kaiyun官方网kaiyun全站入口，自主操控手机应用程序。

　　TextMonkey的成功核心在于它模拟人类视觉认知的方法kaiyun登录入口登录，这使它能自然而然地识别高清文档图像中各部分的相互关联KAIYUNkaiyun登录入口登录kaiyun全站入口，并灵敏地鉴别出图像内的关键要素。更进一步，基于对用户多样化需求的深入理解，TextMonkey通过文本定位技术强化了答案的准确性，提升了模型的解释性KAIYUNkaiyun全站入口，减少了幻觉，有效提高了在处理各类文档任务上的表现。

　　当前，随着企业加速数字化转型kaiyun登录入口登录，文档与图像的多模态结构化分析及内容提取显得尤为关键。无论处理的是随意拍摄的图片、电子文档、办公软件文件还是图表分析报告，快速、自动化kaiyun登录入口登录、精确的数据处理对于提升企业的生产效率具有决定性意义。在此背景下，TextMonkey的推出为这一挑战提供了一种创新的通用解决方案，有望在办公自动化、智慧教育、智慧金融等领域率先实现技术突破KAIYUN，为全面提升通用文档理解能力带来曙光。

kaiyun登录入口登录华科大研发多模态大模型“猴子”升级

联系信息

热点资讯

kaiyun登录入口登录华科大研发多模态大模型“猴子”升级

kaiyun官网入口地址4款值得拥有的黑科技神器APP！超良心推荐

快捷导航

扫描二维码