向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
“特别能聊”的人工智能会聊出些什么?******
聊天机器人ChatGPT优异表现引发市场关注,人工智能生成内容概念走上风口
“特别能聊”的人工智能会聊出些什么?
本报记者 时斓娜
阅读提示
全新人工智能聊天机器人模型ChatGPT不仅能够通过学习人类的语言来进行对话,还能根据聊天的上下文进行互动,让人们更直观地感受到了人工智能的魅力。包括内容生成、搜索引擎增强等在内的领域,将是其潜在的产业化方向。ChatGPT的商业化落地,还需要克服技术和科技伦理等方面的问题。
家里要养一只猫,该如何给猫取名字?怎样写出一个纸牌游戏的代码?在不同语境中,词语“意思”到底有几个意思?这些五花八门、时常令人绞尽脑汁都难以得出答案的问题,在人工智能聊天机器人ChatGPT的面前,不过是瞬间便可迎刃而解的“一碟小菜”。
产品发布短短两个月,ChatGPT的日活量已突破千万,不少人“聊过”之后惊呼“这太像真正的人类了”。其超预期的表现引发越来越多的市场关注,人工智能生成内容(AIGC)概念由此走上风口。
人工智能聊天究竟能聊些啥?ChatGPT所代表的AIGC应用将带来哪些影响和变化?记者对此进行了调查采访。
“真正像人类一样聊天交流”
“我所热爱的是我真实的生活,因为它包含了我所有的经历和感受,是我每一天都在体验和思考的。”这句乍看上去充满了人类体悟和情感的话,实则出自人工智能聊天机器人ChatGPT。
随着ChatGPT大火,不少网友将它与自己的聊天记录分享到社交平台上,ChatGPT时而诙谐有趣,时而又显得思想深邃。除了各种聊天互动外,还有不少网友们将ChatGPT视为一种工具,让其写作文、翻译文章,甚至写代码。迅速的响应能力和较为靠谱的回答让大家直呼其“真正像人类一样聊天交流”“特别能聊”。
中国信息通信研究院联合中国人工智能产业发展联盟对ChatGPT进行的测试显示,ChatGPT在百科检索、数学问答、文学交流、常识问答、知识推理等对话任务上的意图识别率均达到98%左右,在生活闲聊上的意图识别率约为95%,已具备较好的语义理解能力。
实际上,ChatGPT属于生成式人工智能的一个典型应用。人工智能是怎样“进化”得如此智能的?“这是因为ChatGPT建立在大型语言模型上,会通过连接大量的语料库来训练模型。这些语料库包含了真实世界中的对话和各种网络公开信息,使ChatGPT知识丰富,还能根据上下文进行互动。”深度科技研究院院长张孝荣表示。
创新交互为AIGC带来新启发
随着人工智能技术的发展,近年来AIGC类型不断丰富、质量不断提升、技术的工程化水平越来越高,国内外科技公司纷纷发力布局AIGC领域。
以百度文心大模型为例,输入一个题目,它可以瞬间写出上百篇作文;根据一句话或者一段描述文本,可以生成一幅精美的画作;根据一幅图像,可以自动生成高清、流畅的视频。
在百度技术委员会主席吴华看来,ChatGPT在用户界面和交互上是一种比较创新的模式,用户更容易以自然语言的方式进行交互,这会给大家带来革新性的认识,也会给AIGC带来新的启发。
目前,国外一些公司在积极探索并落地ChatGPT的诸多应用场景,通过将ChatGPT整合进搜索引擎等方式提高服务智能化水平。有观点认为,ChatGPT将颠覆搜索行业,在智能客服、游戏、虚拟人等领域也将得到广泛应用。硅谷投资机构红杉预测,未来AIGC有潜力产生数万亿美元的经济价值。
根据中国信息通信研究院发布的《人工智能白皮书(2022年)》,“生成式人工智能”技术将广泛应用于智能写作、代码生成、有声阅读、新闻播报、语音导航、影像修复等领域,听说读写等能力的有机结合成为未来发展趋势。
“人工智能生成在诗歌、作曲、绘画等艺术创作方面大放异彩,在分子结构、软件代码等科研生产领域的应用不断拓展,还帮助降低临床试验的科研成本和缩短研发周期。”云计算与大数据研究所内容科技部副主任石霖表示,当前,人工智能生成内容的辐射范围还在扩大,未来有望重塑各行业领域的研发面貌。
商业化落地需克服技术和伦理问题
尽管各界对AIGC发展前景保持乐观,但从现状来看,ChatGPT等产品想要真正落地,还需要克服技术和科技伦理等方面的问题。
在对ChatGPT进行的种种评测中,ChatGPT会犯一些常识性错误,反映出其在可控性、准确率方面仍存不足。有人形容,ChatGPT像极了一个很能聊但有时候喜欢信口开河的人类朋友。
中国信息通信研究院评测结果同样显示,ChatGPT在非闲聊型对话的任务完成率上表现一般,难以摆脱传统深度学习模型普遍存在的知识整合和逻辑推理的问题。
“ChatGPT虽然能够较好地回答不少问题,但在一些略有深度的、专业性较强的领域,其答案往往‘捉襟见肘’。这说明ChatGPT语料库规模和计算能力的天然不足,也说明了算法依然需要完善。”张孝荣说。
在技术层面以外,人工智能还面临着悬而未决的科技伦理问题。张孝荣表示,ChatGPT在科技伦理方面至少面临三大挑战:“一是版权问题,ChatGPT生成的内容更多来自搬运,容易引发侵权;二是信息安全问题;三是社会缺乏接纳这一新生事物的准备机制,这对监管挑战很大。”
在国内,AIGC产业化路径同样有待探索。石霖介绍说,国内AIGC产业基础薄弱,相关初创公司数量明显少于国外。同时,国内企业目前仍处于打磨产品阶段,还未出现较为好用的内容生成服务。