向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
绅装骑行 一种别样体验******
2022年上海绅装骑行活动
在上海黄浦江畔、北京胡同内外、成都太古里至浣花溪,一群衣着时髦的青年男女蹬着各式复古自行车穿梭在城市的新旧街区。他们的摩登身影与建筑景观交融,相机定格的每个瞬间都像一张张精美的上世纪画报。近两个月来,国内多地兴起绅装复古骑行活动。活动照片和视频在网络上传播,一度登上某生活方式类平台的热搜榜单,引来不少网友的关注。
左为《音乐之声》男主、右为正义的cosplay
绅装复古骑行 造型靓丽引来路人拍照夸赞
上海,四川中路与南京东路交叉路口,红灯亮起,复古骑行自行车车队停下等待。几位大约六十来岁的叔叔、阿姨正准备过马路,却被一群青年男女的独特装扮吸引了目光。有人忍不住停下观看、拍照,也有人上前询问、夸赞:“你们是在拍电影吗?”“你们穿得真好看!”
这是一场绅装复古骑行活动,参与者的服装和配饰都经过精心搭配,被围观、被拍照是骑行队伍的常态。
正在上海某研究所读博士的正义是活动主创之一。如果看过电影《音乐之声》就会发现,他的穿着酷似男主角特拉普第一次出场时的装束。正义穿的是德奥交界地区的民族服饰,他在萨尔茨堡游玩时曾见到当地老人穿着这样的衣服。为了复刻这件夹克,他从东欧淘了一整套鹿骨扣子,又仔细挑选了最接近电影人物着装的灰色和绿色面料。
据了解,这次骑行活动共130人,分为8支队伍。从浦西出发,穿过老城厢的城隍庙、豫园,经轮渡抵达浦东,沿着滨江大道路过和平大钟、东方明珠,用骑行串联起城市的新与旧。
当黄浦江上的夕阳逐渐被夜色取代时,在游轮上,灯光、音乐、酒水早已齐备,他们将在此进行最佳着装的评选。
戴着金框眼镜、穿着米白色西装的Kristan,是上海一所艺术类院校的大三学生。他拿着话筒上前介绍自己的穿搭:颈间系着外公90年代的领带,无名指上戴着父亲十多年前在巴西买的猫眼石戒指。在投票环节,10多位参与者把口袋巾交到了Kristan手上,他获得了当晚的最佳男士穿搭奖。
Kristan是绅装爱好者圈子里的新人,刚刚“入坑”一年。他第一次穿西装是在高中成人礼上,第二次是大学时期参加音乐会,后来他开始逐渐尝试把西装作为日常着装。2021年,他在b站自学西装知识时,刷到了绅装骑行活动的视频。
“挺酷的。”他心里想,不如报名参加2021年的骑行活动,去看看圈内大佬们。他查看日程安排、确认活动时间,七八分钟后再回过头看报名链接,票已经抢光了。2022年,他提前做了抢票的准备:守在直播间等待报名链接公布,紧盯着电脑屏幕秒表倒计时,手上不停地点击刷新,“票不到一分钟就没了!”
正义为了参加骑行活动会精心准备着装
为在现场“隆重亮相” 参与者都会进行精心准备
抢到票的都是“幸运儿”。为了能在活动现场“隆重亮相”,参与者都进行了一番精心准备。
重庆的庞开中提前半年选择Loro Piana(圈内人称作“罗富贵”)防雨面料,定制了仿西班牙猎装风格外套,又在口袋里用丝巾增加“飘逸感”,准备就绪后专程飞到上海参加了骑行。广州的贴章花3000元复刻了美国一双1927年的皮鞋,他的朋友卡森则走低成本路线,选用不到700元的古着单品。但后来因为疫情,他们最终没能成行,只得在二沙岛附近骑着共享单车与上海骑行遥相呼应。
“平时我们喜欢考据,比如一个服装元素的起源、发展。但身边喜欢研究复古穿搭的人不多,不太有机会去分享穿搭背后的历史沉淀和我们的研究思考。如今,线下活动和线上分享是我们释放表达欲、认识朋友的一个渠道。”卡森说。
在绅装爱好者的眼中,绅装骑行就像一次文化盛会。有相近服装审美趣味的人可以借此交流穿搭经验,结识各行各业的朋友,还能见到在网络上关注已久的圈内博主。
绅装骑行活动将绅装爱好者聚集在一起
不少爱好者“入坑”时 也曾遇到周围人不解的眼光
其实,不少爱好者在最初“入坑”时也曾遇到周围人不解的眼光。20岁的Kristan穿上西装在外人眼中显得老成,以至于朋友聚会时衍生出一个固定环节——请新朋友猜他的年龄,他们的答案常常是二十六七岁。母亲最初也不太支持他穿西装,开玩笑说他长期单身的原因是穿着西装让人不敢靠近,想让他停下一段时间试试。
31岁的庞开中“入坑”7年了。他回忆,以前在纽约上学,常常看到曼哈顿的上班族西装笔挺,由此萌生了对西装的兴趣。一天,一身西装的庞开中与着装休闲的美国教授在电梯里偶遇。教授问他为什么每天都穿得这么正式?他结合《王牌特工》里的台词回答道:“西装代表态度,礼节造就君子。”
“礼之大者,莫过于衣冠。”庞开中认为,着装体现了对人的尊重。
在国内,庞开中早年也曾因穿西装被误解。朋友调侃他去相亲,路人猜测他的职业是卖保险的或房产中介。父母也曾有点担忧,他的着装与周围人不同,或许会引来他人异样的眼光。
Kristan和庞开中表示,最初入坑时的着装都难免过于商务、严肃,后来在学习和练习中摸索出自己的风格,日常生活中也常用经典西装元素搭配。庞开中开玩笑说这是一群“臭美”的人,“美是多元的,每个人都有自己的兴趣和理解,大家可以互相尊重。”
繁忙都市人 扮成向往的模样
时下,社交媒体中传播的“绅装骑行(Suit Ride)”是正义2020年在上海发起的。他是一名90后,曾在荷兰、英国求学,也曾在伦敦参加过Tweed Run活动。
“那次体验很新鲜,大家有机会穿喜欢的衣服并和相同爱好的人一起骑车,很酷。”那时,正义刚开始对英式乡村休闲风格着装文化感兴趣,喜欢上了花呢、灯绒等较为粗糙的面料营造出兼具休闲与得体的感觉。当天骑行大约5小时,他随人群一起穿过伦敦地标建筑。
2018年回国后,组织完一场校友骑行聚会,正义偶然想起在伦敦的骑行经历,便在2020年与身边朋友一起组织了第一届绅装骑行。这次活动大约有50人参加,第二年便发展到了近百人。
“伦敦的Tweed Run办了十多年,规模大、参与人数多,更像是city tour(城市观光旅游),国内早期的Vintage Ride参与者更多是自行车爱好者,现在的Suit Ride更多是经典男装、复古穿搭文化的爱好者。而且我们更愿意设计一些游戏环节,对新人比较友好。”
正义表示,自第二届活动以来,有一些喜欢不同穿衣风格的玩家也参与了进来。虽然活动名叫绅装骑行(Suit Ride),但并不意味着一定要穿成经典男装的样子。活动在穿衣风格上是包容的,城市机能、美式工装、英伦复古、阿美咔叽都可以,只要好看得体就行。“今年获得最佳穿搭奖的新人比很多人入坑时间都短。他拿到冠军这件事本身就足够有意义。说明玩的时间、年纪、工作、收入都不重要,重要的是愿意来玩、愿意分享和展示自己的爱好,而且确实花了心思。”正义说。
“在不少城市,在日常生活中穿绅装可能有一定压力。这个活动是一个稍微有点‘浮夸’的场合,鼓励大家打扮,对不少人来讲有点像cosplay。我个人觉得,绅装骑行活动和漫展实际上有相似之处。虽然风格、路线、文化不同,但其实大家都是喜欢把自己装扮成向往的样子。”正义说。
“服装就是让人变得得体、好看。如果能从这些研究和实践中获得知识、经验、乐趣,总结出一套能体现自己意趣的风格,甚至是收获一份珍贵的友情,那么这个过程就更加意义非凡。”正义说,“其实绅装骑行就是希望创造一个繁忙都市人慢下来走近自己城市的机会,暂时卸下各种身份,扮成自己向往的模样。”(记者陈静 实习生 宋佳旻)