别再让AI“睁眼瞎”了!聊聊能自己“放大看”的视觉代理,这回它真长了眼睛

小编 机器视觉 4

哎,不知道你们有没有这种感觉,现在的AI吧,说起来一个个都跟成精了似的,写诗画画聊人生,啥都能侃。但一碰到跟眼睛有关的事儿,立马就露怯了,整个一“睁眼瞎”。

啥意思?我给你举个例子。

上个月我不是去成都出差嘛,顺便逛了逛宽窄巷子。路过一家卖三大炮的,那招牌写得龙飞凤舞的,还是那种复古的木板刻字,我眯着眼瞅了半天,愣是没认出来最后一个字是“炮”还是“粑”。要是搁以前,我肯定就掏出手机拍个照,然后打开那个啥识图软件,让AI帮我认认。结果你猜怎么着?那玩意儿给我识别出来个“三大把”,还把“三大把”的特色给我巴拉巴拉介绍了一通,直接给我整不会了。

当时我就站在那摊儿前面,看着手机里那个自信满满的错误答案,突然就觉得,这哪是人工智能啊,这简直就是“人工智障”!它就是把图片压缩、扫描、然后根据像素概率猜一个最像的答案,压根儿就没真正去“看”那个字的细节。这就好比一个近视眼还不戴眼镜,全靠蒙,你说这能靠谱吗?——这事儿要是搁我姥姥那儿,她老人家肯定得说:“这铁憨憨,还没我老太婆眼神好使呢!”

不过,最近我刷到个消息,说的是谷歌给他们的Gemini模型搞了个大升级,推出个叫 【ai视觉代理】 的东西-1-4。一开始我以为又是那种听着唬人、用着没屁用的营销噱头,但仔细扒了扒它的原理,嘿,还真有点意思。这回,它好像是真的打算给AI装上一双会自己“找重点”的眼睛了。

这玩意儿到底神在哪儿?它会自己“凑近了看”

以前的AI看图,咋看的?就是一口吞。甭管你图片里有多少信息,它就像猪八戒吃人参果一样,囫囵个儿就吞下去了,根本来不及细品。你要是拿一张密密麻麻的电路图,或者像刚才我说的那种龙飞凤舞的书法招牌给它看,它扫一眼就下结论,细节丢了就丢了,全靠瞎猜-4

但这个新出的 ai视觉代理 不一样了。它啥套路呢?用四川话说,它晓得“盯到起看”!它会先大概扫一眼,然后脑子里有个小计划:“哎,这个图有点复杂,我得先看看左上角那串数字,再放大右下角那个小字。”接着,它就会自己写一段Python代码,去把图片的特定区域给裁剪出来,放大,甚至旋转到正确的角度,然后像拿着放大镜似的,凑近了仔细瞅-1-6

这就牛逼了啊!它不再是被动地接受你投喂的图片,而是像一个真正的侦探,或者一个好奇心爆棚的小孩,对着照片这儿摸摸、那儿看看,非得把每一个犄角旮旯都搞明白才罢休。

我就琢磨,这功能要是早点出来,我去年在潘家园差点打眼的那次经历,估计就能避免了。当时看个宣德炉,底款那字儿模模糊糊的,我用AI识图愣是没识别出来,卖家还信誓旦旦说“这包浆,这字体,一眼货!”幸好我当时留了个心眼,没下手。要是能有这种能主动放大的AI,把那底款的每一笔刻痕都分析得明明白白,我至于心里这么没底吗?

而且这玩意儿还不止是看画,它已经开始落地到我们身边的硬件里了。今年那个世界移动通信大会上,雷鸟不是跟德国电信合作出了个新眼镜嘛,里面就集成了这种代理式AI的能力-2-5。戴上那眼镜,你眼睛看到哪儿,它的服务就跟到哪儿。比如你站在一个全是法语的菜单前面,你还没反应过来呢,眼镜上就直接给你把翻译好的菜名和推荐菜飘在眼前了-2

这种感觉是啥?就好比你身边突然跟了个特别懂行的哥们儿,你一个眼神,他就知道你想干啥,而且还帮你把事儿都办妥了。这种从“人找服务”到“服务找人”的转变,用咱老百姓的话说,就是“这玩意儿终于有点眼力见儿了”!

当然,这技术也不是一夜之间就从石头缝里蹦出来的。今年的CES(就是那个全球最大的消费电子展)上,到处都是这种视觉模型的身影-7。那些笔记本厂商都在吹,说以后的电脑不再是冷冰冰的工具,而是一个“AI代理平台”,它能看着你的脸,理解你的情绪,甚至在你皱眉的时候,主动问你一句:“咋了哥们儿,这PPT做得不顺?要不要我帮你找点资料?”-7

这听着有点科幻是吧?但技术的发展就是这么邪乎,它不是慢慢走的,它是三级跳。以前我们总觉得AI听不懂人话,现在发现,它不仅要听懂人话,还得看懂人眼色。这 ai视觉代理 解决的最大痛点,其实就是那个让我们无数次抓狂的“细节缺失”和“上下文瞎猜”-8

想想看,以前我们教AI认东西,得费多大劲儿?得标注海量的数据,告诉它这是一只猫,那是一只狗。稍微换个角度,换个光线,它又不认识了,死笨死笨的。但现在这种视觉代理,它能自己“思考-行动-观察”,形成一个闭环-6-8。这就好比它自己会总结经验了,下次再碰到类似的模糊情况,它就知道该放大哪儿,该忽略哪儿。这不是死记硬背,这是真的在动脑子。

不过话说回来,这玩意儿现在也不是十全十美。我看网上有那帮搞技术的在Reddit上吵吵,说ChatGPT其实早就有类似通过代码解释器看图的功能,但到现在有时候连人手有几个指头都数不清楚-8。这就有点尴尬了,说明这技术还是有“幻觉”,还是会犯迷糊。但总归方向是对的,至少它开始学着像人一样,为了看清楚一个东西,主动去调整角度和距离了。

这让我想起小时候在村里,那时候没有手机导航,去隔壁镇赶集全靠问路。那些热心的大爷大妈指路的方式特有意思,他们不会直接告诉你“往东走三百米”,他们会说:“你看到前头那个歪脖子树没?到了那儿往右拐,再看到一家门口晒着花生地的,左拐进去就到了。”这种指路方式,靠的就是对沿途视觉地标的深刻理解。现在的AI,不正是在学这种“看地标”的能力吗?

所以我觉得,这次的技术升级,可能真的是一个转折点。当AI不仅能听懂我们说的话,还能像我们一样去观察和理解这个复杂的世界时,那种体验将是颠覆性的。以后那些复杂的图纸、潦草的笔记、模糊的老照片,在它眼里都不再是天书。它甚至能通过你家的装修风格,给你推荐几盆搭调的绿植,而不是像现在这样,你在淘宝搜个“沙发”,它就给你推半年的沙发,推得你都想把它拉黑。


好了,以上就是我这个科技爱好者对这“视觉代理”的一些碎碎念,纯粹是个人看法,有说得不对的地方,大伙儿多多包涵。我知道咱这评论区里藏龙卧虎,肯定有不少老哥老姐对这玩意儿有自己的见解。咱们不妨来唠唠,下面这几个问题,是我替几个不同身份的朋友问的,也算是抛砖引玉了。

【网友问答环节】

网友“程序员陈浩”问:
看着挺玄乎,但这不就是传统的OCR(光学字符识别)加上一个自动裁剪的脚本吗?有什么区别?而且代码执行这东西,会不会带来新的安全风险?毕竟让AI自己写代码去操作图片,要是它抽风了,把我硬盘里的照片全删了咋整?

答: 浩哥这问题问得专业,一看就是行家!我先接着你的话茬儿往下说。这事儿吧,咱得辩证地看。

它真不是简单的“OCR+脚本”。传统的OCR是死的,它不知道什么时候该放大,放大哪里。但这个Agentic Vision(代理视觉)强就强在那个“思考”的环节-1。它会根据你的问题去制定策略。比如你问“这张电路图里那个芯片的型号是啥”,它就会主动去裁剪芯片那个区域放大看;你要是问“这照片里后排那个人穿的啥颜色鞋”,它甚至会去增强那个阴暗角落的画质。这是一种有目的、有逻辑的视觉,而不是机械的扫描。

关于你担心的安全问题,这可真是问到点子上了!这也是我当初看到“代码执行”四个字时心里一紧的原因。你别说,我还真在网上看到有人跟我一样的顾虑,怕AI哪天想不开了,在电脑里搞破坏-8。不过目前看,这个代码执行是被“关在笼子里”的,它运行在一个非常安全的沙盒环境里,而且主要是用来调用像Matplotlib这种画图库,或者对图片进行无损的旋转、裁剪操作-4-8。就好比你让它去厨房做饭,但只给了它一套固定的塑料刀具和电磁炉,它最多把菜切得难看点,点不着房子的。当然,随着功能越来越强,安全这块篱笆肯定得扎得越来越紧,这确实是个长期要盯着的事儿。咱也不能因噎废食对吧?

网友“爱吃火锅的重庆妹儿”问:
哎呀,我听懂了!就是以后出去旅游,再也不用对着菜单发呆了嘛!也不用因为看不懂路牌在陌生地方像无头苍蝇一样乱窜了。我就想问,这眼镜啥时候能普及?贵不贵?像我这种近视眼,能直接配度数不?

答: 妹子你这需求太真实了!绝对是广大路痴和吃货的福音啊。你说的这些场景,正是这个技术想解决的问题-2。你想啊,以后你去解放碑吃火锅,拿眼镜一扫那油乎乎的菜单,什么“脑花”、“耗儿鱼”不仅给你翻译得明明白白,还能告诉你这家店的招牌菜是啥,辣度几颗星,简直不要太爽!

至于普及和价格,我觉得得分成两步走。第一步是这种“视觉代理”的能力,它会像软件更新一样,很快就在你手机里的App上实现了,比如谷歌说的那个“Thinking模式”,估计用不了多久,你的手机相册就能具备这种“放大看细节”的功能了,这部分肯定是免费的或者成本很低-1

但你要说到那种酷炫的AI眼镜,那就得再等等了。像MWC上展出的那种,现在还属于“秀肌肉”的阶段,价格肯定不便宜,而且量产还得有个过程-5-9。不过别担心,中国厂商现在的速度你知道的,卷得很!从“奢侈品”到“大路货”,用不了几年。至于近视问题,这倒不是大坎儿,现在的智能眼镜很多都支持配近视镜片,或者像雷鸟那种光波导技术,本来就不影响你看外界,就是个信息叠加,所以你戴不戴眼镜,大概率都能用-2

网友“退休老李师傅”问:
这东西听着是好,可我有点怕。现在那些App已经够精的了,刚跟老伴儿聊个血压计,转头就给我推降压药。这要是AI再长上眼睛,能看懂我周围环境,那我家里有啥、我每天干啥,它不都知道了?这还有隐私吗?我们老年人最怕这个,心里不踏实。

答: 老李师傅,您这一下子就说到了最根儿上的问题!这确实是咱们享受科技便利的同时,必须得面对的一道坎儿。

您担心的这事儿,一点都不多余。当一个AI拥有了“眼睛”,并且能“看懂”这个世界的时候,隐私的边界确实在被重新定义-10。你看CES上那些大厂也在讨论,以后的数据处理,必须更加透明,甚至要在法律层面给用户一个说法-7

但是,事情可能没那么悲观。技术上其实是有解决办法的。一个主流的方向叫“端侧智能”。啥意思呢?就是所有这些“看”和“想”的动作,都在你自己的设备上(比如你的手机或者眼镜里)就完成了,不需要把图片或者视频上传到云端-7。这就好比以前得把材料送到衙门去审理,现在材料就在你家,判官也搬到你家客厅办公了,外人根本看不到你家有啥。像现在的一些AI PC和高端手机,都在拼命提升本地算力,就是为了干这个。

当然,作为咱们用户,也得多个心眼。以后用这些东西,就跟咱们现在给App授权一样,得看清楚它要啥权限。它要是非得把你家里拍个遍才能用,那这玩意儿咱就得掂量掂量了。保护隐私,最终还得是靠法律、靠技术和咱们自己的防范意识这三驾马车一起拉着走。您老有这份警惕心,就对了!

抱歉,评论功能暂时关闭!