UIFU.com

Google也做不到的影片内容搜索技术

2008-04-16 21:54:10 , holeo , 个性生活

如果每个人都用手机随手摄影并上传到Blog,则网络上的资料将会有很大部分是Google、Yahoo!等搜索引擎找不到的非文字内容(图片来源:Sony Ericsson)

影片也能拿来搜索

许多人习惯有问题时,先去拜一下Google大神。Google强大的文字搜索能力,可以在茫茫网海中找到关键字,进而指出有用的网页。但是对于存在于网络的影片, Google就很难使上力,除了档名与其他的文字介绍外,Google根本没什么用,就算回报了一个网址,档名看起来相当符合,但长达十数分钟的内容,你又怎么知道想看的片段在哪一分钟呢?先不提网络够不够快的问题,要把每部片子都看完已经是很辛苦的事了。

怎么让搜索引擎也可以找影片,就像我们用Google找文字资讯一样精确,这是个很有趣,或者说,这是个非常有“钱”途的问题。想像一下,未来每个人的手机都可以摄影,还可以立即上传到部落格,每天新增的分享影片可能有几百万部,比文字资讯还多,谁能精确搜索这些内容,就是下一个Google。

利用声音搜索影片内容

针对这问题,大家的解决方法都不同,但目前最成功的,应该是利用语音辨识技术。例如美国波士顿的EveryZing公司,他们的技术在读取影片后,将影片中的声音转换为文字,然后记录在资料库中。所以你只要打入关键字,电脑便在资料库中搜索文字资讯,而非搜索影片的图像,找到后再将影片连结交还给你检视。这方法的好处很明显,只要字串对了,搜索影片内容无往不利。国内很多考生会在家中用补习班提供的录影带温习功课,如果辅以这个技术,考生遇到不懂的地方,只要在电脑内输入关键字,便可以看到所有录影带中的相关讲解,如果想不起讲课内容,只要回想起老师曾讲过某个笑话,输入笑话内的关键字,也可以找到前后的影片片段,实在是非常方便。

语音辨识技术仍难达成百分之百准确

但这技术的优点也是缺点,既然是搜索影片中语音所转换的文字,如果辨识错误该怎么办?事实上,语音辨识只是个发展了几十年的技术,也一直还有改善空间;而且大部分的语音辨识技术,都是针对某一种语言所开发的,如果要针对全世界的使用者,上百种语言与数万种口音的隔阂,让语音搜索简直成为不可能的事情。

影片内容搜索与广告行销

电脑对于精确的事情很在行,1+1=2不会出错,但是模煳的事情就要依靠人类。一杯水加一壶水等于什么?各位读者的答桉再怎么急转弯,也比电脑的“Syntex Error格式错误”好得太多了。语言本身就是一个很模煳的东西,连发音也很模煳,人跟人讲话都有可能听错了,所以不能期待电脑完全正确抄写影片中的对白。

EveryZing公司的语音转文字技术,受惠于美国政府的一亿美金投入,虽然还有点瑕疵,但读者不妨尝试以语音搜索影片或声音档,看看是否真的可以准确找到相关影片片段(图片来源:http://search.everyzing.com/)

EveryZing公司说,这技术不止用在搜索上,还能抄录整部电影的对白;也就是说,你可能知道周星驰在电影中将蟑螂取名为“小强”,但是哪一部电影呢?使用这技术,只要在他的电影中蒐集“小强”两个字,不但可以知道是哪一部电影,连在几分几秒说的都能知道。如果搭配够强大的翻译软体,可以先把各国的影片各自抽出该国语言对白,再翻译成中文或其他文字,就可以把搜索范围扩大到网络上各种语言的影片。

除了EveryZing,Blinkx公司也使用语音技术搜索影片内容,不过方法稍有差异。曾使用Google的人都知道,Google会从你找的网页内容,决定提供什么样广告给你参考;而这种针对特定使用者的广告方式,也着实让Google赚翻了。Google在影片搜索方面也是一样,藉由影片的档名与关键字置入广告,问题是YouTube的许多影片根本没什么可用的关键字,所以广告往往没有命中目标。Blinkx则会分析影片内容,据他们的说法,不只是语音而已,还包括影片视讯,然后根据这些内容决定要插入什么广告,使得广告效率应该会比Google的文字搜索好多了。

其他可能的搜索方式

可能有人会问说,为什么不用影像识别技术进行影片搜索呢?其实这是个很棒的方法,想像一下,你想找台北101的影片,所以在网络上挑选一张台北101的照片,电脑便能扫瞄所有的影片,找出裡面有相似台北101的影片片段,并回报超连结给你浏览。更甚者,你只要输入“101”,电脑便猜出你想找哪些影片。

Blinkx也可以搜索影片与录音档的内容,甚至可以搜索美国的电视连续剧(图片来源:http://www.blinkx.com)

图片与影片辨识的实作困难度极高

那为什么不这样做?因为目前办不到啊!在电脑科学中,想在一张图片中找到一条直线,就要用到一些演算法,从各个角度,各个方向去寻找可能是线条的东西,而且需要的计算时间还蛮长的,别人的文字搜索程式已经扫瞄完成整个文字档,图片比对程式却刚准备好资料而已,况且一段影片是由许许多多的图片所构成,这又将影片比对程式的难度乘上很多倍。

说到这个,我们不得不惊叹自然界的奇妙,每一个人都是一个了不起的工程成就。当你看到一张图时,不用人家教,马上就能辨识这张图内有没有台北101的影像,不必学习什么类神经演算法、模煳理论,Hough Transform等数学多到想烧课本的技术,反正就是可以在一闪而过的影片中,找到有兴趣的资讯。

前途无限技术有待突破

大致来说,资料搜索的速度是以文字最简单,然后是语音,图片又更难。由于影片是由图片构成的,在影片中寻找物体,困难度将是好几倍,而在连续影片中识别出某个动作,更是乾脆坦承“办不到”比较快。如果电脑可以知道影片中出现什么资讯代表“偷东西”的动作,那光是卖给全世界的商店就赚到翻了。

目前为止,电脑影像识别的最高成就应是美国国防部所赞助的Grand Challenge比赛。由电脑驾驶汽车,而每部车上必须装满一堆仪器跟相机,才有机会辨识前方是不是可通行的马路,但如果要辨识其他环境还不行,更何况是网络上千奇百怪的影像档。

微软前总裁Bill Gates曾劝学生多研习电脑科学,因为有太多的技术等待开发,而其中许多离实现梦想的日子还非常遥远,需要很多优秀的人才持续投入。就如我们这边所说的,在众多影片中搜索有用的片段,目前只是个还不成熟的技术,不论是Blinkx或EveryZing,或者其他正在各顶尖机构研究的相关技术,其实都离真正的解决方法还有很大差距。建议读者们不妨试用一下前述这些影片搜索网站,也许会对于下一代的网络搜索引擎有更多想法。(digital home 第106期4月号)

Powered by Holeo © 2008 UIFU.com