总而言之,问题不仅在于最终的可行性,还在于谷歌最终将/能够如何处理以这种方式收集的数据,或者谷歌认为什么是数据的有意义的用途。最终,它是关于为用户创造有形的附加值,并且这只有在准备时间和多个系统的交互下才能实现。为了在真实产品上测试理论想法,这里进行了一项小型研究。
为了测试谷歌在图像文本识别领
域最成熟的产品,我拍摄了几 不同的图像,并检查了谷歌翻译应用的开 手机号码数据 发状况和任何弱点。需要注意的是,我在这里故意误用了谷歌翻译;合规使用当然是不同的。该应用程序使用机器学习的数据,并将其与增强现实系统实时结合。您可以在此处查看结果。
我的第一张图片是代理机构的地址。这里的目的是测试在相对清晰的环境中识别和转录地址的可能性有多大。
该应用程序立即识别文本,突出显示 视觉与摄影风格 元素并开始“翻译”它们。特别值得注意的是实时用合适的文本片段替换给定文本的功能。不仅文本识别,而且数据的进一步处理也非常快。
转录顺利完成。然而,尽管模板很
清晰,但还是可以看出“inbound”一词中有一个空格。
在下图中,我通过改变文本的背景、阴影、字体、对比度和对齐方式增加了难度。
这里对“WE’RE CLOSED”部分进行了文本识别,转录和翻译过程也正常进行,但是“Sorry”部分无法识别。越来越多的情况给该应用程序带来了困难。
为了排除识别单词字体的任何 電話數據 问题,我检查了字体。处理过程没有问题。这表明了字体变化中文本识别的强大能力。然而,手写功能被 Google 排除或尚不支持。值得注意的是,谷歌通过Google Fonts提供了广泛的字体类型,因此可以为其文本识别提供完美的学习数据。从这方面来看,结果并不令人惊讶,即使使用更复杂的字体也应该会内的样本进产生良好的效果。
为了检查文本的方向如何影响识别,我旋转了图像以匹配“抱歉”一词。可以看出识别范围停滞在之前识别到的“WE`RE CLOSED”,而“Sorry”依然没能识别。这表明文本的环境非常重要,尽管有红色对比,但字体的颜色值在这种内的样本进情况下并不那么重要,并内的样本进且在复杂的图像环境中对齐的变化会强烈影响文本识内的样本进别。基于此示例的另一个假设是形式或结构比对比度更重要,因为尽管之前的结果是积极的,但“抱歉”的字体却没有被识别。一内的样本进个人工制品也悄然出现:在“抱歉”的 S 下,在“已关闭”级别,数字 8 被识别并插入。这表明,尽管那里显然没有任何东西与数字 8 相似或我们认为是数字 8,但也可能出现任意的误解。