绮乐网

Gboard新的手写识别AI减少40%的错误

濮阳聪网络

谷歌在Gboard中改进了手写识别能力,Gboard是iOS和Android设备的虚拟键盘。人工智能系统速度更快,错误比它取代的机器学习模型少20%到40%。这是谷歌人工智能研究人员说的。他们在今天下午发表的博客中描述了他们的工作。

“机器学习的进步带来了新的模型架构和训练方法,这使我们能够修改我们最初的方法,并建立一个单一的.高级软件工程师Sandro Feuz和Pedro Gonnet写道。“今年年初,我们在Gboard中为所有基于拉丁文字的语言推出了这些新模型。”

正如Feuz和Gonnet所解释的,大多数手写识别器使用接触点来处理草图拉丁字符。绘画输入被表示为一系列笔画,并且这些笔画包括一系列时间戳点。Gboard首先对触摸点的坐标进行标准化,以确保它们在不同采样率和精度的设备之间保持一致,然后将其转换为一系列三次贝塞尔曲线——计算机图形学中常用的参数曲线。

Feuz和Gonnet说,这些序列的主要优点是它们比输入点的基本序列更紧凑。为此,每条曲线都由一个由起点、终点和控制点定义的多项式(变量和系数的表达式)来表示。例如,单词“go”可能包含186个这样的点,它们由字母“G”的四个三次贝塞尔曲线序列(和两个控制点)和字母“O”的三个曲线表示。

这些序列被输入到被训练来识别书写字符的递归神经网络,特别是双向版本的准回归神经网络(QRNN),其可以被“有效地”并行化,因此具有良好的预测性能。重要的是,QRNN还保持了权重的数量——构成网络或节点之间连接强度的数学函数——相对较小,从而减小了文件大小。

那么AI模型是如何理解曲线的呢?通过生成列和行的矩阵,每一列对应于一条输入曲线,每一行对应于字母表中的一个字母。网络的输出与基于字符的语言模型相结合,奖励语言中常见的字符序列,惩罚不常见的序列。单独地,触摸点序列被转换成对应于单个曲线的较短序列。最后,给定一系列曲线,基于QRNN的识别器吐出一系列字符概率。

Gboard的手写识别堆栈运行在设备上,这是团队通过将识别模型(在谷歌的TensorFlow机器学习框架中训练)转化为TensorFlow Lite模型而实现的壮举。与TensorFlow的完全实现相比,这不仅可以减少推理时间,还可以减少Gboard的存储空间。“我们将继续推动拉丁语言识别器的改进,”Feuz和Gonnet写道。“手写团队已经在努力工作,为Gboard中所有支持的手写语言推出新的模型。”

标签:Gboard