文本图像压缩中需要创建在图像中出现的形状库。这些形状通常和字符有关,在图像中出现的形状就会被指向图形库的指针替换。一般来说,虽然存在许多变体,但处理步骤包括如下:
找出、分离并且抽取所有的标记,即图像中聚集在一起出现的黑色像素。
建立一个包含图像中发现所有标记的库
通过识别图像中的符号找到库中与之最接近的标记实现,并度量一个标记和下一个标记的偏移值。
压缩符号顺序和偏移并存储入库。由于这一步骤中所存储的信息可以产生称为重构文本的原始图像的近似,所以为了重构图像无损,需要包括下面处理步骤:存储足够的信息以完成从重构文本中恢复原始图像。
当标记被抽取出来以后,需要将其与已经在库中的标记匹配,所有匹配库成员的标记都会被保存在一个集合中。如果当前标记与库中现有的一个标记足够匹配的话,则将其添加到与改符号相应的匹配标记集中,尽管将一个标记与每一个库中模板进行匹配查找出与其最接近模板的可靠,但在一个模板被发现于一个特定的相似阈值之内时即立即终止运算会更有效。如果没有发现足够近似的匹配点,则将新标记添加到库中。模板匹配对成功识别标记至关重要,匹配过程一般通过检查误差图来实现,误差图通过将新符号和库成员逐比特进行异或得到。在计算误差图之前,匹配的双方必须要正确注册。新符号添加在库中每个符号之前,为此需要在库中设置一个固定的参考点。