Fuyu-8B是一种多模态模型,具备以下功能:视觉问答、图像描述、文本定位等。它还具备理解图表和图形、屏幕上的OCR以及输出屏幕上物体位置的边界框等功能。这是一个非常酷的新开源模型。

主要特点和功能:

  • 理解图表和图形
  • 对屏幕上的文本进行OCR
  • 输出屏幕上物体位置的边界框
  • 回答基于用户界面的问题

访问链接: https://www.adept.ai/blog/fuyu-8b