Fuyu-8B是一种多模态模型,具备以下功能:视觉问答、图像描述、文本定位等。它还具备理解图表和图形、屏幕上的OCR以及输出屏幕上物体位置的边界框等功能。这是一个非常酷的新开源模型。
主要特点和功能:
- 理解图表和图形
- 对屏幕上的文本进行OCR
- 输出屏幕上物体位置的边界框
- 回答基于用户界面的问题
Fuyu-8B是一种多模态模型,具备以下功能:视觉问答、图像描述、文本定位等。它还具备理解图表和图形、屏幕上的OCR以及输出屏幕上物体位置的边界框等功能。这是一个非常酷的新开源模型。
主要特点和功能: