产品信息
什么是 Tarsier?
如果您尝试使用法学硕士来自动化网络交互,您可能会遇到以下问题:
您应该如何将网页提供给法学硕士? (例如 HTML、辅助功能树、屏幕截图)
如何将 LLM 响应映射回 Web 元素?
如何向纯文本法学硕士告知页面的视觉结构?
在 Reworkd,我们在数以万计的真实 Web 任务中迭代了所有这些问题,为 Web 代理构建了一个强大的感知系统......Tarsier!在下面的视频中,我们使用Tarsier 为简约的 GPT-4 LangChain Web 代理提供网页感知。
它是如何运作的?Tarsier 通过括号 + ID 直观地标记页面上的可交互元素,例如[23]。在此过程中,我们提供了元素和 ID 之间的映射,供 LLM 采取操作(例如 CLICK [23])。我们将可交互元素定义为页面上可见的按钮、链接或输入字段;如果您传递 tag_text_elements=True,Tarsier 还可以标记所有文本元素。
此外,我们还开发了一种 OCR 算法,可以将页面屏幕截图转换为空白结构的字符串(几乎像 ASCII 艺术),即使没有视力的法学硕士也可以理解。由于当前的视觉语言模型仍然缺乏网络交互任务所需的细粒度表示,因此这一点至关重要。在我们的内部基准测试中,单峰 GPT-4 +Tarsier -Text 比 GPT-4V +Tarsier -Screenshot 好 10-20%!
如何使用 Tarsier?
Tarsier 是一款为网络交互代理提供视觉感知能力的工具,它通过视觉标记可交互元素和将页面截图转换为结构化字符串,帮助大型语言模型理解网页结构并执行自动化操作。
Tarsier 的核心功能
无广告
光学字符识别
基于Python的
AI驱动的
Tarsier 的使用场景
- 自动化网页交互
- 为基于大型语言模型的网络代理提供网页感知能力
- 使大型语言模型能够识别并点击网页上的特定元素
- 帮助文本型大型语言模型理解页面的视觉结构
Tarsier 的常见问题
Tarsier做什么的?
我如何使用Tarsier?
Tarsier有哪些核心功能?
Tarsier有哪些应用场景?




















