Tarsier

Name: Tarsier
Brand: Tarsier
SKU: 68f5a61c9c0f489032b14d8e
Availability: InStock

(0 条评论)

标签

：

开发 /办公与效率 /LangChain(大模型应用框架) /计算机视觉

点击联系TA 我也要上架

免责声明

适用范围

产品信息

用户评价

什么是 Tarsier?

如果您尝试使用法学硕士来自动化网络交互，您可能会遇到以下问题：您应该如何将网页提供给法学硕士？（例如 HTML、辅助功能树、屏幕截图）如何将 LLM 响应映射回 Web 元素？如何向纯文本法学硕士告知页面的视觉结构？在 Reworkd，我们在数以万计的真实 Web 任务中迭代了所有这些问题，为 Web 代理构建了一个强大的感知系统......Tarsier！在下面的视频中，我们使用Tarsier 为简约的 GPT-4 LangChain Web 代理提供网页感知。它是如何运作的？Tarsier 通过括号 + ID 直观地标记页面上的可交互元素，例如[23]。在此过程中，我们提供了元素和 ID 之间的映射，供 LLM 采取操作（例如 CLICK [23]）。我们将可交互元素定义为页面上可见的按钮、链接或输入字段；如果您传递 tag_text_elements=True，Tarsier 还可以标记所有文本元素。此外，我们还开发了一种 OCR 算法，可以将页面屏幕截图转换为空白结构的字符串（几乎像 ASCII 艺术），即使没有视力的法学硕士也可以理解。由于当前的视觉语言模型仍然缺乏网络交互任务所需的细粒度表示，因此这一点至关重要。在我们的内部基准测试中，单峰 GPT-4 +Tarsier -Text 比 GPT-4V +Tarsier -Screenshot 好 10-20%！