Fansoso
Like.tg
官方社群在线客服官方频道防骗查询货币工具
Tarsier
product
该产品服务由第三方商家提供,请注意甄别服务质量,避免上当受骗。

Tarsier

(0 条评论)
免责声明
适用范围
产品信息
用户评价
相关产品
免责声明
该产品为第三方商家委托 LIKETG 所上架产品,产品/服务/售后均由第三方商家提供,非LIKETG官方出品,一切活动、福利、限制均与LIKETG官方无关,请注意甄别。

适用范围

如果您尝试使用法学硕士来自动化网络交互,您可能会遇到以下问题:

产品信息

什么是 Tarsier?

如果您尝试使用法学硕士来自动化网络交互,您可能会遇到以下问题: 您应该如何将网页提供给法学硕士? (例如 HTML、辅助功能树、屏幕截图) 如何将 LLM 响应映射回 Web 元素? 如何向纯文本法学硕士告知页面的视觉结构? 在 Reworkd,我们在数以万计的真实 Web 任务中迭代了所有这些问题,为 Web 代理构建了一个强大的感知系统......Tarsier!在下面的视频中,我们使用Tarsier 为简约的 GPT-4 LangChain Web 代理提供网页感知。 它是如何运作的?Tarsier 通过括号 + ID 直观地标记页面上的可交互元素,例如[23]。在此过程中,我们提供了元素和 ID 之间的映射,供 LLM 采取操作(例如 CLICK [23])。我们将可交互元素定义为页面上可见的按钮、链接或输入字段;如果您传递 tag_text_elements=True,Tarsier 还可以标记所有文本元素。 此外,我们还开发了一种 OCR 算法,可以将页面屏幕截图转换为空白结构的字符串(几乎像 ASCII 艺术),即使没有视力的法学硕士也可以理解。由于当前的视觉语言模型仍然缺乏网络交互任务所需的细粒度表示,因此这一点至关重要。在我们的内部基准测试中,单峰 GPT-4 +Tarsier -Text 比 GPT-4V +Tarsier -Screenshot 好 10-20%!

如何使用 Tarsier?

Tarsier 是一款为网络交互代理提供视觉感知能力的工具,它通过视觉标记可交互元素和将页面截图转换为结构化字符串,帮助大型语言模型理解网页结构并执行自动化操作。

Tarsier 的核心功能

无广告
光学字符识别
基于Python的
AI驱动的

Tarsier 的使用场景

  • 自动化网页交互
  • 为基于大型语言模型的网络代理提供网页感知能力
  • 使大型语言模型能够识别并点击网页上的特定元素
  • 帮助文本型大型语言模型理解页面的视觉结构

Tarsier 的常见问题

Tarsier做什么的?
我如何使用Tarsier?
Tarsier有哪些核心功能?
Tarsier有哪些应用场景?

用户评价

暂无评论,快来发表你的评论吧
5分/满分5分
你会推荐 Tarsier 吗?发表你的评论