Sentry 监控 - Distributed Tracing 分布式跟踪-黑客24小时在线接单的网站

本文转载自微信公众号「黑客下午茶」，作者很少。转载本文，请联系黑客下午茶微信官方账号。

使用性能监控来扩展您现有的错误数据，跟踪从前端到后端的交互。Sentry 可以跟踪您的软件性能，测量吞吐量和延迟，并显示跨系统的错误影响。跟踪使 Sentry 成为更完整的监控解决方案，帮助您更快地诊断问题，衡量应用程序的整体健康状况。Sentry 跟踪提供以下见解：

或具体错误事件issue 发生了什么
导致应用程序瓶颈或延迟 issue 的条件
最耗时的端点或操作时间最多

什么是跟踪？

首先，请注意跟踪不是什么：跟踪不是分析。虽然分析和跟踪的目标有很多重叠，但它们可以用来诊断应用程序中的问题，但它们在测量内容和数据记录方法上是不同的。

profiler 可以测量应用程序操作的许多方面：执行指令数、各过程中使用的内存、给定函数调用所花费的时间等。profile 是这些测量值的统计总结。

https://en.wikipedia.org/wiki/Profiling_(computer_programming)

另一方面，tracing tool 关注发生了什么(及时)，而不是发生了多少次或花了多长时间。跟踪结果(resulting trace)它是程序执行过程中发生的事件日志，通常跨越多个系统。尽管最常见的跟踪 - 或，就 Sentry就跟踪而言，总是 - 包括时间戳(timestamps)，允许计算持续时间，但测量性能并不是唯一的目的。它们还可以显示互连系统的交互方式，以及一个系统中的问题可能导致另一个系统问题的方式。

https://en.wikipedia.org/wiki/Tracing_(software)

为什么要跟踪？

应用程序通常由互连组件组成，也称为服务。例如，让我们看看现代 Web 由网络边界分隔的以下组件组成的应用程序：

Frontend (Single-Page Application) 前端
Backend (REST API) 后端
Task Queue 任务队列
Database Server 数据库服务器
Cron Job Scheduler 定时任务调度器

这些组件中的每一个都可以在不同的平台上用不同的语言编写。每一个都可以用 Sentry SDK 单独检测以捕获错误数据或崩溃报告，但不能提供完整的图片，因为每个部分都是单独考虑的。跟踪允许您连接所有数据。

在我们的例子 Web 在应用程序中，跟踪意味着可以跟踪从前端到后端和后端的任何后台任务(background tasks)或通知作业(notification jobs)提取数据。这不仅能让你关联 Sentry 错误报告，查看一个服务中的错误如何传播到另一个服务，也可以让您更深入地了解哪些服务可能对应用程序的整体性能产生负面影响。

了解一些关键术语及其关系将有助于学习如何在你的应用程序中使用跟踪。

跟踪(Traces)、事务(Transactions和跨度(Spans)

trace 表示要测量或跟踪整个操作的记录 - 如页面加载、用户在应用程序中完成某些操作的例子或后端 cron job。当跟踪包括多个服务中的工作时，如上述服务，由于跟踪分布在这些服务中，因此被称为分布式跟踪。

每个 trace 由一个或多个称为 transactions 树状结构，其节点称为 spans。在大多数情况下，每个 transaction 代表单个调用服务的例子， transaction 中的每个 span 代表服务执行单个工作单元，无论是调用服务中的函数还是不同的服务。这是一个分解为事务的示例跟踪(transactions)和跨度(spans)：

由于事务(transaction)有树结构，所以顶级跨度(top-level spans)它本身可以分解为更小的跨度(smaller spans)，这反映了一个函数可能会调用许多其他较小的函数；这是用父子隐喻来表达的，所以每个跨度可能是多个其他子跨度的父跨度。此外，由于所有的树都必须有一个根，每个事务中的一个跨度总是代表事务本身，事务中的所有其他跨度都从根跨度下降。这是上图中事务之一的放大视图：

让我们再次考虑我们的，让我们再次考虑我们的 Web 应用程序。

例子：调查缓慢的页面加载

假设您的 Web 应用程序加载缓慢，你想知道为什么。为了使您的应用程序首先进入可用状态，必须发生很多事情：对后端的多个要求可能是一些工作 - 包括对数据库或外部 API 的调用 - 在返回响应之前完成，并由浏览器处理，以呈现所有将返回数据转换为对用户有意义的内容。那么这个过程的哪一部分会减慢呢？

假设在这个简化的例子中，当用户在浏览器中加载应用程序时，每个服务都会发生以下情况：

Browser
- HTML、CSS 和 JavaScript 各 1 请求
- 1 次渲染任务触发 2 次 JSON 数据请求 ^
Backend(后端)
- 3 提供静态文件(HTML、CSS 和 JS)的请求
- 2 个 JSON 数据请求 - 1 需要调用数据库- 1 需要外部调用API在将结果返回回到前端之前，处理结果^
Database Server
- 1 查询身份验证
- 1 查询获取数据
- 1 要求要求 2次

注：外界 API 没有准确列出，因为它是外部的，所以你看不到它的内部。

在这个例子中，整个页面加载过程(包括上述所有过程)由单个加载trace 表示。跟踪将由以下事务进行。(transactions)组成：

1 浏览器事务(页面加载)
5 后端事务(每个请求一个)
1 单个数据库服务器服务于单个 DB 请求)

每个事务将被分解为跨度(spans)如下：

浏览器页面加载事务 span
- 2 个子 span，每个 JSON 请求一个
- 1 个根 span 代表整个页面加载
- HTML、CSS 和 JS 请各 1 个(共 3 个)
- 1 span，它本身包含

让我们暂停这里来解释一个关键点：这里列出的浏览器事务中的一些（尽管不是全部）跨度与上述后端事务直接对应。具体来说，浏览器事务中的每个请求跨度对应于后端中的单独请求事务。在这种情况下，当服务中的跨度导致后续服务中的事务时，我们称原始跨度为事务及其根跨度的父跨度。在下图中，波浪线代表了这种父子关系。

在我们的例子中，除了初始浏览器页面加载事务外，每个事务都是另一个服务中的跨度子项，这意味着每个根跨度都有一个父跨度（尽管在不同的服务中）。

在 fully-instrumented 该模式将始终适用于系统（每个服务都使用跟踪系统）。唯一的无父 span 将是初始 transaction 根；每隔一个 span 会有父级。parents 和 children 除非在子，否则将永远生活在同一个服务中span 是子 transaction 的根，在这种情况下，父 span子将在调用服务中transaction/child 根 span 被调用服务。

换句话说， fully-instrumented 的系统创建了一个跟踪，它本身就是一个连接的树——每一件事都是一棵子树——在这棵树中，子树/事务之间的边界是服务之间的边界。上图显示了我们的例子对树的完整跟踪一个分支。

现在，为了完全起见，回到我们的 spans：

后端 HTML/CSS/JS 请求事务：每个 1 个 span
- 1 个根跨度(浏览器跨度的子项)代表整个请求^
有数据库调用事务的后端请求:2 个 span
- 1 表示整个请求的根跨度(浏览器跨度的子项)
- 1 用于查询数据库(数据库服务器事务的父级)的跨度^
带有 API 调用事务后端请求:3 span
- 1 表示整个请求的根跨度(浏览器跨度的子项)
- API 1 跨度(不同于数据库调用，不是父跨度，因为 API 是外)
- 1 处理的跨度API 数据^
3 span
- 1 代表整个请求的根跨度(上后端跨度的子项)
- 1 跨度用于身份验证查询
- 1 用于查询检索数据的跨度

总结一下这个例子:检测完所有服务后，你可能会发现——出于某种原因——是数据库服务器中的身份验证查询(auth query)导致速度减慢，占整个页面加载过程的一半以上。跟踪不能告诉你为什么会发生这种情况，但至少现在你知道去哪里了！

数据采样

当您在跟踪设置中使用采样时，您可以选择将其发送到 Sentry 已收集交易的百分比。例如，如果您每分钟有一个端点接收 1000 请求，0.25 取样率将导致每分钟大约250个事务 (25%) Sentry。(这个数字是相似的，因为每个请求要么被跟踪，要么被独立和伪随机跟踪，概率为 25%。因此，同样，100枚公平硬币在翻转时会导致大约50枚正面硬币，SDK 将“决定” 收集和跟踪约250 个案例。)因为你知道采样百分比，你可以推断你的总流量。

在收集跟踪时，我们建议采样您的数据有两个原因。首先，虽然单个跟踪的成本最小，但每个页面都被加载或捕获API 请求的跟踪可能会增加您的系统不想要的负载。其次，采样可以更好地管理和发送到 Sentry 事件数量，以便您可以根据组织的需要定制。

在选择采样率时，目标不是收集太多的数据（出于上述原因），而是收集足够的数据来得出有意义的结论。如果您不确定要选择什么速度，我们建议您平衡性能与流量与数据准确性之间的关系，直到您对流量模式和流量的理解逐渐增加。

跟踪中的一致性

跟踪涉及多个事务，Sentry 使用 “基于头部(head-based)” 方法：在原始服务中做出采样决策，然后将决策传递给所有后续服务。了解如何工作，让我们回到上面的 webapp示例。考虑两个用户 A 和 B，他们都在自己的浏览器中加载应用程序。A 加载应用程序时，SDK 伪随机“决定”收集跟踪，而当 B 加载应用程序时，SDK “决定”不收集跟踪。当每个浏览器向您的后端发出请求时，它将包含这些请求的标题“yes,please collect transactions)”或“no, don't collect transactions this time”的决定。

当您的后端处理来自 A 浏览器请求时，会看到 “yes” 决定收集事务和跨度数据，并将其发送给 Sentry。此外，它还包含在向后续服务(如您的数据库服务器)发出的任何请求中“yes”这些服务还将收集数据并将数据发送给 Sentry，任何决定传递给他们的服务。通过这个过程，A收集并发送跟踪中的所有相关事务Sentry。

另一方面，当您的后端处理来自 B 浏览器请求时，会看到 “no” 因此，它不会向收集和发送事务和跨度数据Sentry。然而，它将决策传播到后续服务中A 告诉他们不要收集或发送要收集或发送数据。然后他们告诉他们不要发送们呼叫的任何服务的数据，这样他们就不会收集 B 跟踪事务。

简而言之:这个 head-based 的结果是，决定在原始服务中做出一次，并将其传递给所有后续服务，要么收集给定跟踪的所有事务，要么不收集任何事务，因此不应有不完整的跟踪。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

黑客24小时在线接单的网站

黑客24小时在线接单的网站