مقدمه‌ای بر Distributed Tracing

۱۴۰۳/۱۲/۱۵

Distributed Tracing چیست؟

توسعه و مانیتور برنامه‌ها با معماری یکپارچه سنتی ساده است اما وقتی مقیاس برنامه‌ها بزرگ می‌شود توسعه و نو‌آوری در اینگونه پلتفرم‌ها چالش‌برانگیز خواهد بود. به همین دلیل اکثر برنامه‌ها و پلتفرم‌های نرم‌افزاری امروزه با معماری میکروسرویس توسعه داده می‌شوند. معماری میکروسرویس با بهره‌گیری از پیاده‌سازی مولفه‌ای، بسیاری از این چالش‌ها را حل می‌کند. مولفه‌ها یا همان سرویس‌ها به صورت مستقل و کوچک طراحی و توسعه داده می‌شوند و هرکدام شامل واسط‌های خاصی هستند که برای یک عملکرد خاص پیاده‌سازی شده‌اند.

با توجه به این معماری مولفه‌ای، خطایابی در اینگونه سیستم‌ها چالش‌های زیادی دارد، زیرا سرویس‌ها به صورت توزیع‌شده اجرا می‌شوند و هر درخواست‌ شامل یک توالی از فراخوانی ‌APIهای مختلف از سرویس‌های مختلف می‌باشد. Distributed Tracing روشی برای بررسی کامل مسیر یک درخواست است که از سمت Frontend به سمت Backend می‌آید. به طور مثال وقتی یک کاربر در سمت Front بر روی یک دکمه کلیک می‌کند تا زمانی که درخواستش به Backend و سرویس پایگاه‌داده می‌رسد.

سیستم های Distributed Tracing نمای دقیقی از نحوه عملکرد موازی چندین سرویس برای پردازش یک درخواست ارائه می دهند.

مولفه‌های اصلی Distributed Tracing

یک سیستم Distributed Tracing شامل سه مولفه اصلی زیر است:

Trace: کل مسیر End-To-End یک درخواست کاربر در طی حرکت بین سرویس‌های مختلف

Span: هر عملی در طول مسیر Trace را یک Span می‌گویند که شامل زمان آغاز، زمان پایان و تعدادی متادیتا می‌باشد.

Context Propagation: انتقال اطلاعات یک درخواست در طول اجرای یک مسیر (شناسه‌های Trace و Span) بین سرویس‌های مختلف

پلتفرم‌های Distributed Tracing از زمانی که یک درخواست فرستاده می‌شود، به طور مثال زمانی که کاربر درخواست خرید خود را ارسال می‌کند، شروع به جمع‌آوری داده‌ها می‌کنند. این عمل باعث ایجاد یک Trace ID یکتا و یک Span اولیه به نام Span پدر خواهد شد . Trace، کل مسیر اجرای درخواست را نشان می‌هد و هر Span در طول trace یک واحد کاری مانند فراخوانی یک API، احراز هویت کاربر یا یک کوئری دیتابیسی را نشان می‌دهد. هر span نیز شامل یک Trace ID و یک Span ID و همچنین مدت زمان اجرای Span و داده‌های خطا و متادیتاهای دیگری می‌شود. با ارزیابی زمان اجرای Span ها می‌توان فهمید که کدام سرویس و کدام Span بیشتر طول کشیده و همچنین خطاهای هر Span را نیز می‌توان مشاهده و ارزیابی کرد.

این مسیر معمولا با نمودار Flame Graph به صورت زیر نمایش داده می‌شود. محور افقی این نمودار زمان اجرای هر Span و محور عمودی Call Stack را نمایش می‌دهد. با توجه به این نمودار می‌توان سرویس‌های کندتر و همچنین مواردی که باعث کاهش سرعت و کارایی کلی می‌شوند را مشخص کرد.

Distributed Tracing

یکی از مشکلات رایجی که امروزه در دنیای فناوری دیده می‌شود استفاده از مفهوم و ابزارهای tracing به جای مانیتورینگ است. در حالی که تمرکز مانیتورینگ بر روی جمع‌آوری و ثبت متریک‌های از پیش تعریف‌شده است تا سلامت کلی سرویس‌ها بررسی شوند و در صورت رد کردن آستانه‌های تعریف شده به کاربر اطلاع دهد، تمرکز Tracing بر روی تشخیص آنومالی‌ها و زمان اجرای درخواست در هر سرویس و نحوه ارتباط سرویس‌های مختلف باهم است تا بتوان با استفاده از آن‌ها کارایی سرویس‌ها را افزایش داد و همچنین عملیات خطایابی یا دیباگینگ راحت تر شود.

استانداردهای Distributed Tracing

با گسترش نیاز به Tracing روش‌ها و ابزارهایی برای افزودن این امکان به سرویس‌های مختلف به صورت سازگار به صورت open-source ارائه شدند:

OpenTracing: با استفاده از یک API امکان تولید Trace را در سرویس‌های مختلف برای توسعه‌دهندگان فراهم می‌کند.
OpenCensus: تعدادی کتابخانه برای زبان‌های مختلف فراهم کرده تا داده‌های trace و متریک را جمع‌آوری کند.
OpenTelemetry: استاندارد کامل و جامعی است که اخیرا بیشتر استفاده می‌شود. این استاندارد قابلیت‌های دو استاندارد OpenTracing و OpenCensus را با هم ادغام کرده و با استفاده از تعدادی API، کتابخانه و عامل‌هایی دارد که این امکان را فراهم کرده تا بتوان تمام داده‌های Trace و Metric و Log را جمع‌آوری کرد.

مزایا و معایب Distributed Tracing

در انتها به طور خلاصه به بیان مزایا و معایب Distributed Tracing‌ می‌پردازیم. از مزایای استفاده از Distributed Tracing میتوان به موارد زیر اشاره کرد:

سرعت بخشیدن به عیب‌یابی در نرم‌افزار
درک ارتباط بین سرویس‌های مختلف با مشاهده Traceها
اندازه‌گیری مدت زمان انجام عملیات مختلف کاربر و کمک به کاهش این زمان
بهبود ارتباط بین تیم‌های مختلف نرم‌افزاری با یافتن سریعتر منشأ خطاها

چالش‌های پیاده‌سازی Distributed Tracing

با وجود داشتن این مزایا بهتر است بدانیم که پیاده‌سازی Distributed Tracing چالش‌هایی هم دارد:

ابزار دقیق سرویس‌ها: یکی از چالشهای اصلی، پیاده‌سازی Distributed Tracing به صورت دستی است. در این روش باید کدهای هر سرویس تغییر داده شود تا بتواند trace تولید کند در حالی که با این روش کنترل بیشتری روی نحوه تولید آنها داریم اما زمان‌بر است و در سیستم‌های پیچیده‌تر و بزرگتر امکان خطا زیاد می‌شود. همچنین با توجه به اینکه ممکن است سرویس‌های مختلف توسط تیم‌های مختلف توسعه داده شوند امکان ناسازگاری در تولید Traceها هم زیاد است. برای غلبه بر این مشکل ترجیح بر این است که از ابزارهایی که امکان تولید Trace را به صورت خودکار فراهم می‌کنند استفاده شود. این ابزارها به صورت خودکار کدهای لازم برای تولید داده Trace را به برنامه‌ی ما تزریق می‌کنند.
مدیریت حجم زیاد داده‌ها: سیستم‌های با ترافیک زیاد حجم زیادی از Trace تولید خواهند کرد، کنترل حجم زیاد داده‌ها چالشی برای پیاده‌سازی خواهد بود.
امنیت داده‌ها: ممکن است داده‌های Trace شامل اطلاعات حساسی باشند.