Apache Hadoop HDFS backgroundApache Hadoop HDFS
Apache Hadoop HDFS backgroundApache Hadoop HDFS
ابزارهای تحلیل داده
NiFiApache SparkApache Hadoop HDFSApache Hadoop YarnKibana

Apache Hadoop HDFS

HDFS یک فایل سیستم توزیع شده متن باز است که به منظور مدیریت داده‌های عظیم به صورت توزیع شده در سخت‌افزارهای ارزان با تعداد بالا توسعه یافته است. در معماری HDFS  دو نوع گره  با نام‌های NameNode و DataNode وجود دارد که نوع اول وظیفه مدیریت توزیع داده‌ها و دیگری وظیفه نگهداری داده‌ها و تبادل آنها با کلاینت‌ها را بر عهده دارد. در سامانه مانیتورینگ معین امکان مانیتورینگ کلاستر HDFS با مانیتورینگ هر دو نوع گره وجود دارد که در ادامه شاخص‌های هر یک به تفکیک ارایه می‌شود.

شاخصها و پارامترهای مانیتور شده  Namenode توسط معین عبارتند از:

Hdfsnamenode.overview.fa

شاخصهای کلی Namenode:

  1. تعداد فایل‌های ایجاد شده
  2. تعداد فایل‌ها و پوشه‌های ایجاد شده
  3. تعداد فایل‌های Append شده
  4. تعداد عملیات GetBlockLocations
  5. تعداد عملیات Rename
  6. تعداد عملیات Directory Listing
  7. تعداد عملیات پاک کردن
  8. تعداد فایل‌ها و پوشه‌های پاک شده
  9. تعداد عملیات دریافت اطلاعات فایل
  10. تعداد عملیات AddBlock
  11. تعداد عملیات GetAdditionalDatanode
  12. تعداد عملیات CreateSymlink
  13. تعداد عملیات GetLinkTarget
  14. تعداد فایل‌ها و پوشه‌های لیست‌ شده با عملیات Listing
  15. تعداد پردازش‌های گزارشات Blockها
  16. تعداد تراکنش‌های Journal
  17. متوسط زمان تراکنش‌های Journal
  18. تعداد Journal Syncها
  19. متوسط زمان Journal Syncها
  20. تعداد تراکنش‌های Batch در Sync
  21. مدت زمان Safe Mode
  22. مدت زمان بارگذاری FSImage
  23. تعداد Editهای دریافتی از Namenode ثانویه
  24. متوسط زمان دریافت Editها
  25. تعداد FSImageهای دریافتی از گره‌های ثانویه
  26. متوسط زمان دریافت FSImage
  27. تعداد آپلودهای FSImage در گره‌ ثانویه
  28. متوسط زمان آپلود FSImage در گره‌ ثانویه

شاخصهای کلاستر:

  1. ظرفیت کل پیکربندی شده
  2. ظرفیت DFS استفاده شده
  3. ظرفیت DFS آزاد
  4. تعداد ارتباطات جاری
  5. تعداد بلوک‌های موجود تخصیص‌یافته در سیستم
  6. تعداد فایل‌ها و پوشه‌های موجود
  7. تعداد بلوک‌های Pend شده برای Replication
  8. تعداد بلوک‌های در حال Replication
  9. تعداد بلوک‌های زمان‌بندی شده برای Replication
  10. وضعیت FS
  11. تعداد Datanodeهای زنده
  12. تعداد Datanodeهای خاموش

Hdfsnamenode.kpi.fa

شاخصهای DataNodeهای تحت مدیریت Namenode:

  1. درصد ظرفیت DFS استفاده شده
  2. درصد ظرفیت DFS آزاد از کل دیسک
  3. ظرفیت استفاده شده غیر DFS
  4. شناسه‌ی کلاستر
  5. شناسه‌ی مخزن بلوک‌ها
  6. نسخه
  7. فضای استفاده از مخزن بلوک‌ها
  8. درصد استفاده از مخزن بلوک‌ها
  9. تعداد کل بلوک‌ها
  10. تعداد کل فایل‌ها
  11. تعداد بلوک‌های خراب

اطلاعات گره‌های زنده Live:

  1. نام Datanode
  2. تعداد بلوک‌ها
  3. ظرفیت DFS استفاده شده
  4. وضعیت سرویس
  5. ظرفیت استفاده شده غیر DFS
  6. آخرین زمان به‌روزرسانی
  7. ظرفیت کل Datanode
  8. درصد ظرفیت DFS استفاده شده
  9. درصد ظرفیت DFS آزاد از کل دیسک

اطلاعات گره‌های Dead:

  1. نام Datanode
  2. آیا DeCommissione شده؟
  3. زمان خاموشی

Hdfsnamenode.datanode.fa

مانیتورینگ  NameNode  به تنهایی برای مانیتورینگ کلاستر کافی است اما چنانچه مانیتورینگ DataNodeها به صورت مجزا مورد نظر باشد شاخصهای زیر به ازای هر DataNode توسط معین ارایه میشود:

 

Hdfsdatanode.overview.fa

پارامترهای کلی DataNode:

  1. تعداد ارتباطات فعال با Datanode
  2. نسخه
  3. شناسه‌ی کلاستر
  4. آدرس Namenode
  5. ظرفیت آزاد DFS
  6. ظرفیت استفاده شده DFS
  7. درصد ظرفیت استفاده شده DFS

شاخصهای کارایی DataNode:

  1. تعداد بایت‌های نوشته شده در Datanode
  2. تعداد بایت‌های خوانده شده از Datanode
  3. نرخ نوشتن داده در Datanode
  4. نرخ خواندن داده از Datanode
  5. تعداد بلوک‌های نوشته شده در Datanode
  6. تعداد بلوک‌های خوانده شده از Datanode
  7. تعداد بلوک‌های Replicate شده
  8. تعداد بلوک‌های حذف شده
  9. تعداد بلوک‌های تایید شده
  10. تعداد بلوک‌های تایید نشده
  11. تعداد عملیات خواندن توسط Clientهای محلی
  12. تعداد عملیات خواندن توسط Clientهای Remote
  13. تعداد عملیات نوشتن توسط Clientهای محلی
  14. تعداد عملیات نوشتن توسط Clientهای Remote
  15. تعداد عملیات دریافت اطلاعات محلی بلوک‌ها
  16. تعداد Fsyncها
  17. تعداد خطاهای Volume
  18. تعداد عملیات خواندن بلوک‌ها
  19. متوسط زمان خواندن بلوک‌
  20. تعداد عملیات نوشتن بلوک‌ها
  21. متوسط زمان نوشتن بلوک‌ها
  22. تعداد عملیات Checksum بلوک‌ها
  23. متوسط زمان عملیات Checksum
  24. تعداد عملیات کپی بلوک‌ها
  25. متوسط زمان عملیات کپی بلوک‌ها
  26. تعداد عملیات جایگزینی بلوک‌ها
  27. متوسط زمان عملیات جایگزینی بلوک‌ها
  28. تعداد عملیات Heartbeat
  29. متوسط زمان عملیات Heartbeat
  30. تعداد عملیات گزارش بلوک‌ها
  31. متوسط زمان عملیات گزارش بلوک‌ها
  32. تعداد عملیات ACK RTT
  33. متوسط زمان عملیات ACK RTT
  34. تعداد عملیات Flush
  35. متوسط زمان عملیات Flush
  36. تعداد عملیات Fsync Nanos
  37. متوسط زمان عملیات Fsync Nanos
  38. تعداد عملیات ارسال بسته
  39. متوسط زمان عملیات ارسال بسته

Hdfsdatanode.kpi.fa

شاخصهای JVM:

HDFS با زبان جاوا توسعه یافته است و برای اجرا نیاز به JVM دارد. جزییات شاخص‌های JVM‌ در بخش محیط‌های اجرا ارایه شده است.

پروتکلهای ارتباطی:

  • REST
  • JMX
ابزارهای تحلیل داده
NiFiApache SparkApache Hadoop HDFSApache Hadoop YarnKibana
آدرس
تهران، خیابان آزادی، خیابان صادقی (جنب دانشگاه صنعتی شریف)، بن بست دوم، پلاک ۸، طبقه سوم، کد پستی ۱۴۵۸۸۴۶۱۵۵
تمامی حقوق برای شرکت فناوری اطلاعات بهپایا محفوظ است.