راه پرداخت
رسانه فناوری‌های مالی ایران

چرایی و چگونگی معماری جریان داده‌ها

سازمان‌ها به‌منظور افزایش درآمد، کاهش هزینه و کنترل ریسک، معماری جریان داده‌ها را به کار می‌گیرند. با جایگزینی معماری‌ جریان داده‌ها؛ گروه‌های داده‌ای می‌توانند امکان تصمیم‌گیری آنی، یادگیری ماشین بلادرنگ، بهبود کارایی، افزایش مقیاس و سرعت بخشی را برای برنامه‌های کاربردی فراهم سازند. حتی بسیاری از سازمان‌ها معماری‌ جریان داده‌ها را به‌عنوان بخشی از ابتکارات استراتژیک فراگیرتر هم در نظر می‌گیرند. این اقدامات شامل نوسازی ابر و خودکارسازی کانال داده‌ها است.

برای تحقق این مزایا، تیم‌های داده باید به‌دقت موارد استفاده آن‌ها را ارزیابی کرده و فناوری‌های مناسب را برای دست‌کاری مؤثر داده‌های در حال انتقال را انتخاب کنند. آن‌ها باید کارایی پردازش‌ها را افزایش دهند، در حالی که باید همچنان توجه داشته باشند که؛ یکپارچه‌سازی نقاط پایانی ناهمگن و سازگاری انعطاف‌پذیر معماری آن‌ها، بیان‌گر الزامات تغییراتی است.

این گزارش قصد دارد مزایا، چالش‌ها، الگوهای سازگاری و موارد استفاده برای روش استریم در مدیریت داده‌ها را بررسی کند. این روش متولیان داده‌ها را از طریق قابلیت‌ها و معیارهای برنامه‌ریزی برای هر مؤلفه معماری منابع داده‌ها، جمع‌آوری، تبدیل، اهداف و تحلیل‌ها همان‌طور که قانون تکنولوژی زیرساخت‌های ترکیبی و هیبریدی را هدایت کرده است، راهنمایی می‌کند.

پیشنهاد‌های کلیدی:

  • جهت نوسازی کسب‌وکار خود باید استقرار معماری جریان داده‌های رویدادها را مدنظر قرار داد. جریان آنی رویدادها، گلوگاه‌های رویکردهای منسوخ در ETL را از بین برده و مبنایی اقتضایی، کارآمد و آنی را جهت تحلیل‌های پیشرفته فراهم می‌کند.

طی به‌روزرسانی تدریجی داده‌ها در تأخیر نزدیک به صفر؛ با معماری استریم رویدادها، شخص قادر خواهد بود در کسب‌وکارش، دارای تبدیل و تحلیل داده‌های بیشتر و سرعت بالاتر در واحد سی‌پی‌یو (واحد پردازنده مرکزی) یا پهنای باند باشد و می‌تواند استفاده‌های جدیدی از داده‌ها را به‌عنوان موارد سود‌آور داشته باشد.

  • یک طرح کلی‌نگر باید ساخت. به‌منظور تحقق بخشیدن به کارایی و مزایای تحلیلی استریم رویدادها، موارد کاربردی و الزامات خود را با دقت باید تعریف کرد. همان‌طور که معماری خود را برای رسیدن به آن الزامات طراحی می‌کند؛ توازن‌ها و وابستگی‌های متقابل هر یک از مؤلفه‌ها را باید سنجید.
  • رویکرد افزایشی را باید در نظر گرفت. ابتدا با حذف یک یا چند مورد از گلوگاه‌های پردازش دسته‌ای از طریق راه‌حل‌های جریان‌سازی مبتنی‌بر فناوری‌هایی همچون CDC یا کافکا؛ به دنبال کاهش مشکل باید بود. زمانی‌که فرد به این دستاورد سریع رسید؛ معماری برقراری استریم داده‌های خود را باید به نقاط انتهایی جدید گسترش داده و موارد کاربردی جدیدی از داده‌ها را تعریف کند.

هنگام مقیاس‌گذاری؛ زیرساخت‌های ابری را به‌عنوان پلتفرم سرویس (SaaS) باید در نظر گرفت که هزینه‌های عملیاتی را کاهش داده در حالی که ریسک را هم به حداقل می‌رساند.


پیدایش معماری جریان داده‌ها


ما در یک جهان رویدادگرا زندگی می‌کنیم. خریدهایی که با یک کلیک از آمازون شروع می‌شود، رویدادهای بی‌شمار جدیدی را به وجود می‌آورد و انواع روش‌ها و تولیدکنندگان دیگری را از جریان تولید خارج می‌کند و فرصت‌های شغلی جدیدی را در قالب دیجیتال برای کسب‌وکارهای دیگر ایجاد می‌کند.

سازمان‌ها با بهره‌گیری از معماری استریم داده‌ها قادر خواهند بود ضمن پردازش داده‌های رویداد (هنگام ایجاد و پیش از ذخیره) در کوتاه‌مدت ارزش تجاری کسب کنند. سازمان‌ها برای دست‌یابی به تصمیم‌گیری آنی و یادگیری ماشین، بهبود کارایی، افزایش مقیاس و افزایش سرعت برنامه‌های کاربردی، باید ابتدا معماری جریان دادها را ایجاد ‌کنند. آن‌ها با این روش درآمدها را افزایش، هزینه‌ها را کاهش و ریسک را کنترل می‌کنند.

این فرصت بزرگ موجب تحریک فعالیت‌ها و عملکرد کل سازمان می‌شود. گروه‌های IT جریان‌های رویدادی را تولید می‌کنند و باعث انتقال خط جریان داده‌ می‌شوند. همچنین تیم‌های بیزنس دیتا و تحلیلی به دنبال تحلیل آن جریان‌های رویداد فعال می‌شوند. آن‌ها به‌سرعت روی وقایع و نتایج جریان سازی داده‌ها سرمایه‌گذاری کرده و راهبردهای جدیدی را طراحی می‌کنند.

اما چالش‌های زیادی هم بوجود خواهد آمد. گروه‌های داده باید موارد کاربری خود را به‌دقت ارزیابی کنند و فناوری‌های مناسب را جهت دست‌کاری مؤثر داده‌های در حال حرکت (انتقال) انتخاب کنند. آن‌ها باید نقاط انتهایی ناهمگن را یکپارچه‌سازی کرده و موجب تسهیل پردازش‌ها شوند.

کسب‌وکارها با معماری صرفاً دسته‌ای داده‌ها (ETL) با مشکلات زیادی مواجه هستند. آن‌ها طی سال‌های متمادی داده‌ها را به‌صورت دسته‌ای و متناوب پردازش می‌کنند. تیم‌های داده و نرم‌افزار دایما کار «استخراج، تبدیل و بارگذاری (ETL)» را جهت کپی کردن دسته‌های کاملی از داده‌های عملیاتی از پایگاه‌های داده مثل امور مالی، فروش یا منابع انسانی در هر ساعت، روز یا هفته، برنامه‌ریزی می‌کنند. این دسته‌ها به‌صورت مجموعه‌ای از فایل‌های پر دردسر دائم آنها را مشغول می‌کند.

نرم‌افزار ETL اغلب بر روی یک سرور میانی اجرا می‌شود. سپس دسته‌ای از داده‌ها را در یک انبار جداگانه بارگذاری کرده و ردیف‌ها و ستون‌های آن را در طول مسیر تغییر شکل می‌دهد. بعضی سازمان‌ها از ETL دسته‌ای جهت پشتیبانی از بارهای کاری کم‌حجم و قابل پیش‌بینی استفاده می‌کنند. این امر در مورد وظایف ابتدایی و اساسی همچون ثبت سوابق و گزارش هفتگی استفاده می‌شود. شکل 1 این معماری قدیمی را نشان می‌دهد.

شکل 1

درباره جایگاه ETL در سازمان‌ها؛ باید گفت با معماری صرفاً دسته‌ای مرسوم «کسب‌وکارها» قادر به تأمین نیازهای جدید شرکت نیستند. آن‌ها به خاطر تأخیر زیاد موجود شکست می‌خورند، چون امروزه بسیاری از مصرف‌کنندگان داده‌ منتظر به‌روزرسانی خسته‌کننده دسته‌ای داده‌ها‌ نمی‌مانند. مدیران اجرائی فروش به گزارش‌های ساعتی در‌آمد مربوط به منطقه، نمایندگی یا محصول نیاز دارند هشدارهای استهلاک‌های عملیاتی به فرم گزارش باید آنی در اختیار مدیران کارخانه قرار بگیرد.

ارائه‌دهندگان مراقبت‌های پزشکی از راه دور به آمار و نمودارهای حیاتی آنی نیاز دارند تا وضعیت بیماران بستری در خانه را طی چند ثانیه پیگیری کنند. شرکت‌های مربوط به کارت‌های اعتباری باید معاملات مشکوک را در صدم‌ثانیه شناسایی و مسدود کنند.

«کسب‌وکارهای مرسوم» با معماری‌های صرفاً دسته‌ای دارای مدیریت کارآمد در پایگاه‌های داده‌ای موفق نبوده‌اند. آن‌ها بارها داده‌های بدون تغییر را کپی ‌می‌کنند، فرایندهای پردازنده را فعال می‌کنند و درظرفیت حافظه‌ها دخالت می‌کنند و باعث به‌روزرسانی‌های سخت‌افزاری پرهزینه می‌شوند.

معماری‌های صرفاً دسته‌ای؛ منابع فراوانی را مصرف می‌کنند، با این حال نمی‌توانند به طور یقین حجم‌های وسیعی از داده‌های لازم را برای تحلیل‌های پیشرفته و کاربردی مانند یادگیری ماشینی یا انواع دیگر هوش مصنوعی را پردازش کنند. رویکرد صرفاً دسته‌ای موجب از بین رفتن پول و مسدود شدن نوآوری در بسیاری از موارد کاربری جدید می‌شود.


رویکرد جریان داده‌ها


معماری جریان داده‌ها مسائل مربوط به‌سرعت و کارایی را حل می‌کنند. اول سرعت مطرح است. هر جا که امکان داشته باشد آن‌ها رویدادها را به‌صورت آنی از منبع تا هدف و اغلب با تغییر شکل این حوادث در طول مسیر «جاری می‌سازند»؛ و باعث همگام‌سازی پایگاه‌های داده‌شده و اطلاعات را به‌صورت آنی یا نزدیک به زمان واقعی پردازش می‌کنند. این امر همچنین مشکل کارایی را نیز حل می‌کند. با پردازش مداوم و پردازش «تغییرات افزایش یافته» به‌صورت مداوم؛ نیاز به تکرار تکثیر دسته‌ای داده‌های بدون تغییر را از بین می‌برند.

این امر قدرت پردازش و الزامات پهنای باند را به‌شدت کاهش می‌دهد. در ضمن این امکان را فراهم می‌سازد که سازمان‌ها را قادر کند تا از حجم‌های داده بیشتری بدون تغییر زیرساخت‌ پشتیبانی کنند. شکل 2 معماری جریان داده‌های نمونه را در سطح مفهومی نشان می‌دهد.

شکل 2

مزایای کسب‌وکار معماری جریان داده‌ها


گروه‌های داده می‌توانند از استریم سازی رویدادها جهت اجرای آسان‌تر پروژه‌ها و تأمین الزامات در سطح سرویس استفاده کنند. آن‌ها قابلیت افزودن منابع داده و جذب حجم داده‌های رو به افزایش را دارند. ضمناً می‌توانند بدون افزایش زیرساخت‌ها سرعت پاسخ برنامه‌های کاربردی را بهبود بخشند.

تصمیم‌گیری بلادرنگ: معماری جریان داده‌های بلادرنگ، پلتفرم‌هایی همچون انبار داده‌ها و منابع مختلف داده‌ها دریافت و به سرعت پردازش می‌کند. این امر برای تحلیلگران تجاری؛ اطلاعات فوری و لازم جهت پاسخگویی به فرصت‌ها و ریسک‌های کوتاه‌مدت را فراهم می‌کند. یک تحلیلگر خرده‌فروشی می‌تواند الگوی خرید مشتری را در صبح شنبه شناسایی کند؛ سپس تا بعدازظهر قیمت‌ها را تنظیم کند.

در ضمن دانشمندان داده و تحلیلگران داده‌ از تحلیل‌های جریانی می‌توانند به لایه‌های جدید از شناخت برسند؛ و در حل مشکل یک کسب‌وکار استفاده ‌کنند. مثلاً تحلیل‌گر خرده‌فروشی از نتایج کمپین خود جهت بهبود پیش‌بینی و راهبرد خود در ماه یا فصل و سال آتی استفاده ‌کند.


موارد کاربردی تحلیلی جدید


 جریان‌سازی رویدادها، شرکت‌ها را قادر می‌سازد تا فرصت‌هایی را ایجاد کرده و مشکلات مربوطه را حل، یا از بروز آن‌ها جلوگیری کنند. اصلاح و نگهداری فعال، شناسایی تقلب، کنترل هزینه و ریسک از جریان‌سازی رویدادهای بلادرنگ استفاده می‌کند. یک اپراتور ناوگان پخش قادر خواهد بود پیش از خراب شدن کامیون تحویل‌دهنده، یک متخصص فنی را جهت بررسی با استفاده از داشبوردهای اخطار اعزام کند. یک شرکت کارت اعتباری می‌تواند معاملات پرخطر را پیش از بسته شدن شناسایی و مسدود کند.

جریان‌سازی رویداد همچنین موجب ایجاد ایده‌ها و برنامه‌هایی در بین کل کارکنان سازمان می‌شود و برای شکل‌گیری مجدد مشاغل آن‌ها کمک می‌کند و رویداد سازمان داده محور در کل سازمان شکل می‌گیرد. سازندگان تجهیزات، سرویس و تعمیر و نگهداری هوشمند را راه‌اندازی می‌کنند که با حسگرها وسیله‌های نقلیه را پایش کنند. صندوق‌های تأمین سرمایه‌گذاری برنامه‌های جدید الگوریتمی معاملات سهام را طراحی می‌کنند. راهبردهایی از این قبیل با افزایش داده و استریم آن‌ها جریان‌های درآمدی جدید ایجاد می‌کنند.

کاهش TCO. معماری‌ جریان سازی آنی داده‌ها، به‌جای پردازش دسته‌ای داده‌های قدیمی؛ با پردازش یک‌باره داده‌های رویداد؛ الزامات افزایش تدریجی CPU و در پی آن هزینه را کاهش می‌دهند. ضمناً این کار الزامات پهنای باند جهت یکپارچه‌سازی داده‌ها را کاهش می‌دهد. مخصوصاً انتقال جریان سازی داده‌ها از یک منبع درون‌سازمانی از طریق شبکه گسترده (WAN) به یک هدف ابری این کار را مقرون‌به‌صرفه می‌کند.


مزایای فنی معماری جریان سازی داده‌ها


تیم‌های داده می‌توانند جهت اجرای راحت‌تر پروژه‌ها و تأمین الزامات سطح خدمات (SLA ها) از جریان سازی رویداد استفاده کنند. آن‌ها می‌توانند منابع داده را اضافه کنند؛ حجم داده‌های رو به افزایش را جذب کنند و بدون افزودن زیرساخت‌ها زمان پاسخ برنامه را بهبود بخشند.

مقیاس‌پذیری

مزیت کارایی پردازش افزایشی جریان داده‌ها یعنی اینکه گروه‌های داده قادرند به‌راحتی مجموعه داده‌های عظیم موردنیاز جهت یادگیری ماشین و انواع مختلف هوش مصنوعی را به کار بگیرند. در ضمن آن‌ها قادر خواهند بود تا از جریان سازی جهت تبدیل و فیلتر کردن (پاک سازی یا غنی سازی داده‌ها) مجموعه‌های بزرگ داده، پیش از رسیدن آنها به پلتفرم هدف استفاده کنند و به‌این‌ ترتیب مقیاس‌پذیری بیشتر را افزایش دهند.

افزایش راندمان عملکرد برنامه‌های کاربردی

 جریان بلادرنگ داده‌ها زمان پاسخ برنامه‌های کاربردی را کاهش می‌دهد؛ بار کاری عملیاتی یا تحلیلی را سرعت می‌بخشد. مثلاً یک شرکت بیمه قادر است سوابق معاملاتی را به‌منظور رسیدگی به مطالبات با زمان تأخیر نزدیک به صفر همگام‌سازی کرده و به‌سرعت به مشتریان کمک کند. یک خرده‌فروش آنلاین قادر خواهد بود جهت تأیید و به‌روزرسانی وضعیت حمل‌ونقل تحویل خودکار در صورت تقاضای مشتری از یک ربات نرم‌افزاری استفاده کند.

سادگی

ابزارهای نوین جریان سازی خودکار به گروه‌های داده کمک می‌کند تا مسئولیت توسعه‌دهندگان را کمتر و پروژه‌ها را تسریع کنند. این ابزارها به کاربران با دانش فنی کم کمک می‌کنند تا مشاغل جریان سازی داده‌ها را با حداقل امکانات آغاز و نیز با حداقل ریسک خطای انسانی زمان‌بر؛ پیکربندی و نظارت کنند.


چالش‌های پیش‌رو در معماری جریان‌سازی داده‌ها


سازمان‌ها با مسئله مدیریت معماری داده‌ها‌ با چالش‌های متعددی در ابتدا مواجه می‌شوند. اگرچه این چالش‌ها زودگذر هستند اما باید نسبت به آنها هوشیار بود. این چالش‌ها در ابتدای شروع فرایند تبدیل به معماری جریان سازی داده‌ها ایجاد می‌شوند ولی بعد از استقرار این فرایند به یک خاطره تبدیل می‌شوند.

سردرگمی راهبردی. تیم‌های تحلیل تجاری و داده‌ای موارد کاربرد جریان سازی را به‌طور ناصحیح ارزیابی می‌کنند. تحلیلگران و دانشمندان داده‌ که تحلیل‌های بلادرنگ را به‌عنوان یک «درمان جامع» می‌دانند؛ تمرکز خود را بر سایر اطلاعات از دست می‌دهند. مثلاً تعمیر و نگهداری پیشگیرانه بلادرنگ نباید جایگزین عیب‌یابی ریشه‌ای علت شود.

تبدیل‌های بلادرنگ. بسیاری از راه‌حل‌های رایج نمی‌توانند تبدیل‌های پیچیده داده‌های در حال حرکت را انجام دهند درحالی که امروزه به تجزیه‌وتحلیل‌های چند منبعی و مقیاس بالا نیاز است

ناهمگنی. سازمان‌ها با افزودن مؤلفه‌های جدید معماری داده‌ها امر پردازش داده را تغییر داده و بار مدیریتی را افزایش می‌دهند. آن‌ها منابع داده‌ای همچون جریان‌های مربوط به رسانه‌های اجتماعی را جهت سنجش احساس مشتری، حسگرهای اینترنت اشیا را جهت ردیابی تشکیلات، یا نرم‌افزار به‌عنوان سرویس (SaaS) مبتنی برابر را جهت انجام وظایف دفتری اضافه می‌کنند.

آن‌ها اهدافی همچون انبارهای داده ابر را جهت داده‌های ساختاریافته و دریاچه‌های داده را جهت داده‌های چندگانه و غیر ساختاری یا NoSQL را جهت ذخیره اسناد اضافه می‌کنند. در ضمن آن‌ها نرم‌افزارهای سفارشی و تجاری را جهت تبدیل و تحلیل داده‌ها اضافه می‌کنند. باید بدانیم که هر مؤلفه جدید ارزش کسب‌وکار بالقوه را به همراه دارد اما کار بیشتری نیز لازم دارد.

پیچیدگی. تیم‌های داده بیشتر اوقات با عدم خودکارسازی درگیر می‌باشند. چون زیرساخت‌های درون‌سازمانی نیاز به پایش و تنظیم دقیق جهت پاسخگویی به SLA های دقیق را دارد.

معماری‌های انعطاف‌ناپذیر. محیط‌های قدیمی مانع از ابتکارات داده محور می‌شوند. انبارهای داده درون‌سازمانی هنگام به‌روزرسانی کند و پر هزینه هستند. گروه‌های داده برای به‌کارگیری مؤلفه‌های جدید تلاش می‌کنند. چون جهت ایجاد تعامل به کدگذاری خاصی نیاز دارند. همچنین آن‌ها برای باز کردن قفل داده‌ها از سیستم‌های پرهزینه قدیمی مانند پردازنده اصلی استفاده می‌کنند و این امر برای تبدیل قالب‌های منسوخ‌شده به موارد مصرفی به مهارت‌های محدود برنامه‌نویسی نیاز دارد.


رویکرد و روندهای بازار – معماری جریان داده‌ها


رویکرد و روند سازمان‌ها؛ معماری جریان سازی داده‌ها به‌عنوان بخشی از تحول گسترده‌تر در راهبرد داده‌های خود است. حال قصد داریم رایج‌ترین روند تطبیقی را بررسی کنیم:

خودکارسازی خط لوله (انتقال) داده‌ها. تیم‌های داده؛ خطوط انتقال داده را جهت اتصال به نقاط انتهایی مختلف ایجاد ‌می‌کنند تا با بهره‌گیری از ابزارهای خودکار در این معماری با یک رابط گرافیکی جایگزین شود. این ابزار کاربران را قادر می‌سازد تا خودشان کار را انجام دهند به‌جای اینکه منتظر توسعه‌دهندگانی بمانند که مشغله کاری زیادی دارند. آن‌ها خطوط انتقال جریان داده‌های جدید را سریع‌تر، راحت‌تر و مقرون‌ به‌صرفه‌تر ایجاد می‌کنند.

مدرنیزه کردن داده‌ها کلود محور. تیم‌های داده بار کاری تحلیلی را از پلتفرم اصلی یا سایر سیستم‌های گران‌قیمت قدیمی به پلتفرم‌های مدرن انتقال می‌دهند. آن‌ها بر مبنای دریاچه‌های داده، انبارهای داده یا NoSQL برای ارائه موارد کاربردی جدید و هم‌ زمان با ساده‌سازی و کاهش هزینه‌ها به زیرساخت ابری به‌عنوان ارائه‌دهنده سرویس (SaaS) انتقال می‌دهند. آن‌ها نرم‌افزارهایی را بر پایه پلتفرم ابری به‌عنوان ارائه‌دهنده سرویس (پلتفرم به‌عنوان سرویس) توسعه می‌دهند و در نرم‌افزار به‌عنوان سرویس (SaaS) عضو می‌شوند.

اپ‌های تلفن‌های هوشمند. انتظارات از تحلیل طی ده سال گذشته به‌طور قابل‌توجهی تغییر کرده است.

برنامه‌های کاربردی هوشمند اکنون به داده‌های بلادرنگ متکی هستند تا اطلاعات و سرویس‌های دقیقی از داده‌ها را به کاربران تلفن‌های همراه ارائه دهند. آن‌ها به‌روزرسانی‌های پیوسته مربوط به اخبار موبایل، پیش‌بینی‌های هواشناسی، خدمات نظارت بر ترافیک برمبنای منبع یابی جمعیتی و سایر برنامه‌ها را ارائه می‌دهند.

مدل‌های یادگیری ماشین (ML). شرکت‌های مختلفی مدل‌های ML را ساخته، آموزش داده و گسترش می‌دهند؛ این‌ها از الگوهای داده‌ها یاد می‌گیرند و با آن‌ها سازگار می‌شوند. ML ابداعات و ابتکارات تحلیلی موجود را ارتقا داده و نیز موارد کاربردی جدید را معرفی می‌نماید و به ‌منظور تولید دقیق‌ترین نتایج به حجم بالایی از داده‌ها باکیفیت بالا نیاز دارند. این امر نیاز به پردازش حجم زیادی از داده به صورت کارآمد، آنی و/یا کم تأخیر دارد؛ که با معماری جریان داده‌ها تحقق می‌یابد.

==========

شرکت راهکاران نوآوران آتی که چگونگی جریان داده‌ها را بر روی پلتفرم ingrow طراحی و زیر ساخت بیگ دیتا را برای مارکت پلیس‌ها و بانک‌ها آماده بهره برداری کرده است در وبلاگ خود مقاله‌ای تحت عنوان «چرایی و چگونگی معماری جریان داده‌ها» را ترجمه کرده است که بازنشر آن را در راه پرداخت می‌خوانید.

منبع Equalum
نویسنده / مترجم روابط عمومی اینگرو
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.