پایگاه خبری راه پرداخت دارای مجوز به شماره ۷۴۵۷۲ از وزارت فرهنگ و ارشاد اسلامی و بخشی از «شبکه عصر تراکنش» است. راه پرداخت فعالیت خود را از دوم اردیبهشتماه ۱۳۹۰ شروع کرده و اکنون پرمخاطبترین رسانه ایران در زمینه فناوریهای مالی، بانکداری و پرداخت و استارتآپهای فینتک است.
یادگیری ماشین چگونه به کشف تقلب و کلاهبرداری کمک میکند؟
بانکها میتوانند از یادگیری ماشین برای تجزیهوتحلیل اطلاعات غیرساختاری مانند نظارت بر رسانههای اجتماعی و بررسی دقیق حساب مشتریان برای شناسایی ناهنجاری استفاده کنند
امروزه استفاده از تراکنشهای آنلاین بسیار رواج پیدا کرده و به طبع آن موارد کلاهبرداری آنلاین نیز روند افزایشی داشته است. سایت Consumer Sentinel Network (سایت اینترنتی که به عنوان یک ابزار تحقیقاتی در فضای مجازی عمل میکند و کاربران این سایت به میلیونها گزارش در حوزههای مختلف دسترسی دارند.) که تحت نظارت کمیسیون تجارت فدرال (FTC) فعالیت دارد، در سال 2019 بالغ بر 3.2 میلیون گزارش در رابطه با سرقت هویت و کلاهرداری آنلاین دریافت کرده است.
کلاهبرداران در کشف و استفاده از باگهای موجود در سیستمها مهارت زیادی به دست آوردهاند، در نتیجه مدیریت کلاهبرداری در صنعت بانکداری و مالی بسیار دشوار شده است. خوشبختانه، یادگیری ماشین (Machine Learning) در زمینه کشف کلاهبرداریها به کمک سازمانهای مالی آمده است.
یادگیری ماشین در حل برخی از مشکلات حوزه کسبوکار اعم از شناسایی هرزنامه ایمیل، توصیه محصول متمرکز و تشخیص دقیق پزشکی بسیار مؤثر بوده است. افزایش قدرت پردازش، قابلیت دسترسی به کلان دادهها و پیشرفت در مدلسازی آماری، موجب تسریع در پذیرش یادگیری ماشین شده است. دانشمندان داده در تأیید اعتبار معاملات به وسیله یادگیری ماشین و تجزیهوتحلیل پیشگویانه (predictive analytics) موفق بودهاند. سیستمهای غربالگری خودکار کلاهبرداری با استفاده از یادگیری ماشین میتوانند در کاهش کلاهبرداری به کسبوکارها کمک کنند.
روند غلط در مورد کشف کلاهبرداریها
طبق گزارشی از Anti-Fraud Benchmark Report (بزرگترین سازمان مبارزه با کلاهبرداری در جهان) که توسط cybersource (شرکتی که در حوزه پرداخت فعالیت دارد.) منتشر شده است، در آمریکای شمالی 83 درصد کسبوکارها و 29 درصد از سفارشها به صورت غیرخودکار و دستی بررسی میشوند. مداخله انسان در مسائل مربوط به کلاهبرداری باعث افزایش بینش در مورد الگوهای کلاهبرداری و رفتار واقعی مشتریان میشود. این بینشها میتواند قوانین غربالگری خودکار را تنظیم کند، اما بررسی دستی پرهزینه، زمانبر و دارای نتایج منفی کاذب زیادی است.
بررسیهای خودکار تاکنون نتوانستهاند اعتماد کامل شرکتها را به دست آورند به همین دلیل هزینههای بررسیهای دستی، مقدار قابلتوجهی از بودجه مدیریت کلاهبرداری را به خود اختصاص داده است. کسبوکارها باید برای آموزش کارکنانی که در زمینه بررسی دستی به کار گرفته میشوند، سرمایهگذاری کنند. آموزش کارکنان برای بررسی دستی تراکنشها پرهزینه و زمانبر است.
همچنین بررسی دستی تراکنشها زمان لازم برای انجام سفارشها را نیز افزایش میدهد. در مورد خدماتی نظیر خدمات مربوط به نرمافزار که مشتریان به یک راهحل سریع نیاز دارند، طولانی شدن زمان انجام سفارشها میتواند باعث ناامیدی آنها شود.
بیش از 90 درصد پلتفرمهای کشف کلاهبرداریهای آنلاین، از قوانین تراکنش برای ارجاع تراکنشهای مشکوک به سمت بررسی انسانی استفاده میکنند. با کمال تعجب، کماکان برخی بانکها و درگاههای پرداخت از این رویکرد سنتی (قوانین تراکنش) برای بررسی تراکنشها استفاده میکنند. در این پلتفرم، قوانین شامل ترکیبی از دادهها و آیندهپژوهی (که شامل بررسی سیستماتیک اطلاعات برای شناسایی تهدیدها، ریسکها، مسائل و فرصتهای نوظهور است.) است. در نهایت صحت هر تراکنش با برچسبگذاری آن به دو صورت معتبر یا کلاهبرداری مشخص میشود.
مهمترین عیب فرآیند سنتی بروز موارد مثبت کاذب است که موجب دور شدن مشتریان واقعی از کسبوکارها میشود. قضاوت در مورد این موضوع به آموزش فردی و دستورالعملهای تراکنشها بستگی دارد که بسته به نوع کسبوکار متفاوت است.
درصورتی که کارمندان هر تراکنش با ریسک بالاتر از حد مجاز را رد کنند، میزان موارد مثبت کاذب افزایش پیدا خواهد کرد. هر مورد مثبت کاذب علاوه بر فرایند فروش، بر ارزش بلندمدت حاصل از هر مشتری نیز تأثیر میگذارد؛ بنابراین، بررسیهای دستی که بر اساس قوانین صورت میگیرد باید آخرین مرحله در استراتژی کشف کلاهبرداری باشد.
باندهای کلاهبرداری از بدافزارها و ایمیلهای فیشینگ برای به خطر انداختن اطلاعات شخصی و امنیت مشتریان استفاده میکنند. کلاهبرداران از اطلاعات بهدستآمده برای دسترسی به حسابهای مشتریان و کلاهبرداری استفاده میکنند. هدف این اقدامات به خطر انداختن اطلاعات شخصی و مالی مشتریان از جمله دادههای کارت (دادههای کارت به هرگونه اطلاعات موجود در کارت پرداخت مشتری اشاره دارد.) است تا مجرمان بتوانند به کلاهبرداری بپردازند. استفاده از دادههای کارت، قانونی است اما تحت رضایت مالک نیست. در چنین مواردی، قوانین و بررسی دستی قادر به جلوگیری از کلاهبرداری در تراکنشها نیست.
درک سازوکار یادگیری ماشین در کشف کلاهبرداریها
یادگیری ماشین علم طراحی و بهکارگیری الگوریتمهایی است که بتواند با تحلیل موارد قدیمی، نکتههای جدیدی بیاموزد. یادگیری ماشین از الگوریتمهای پیچیدهای استفاده میکند و به دنبال الگوهایی است که در دادههای بزرگ تکرار میشوند و سپس الگوی موجود در دادهها را تجزیهوتحلیل میکند. این الگوریتم، پاسخگویی ماشینها در شرایطی که صریحاً برای آن برنامهریزی نشدهاند را تسریع کرده و بهبود میبخشد. همچنین یادگیری ماشین در تشخیص هرزنامهها، بازشناسی تصاویر، توصیه محصول، تجزیهوتحلیل پیشبینیها و موارد دیگر استفاده میشود.
هدف اصلی دانشمندان داده در طرح یادگیری ماشین کاهش قابل توجه تلاش انسانی است. حتی با استفاده از ابزارهای مدرن تجزیهوتحلیل، برای خواندن، جمعآوری اطلاعات، طبقهبندی و تجزیهوتحلیل دادهها توسط انسان زمان زیادی نیاز است. یادگیری ماشین به ماشینها میآموزد که به جای انسانها الگوها را شناسایی کرده و میزان اهمیت آنها را اندازهگیری کنند. در مواردی که دادهها باید به سرعت مورد تجزیهوتحلیل قرار گیرند، وجود پشتیبانی همانند ماشین باعث کارایی و اطمینان عمل بیشتر انسان میگردد.
یادگیری ماشین دادههای فشرده و گیجکننده را به الگویی ساده تبدیل کرده و به تصمیمگیرندگان کمک میکند. با توجه به الگوریتم یادگیری ماشین، یک کاربر با افزودن مداوم دادهها و تجربهها به یادگیری ماشین میتواند آن را آموزش بدهد؛ بنابراین در هسته مرکزی یادگیری ماشین یک چرخه سه مرحلهای وجود دارد که شامل آموختن (Train)، آزمایش (Test) و پیشگویی کردن (Predict) است. بهینهسازی چرخه باعث پیشگوییهای دقیقتر شده و میتواند در موارد کاربرد خاص مورد استفاده قرار گیرد.
چرا در کشف کلاهبرداری باید از یادگیری ماشین استفاده شود؟
ماشینها در پردازش مجموعه دادههای بزرگ بهتر از انسان عمل میکنند. آنها میتوانند در روند خرید یک کاربر، هزاران الگو مختلف را شناسایی کنند، این در حالی است که انسان قادر به شناسایی چند الگو محدود است که توسط قوانین تعریفشده باشد. میتوان با اعمال فناوریهای رایانش شناختی در پردازش دادههای خام، کلاهبرداریها را در حجم بزرگی از تراکنشها پیشگویی کرد. به همین دلیل است که برای جلوگیری از کلاهبرداری در امور مالی، از یادگیری ماشین استفاده میشود.
سه عاملی که اهمیت خدمات یادگیری ماشین را بیان میکنند، عبارتاند از:
- سرعت. در سیستمهای مبتنی بر قوانین به منظور قبول یا رد هر نوع سفارشی باید قوانین خاصی ایجاد شود که این فرایند بسیار زمانبر بوده و به صورت دستی انجام میشود. با افزایش سرعت تجارت، وجود راهحلی سریع برای کشف کلاهبرداریها بسیار ضروری به نظر میرسد. تنها تکنیکهای یادگیری ماشین است که با سرعتی بالا و اعتماد کافی ما را قادر میسازد که یک تراکنش را تأیید یا رد کنیم.
یادگیری ماشین میتواند حجم زیادی از تراکنشها را به صورت آنی ارزیابی کند. این فناوری به طور مداوم در حال تجزیهوتحلیل دادههای جدید است و همانند مدل پیشرفتهای چون شبکههای عصبی، بهطور خودکار مدلهای خود را بهروزرسانی میکند تا با آخرین تغییرات تطابق یابد.
- مقیاس. با افزایش مجموعه دادهها، مدلها و الگوریتمهای یادگیری ماشین کارآمدتر میشوند. این در حالی است که در مدلهای مبتنی بر قوانین، با افزایش تعداد مشتریان، هزینه نگهداری سیستم کشف کلاهبرداری افزایش پیدا میکند. با افزایش حجم دادهها عملکرد یادگیری ماشین بهبود پیدا میکند چراکه مدلهای یادگیری ماشین میتوانند شباهتها و تفاوتهای بین رفتارهای مختلف را تشخیص دهند.
به محض اینکه برای ماشین تعیین شود معامله واقعی و کلاهبرداری هر کدام چه ویژگیهایی دارند، سیستمها با استفاده از همین ویژگیها به طبقهبندی تراکنشها به دو دسته واقعی و کلاهبردارانه میپردازند. البته مقیاس بندی با سرعت بالا که در یادگیری ماشین انجام میگیرد نیز خطراتی به دنبال دارد. اگر در اطلاعات دادهشده به یادگیری ماشین کلاهبرداری کشف نشدهای وجود داشته باشد، ماشین به گونهای آموزش میبیند که در آینده این نوع تراکنش را به عنوان کلاهبرداری تشخیص ندهد.
- کارایی. برخلاف انسان، ماشین قادر به انجام مداوم کارهای تکراری است. به طور مثال، الگوریتمهای یادگیری ماشین کار طاقتفرسای تجزیهوتحلیل دادهها را انجام میدهند و تنها زمانی به مداخله انسان نیاز است که بخواهیم به ماشین داده و تجربههای جدیدی وارد کنیم. در اغلب موارد، یادگیری ماشین در شناسایی الگوهای پیچیده و غیرملموس عملکرد بهتری نسبت به انسانها دارد و میتواند در کشف تراکنشهای کلاهبردارانه بسیار کمککننده باشد.
در ضمن، یادگیری ماشین میتواند باعث کاهش موارد مثبت کاذب نیز شود. علاوه بر اینها، مدلهای یادگیری ماشین میتوانند به طور مداوم به تجزیهوتحلیل دادهها بپردازند، سپس به طور خودکار مدلهای خود را بروز رسانی کنند تا با آخرین تغییرات تطابق یابد.
یادگیری ماشین چگونه کلاهبرداریها را کشف میکند؟
فرایند کشف کلاهبرداری
فرایند کشف کلاهبرداری توسط یادگیری ماشین با جمعآوری و تقسیمبندی دادهها آغاز میشود. سپس مدلهای یادگیری ماشین با مجموعههای آموزشی، آموزش میبیند تا بتواند احتمال کلاهبرداری را پیشبینی کند.
استخراج داده
بهطورکلی دادهها به سه دسته تقسیمبندی میشوند که شامل آموزش، آزمایش و اعتبار سنجی متقابل است. الگوریتم یادگیری ماشین توسط مجموعهای از دادهها و پارامترها آموزش دیده است که میتوان آنها را با اضافه نمودن مجموعهای از دادههای آموزشی جدید تغییر داد. کارایی دادهها نیز توسط مجموعه اعتبارسنجی متقابل ارزیابی میشود. سپس مدلهای با کارایی بالا، دادهها را به صورت تصادفی تقسیمبندی میکنند تا نسبت به هماهنگی نتایج آزمایش اطمینان حاصل کند.
تهیه مجموعههای آموزشی
پیشبینی، کاربرد اصلی یادگیری ماشین است که در کشف تقلب استفاده میشود. با واردکردن مجموعهای از دادهها به ماشین (دادههای ورودی)، یادگیری ماشین بتواند نتیجه (دادههای خروجی) را پیشبینی کند. بهطور مثال، دادههای ورودی میتواند شامل کشور صادرکننده کارت بانکی باشد یا اینکه در روز گذشته، کارت بانکی در چند کشور استفاده شده است.
یادگیری ماشین باید بتواند پیشبینی کند درصورتیکه تراکنش واقعی یا کلاهبرداری باشد، کدام داده ورودی غلط و کدام داده درست است. تاریخچه هر دو نوع داده ورودی و خروجی میتواند در آموزش یادگیری ماشین مورد استفاده قرار گیرد. معمولاً تاریخچهها از دادههای تاریخی (شامل دادههای مربوط به یک موضوع خاص که با گذشت زمان و به صورت دستی یا خودکار جمعآوری شدهاند.) حاصل میشوند.
مدلسازی
ایجاد مدلها گام اساسی در کشف کلاهبرداری یا ناهنجاری در مجموعه دادههاست. در واقع این مدلها هستند که چگونگی ایجاد یک پیشبینی بر اساس نمونههای قبلی و دادههای ورودی و خروجی را تعیین میکنند. پیشبینی کردن را میتوان به دو نوع دستهبندی کرد:
- طبقهبندی
- رگرسیون (یک روش آماری که برای تعیین ویژگیها و قدرت رابطه بین متغیرهای وابسته و مستقل مورد استفاده قرار میگیرد.)
- رگرسیون لجستیک (Logistic Regression)
آنالیز رگرسیون، یک روش آماری متداول و قدیمی است که قدرت روابط علت-معلولی را در دادههای سازمانیافته اندازهگیری میکند. بهکارگیری این آنالیز در کشف کلاهبرداری توسط یادگیری ماشین بسیار پیچیده است، چراکه تعداد متغیرها زیاد و اندازه مجموعهها بسیار بزرگ است؛ اما این آنالیز میتواند قدرت پیشگویانه متغیرهای منفرد و یا ترکیبی از متغیرها که بخشی از یک استراتژی کلاهبرداری بزرگتر هستند را ارزیابی کند و اینگونه به کشف کلاهبرداریها کمک کند.
در این تکنیک، تراکنشهای واقعی و کلاهبردارانه با هم مقایسه میشوند تا یک الگوریتم ایجاد شود. این الگوریتم واقعی یا جعلی بودن تراکنشهای جدید را پیشبینی میکند. این مدل مختص پایگاه مشتریان مرچنتهای بزرگ است اما معمولاً در این موارد الگوهای معمولی اعمال میشود.
- درخت تصمیم (Decision Tree)
این دسته یک خانواده از الگوریتمهای یادگیری ماشین بالغ است که برای ایجاد خودکار قوانین مربوط به اقدامات طبقهبندی کاربرد دارد. همچنین الگوریتم درخت تصمیم میتواند برای حل مشکلات مدلسازی مربوط به پیشبینی رگرسیون و طبقهبندی بهکار برده شود. این الگوریتم مجموعهای از قوانین است و آموزش آن توسط نمونه کلاهبرداریهایی صورت میگیرد که مشتریان با آن مواجه هستند.
درخت تصمیم ویژگیهای نامربوط را نادیده میگیرد و در نتیجه نیازی به همپایهسازی گسترده دادهها نیست. هر درخت را میتوان مورد بررسی قرار داد و فهرستی از قواعدی که هر مشتری در طی تراکنشهای قبلی ایجاد کرده است را مشاهده کرد. این امر موجب میشود که ما دلیل تصمیمی که این الگوریتم در مورد مشتری گرفته است را درک کنیم.
- جنگل تصادفی (Random Forest)
جنگل تصادفی شامل ترکیبی از چندین درخت تصمیم است که برای بهبود عملکرد طبقهبندی و رگرسیون استفاده میگردد. این الگوریتم باعث میشود که بتوان خطاهای موجود در هر درخت را برطرف کنیم در نتیجه عملکرد و دقت مدل افزایش پیدا کند و درعینحال توانایی ما در تفسیر نتایج اولیه و امتیازدهی قابل توجیه به کاربران را، همچنان حفظ میکند. سرعت اجرای الگوریتم جنگل تصادفی بسیار بالاست و همچنین در صورت وجود دادههای غیرمتعادل و ازدسترفته، این الگوریتم همچنان عملکرد خود را حفظ میکند.
نقطهضعف الگوریتم جنگل تصادفی این است که زمانی که الگوریتم برای رگرسیون مورد استفاده قرار میگیرد، نمیتواند فراتر از محدوده آموزشیافته خود عمل کند. جنگل تصادفی برای دادههای دارای نویز (Noisy data) (مجموعهای از دادهها که شامل تعداد زیادی از دادههای بیمعنی و اضافی است.) بسیار مناسب است. البته، بهترین آزمون برای ارزیابی کارایی هر الگوریتم این است که آیا این الگوریتم در مجموعه دادههای شما به خوبی عمل میکند یا خیر.
- شبکه عصبی
این الگوریتم مکملی بسیار مناسب برای سایر تکنیکهاست و زمانی که دادهها در آن اعمال میشوند، عملکرد آن بهبود پیدا میکند. شبکه عصبی بخشی از فناوری رایانش شناختی است که از نحوه عملکرد مغز و چگونگی مشاهده الگوها توسط آن تقلید میکند. این الگوریتم بسیار تطابقپذیری است و قادر به یادگیری الگوهایی با رفتار منطقی است. شبکه عصبی میتواند با رفتار تراکنشهای واقعی سازگار شده و الگوی کلاهبرداریها را شناسایی کند. سرعت پردازش این الگوریتم بسیار بالاست و میتواند به صورت آنی تصمیمگیری کند.
محدودیتهای یادگیری ماشین در کشف کلاهبرداریها
یادگیری ماشین یک فناوری بسیار مفید است که امکان کشف الگوهای نابهنجار در تراکنشهای روزمره را به ما میدهد هرچند راهکار کاملی برای کشف کلاهبرداریها نیست. عملکرد یادگیری ماشین بسیار بهتر از بررسیهای انسانی و یا بررسیهای مبتنی بر قوانین است که توسط سازمانهای قدیمیتر استفاده میشده است. بااینحال این روش کشف کلاهبرداری دارای محدودیتهایی نیز است که عبارت است از:
- عدم پاسخگویی
ما در شرکت Maruti Techlabs (هدف این شرکت سادهسازی مشکلات پیچیده تجاری به وسیله راهحلهای نرمافزاری است.) از مدل یادگیری ماشین بکاند (Backend) استفاده کردهایم؛ بنابراین ما ملزم به توضیح دلایل خود در مورد برچسبگذاری یک خریدار یا فروشنده به عنوان کلاهبردار هستیم و باید توضیح دهیم چرا این فرد نباید از این سیستم استفاده کند. همچنین باید بتوانیم به گونهای عمل کنیم که مشتری وقوع کلاهبرداری تأیید کند و از این طریق سیستم خود را نیز آموزش دهیم.
در حقیقت عملکرد یادگیری ماشین به مهارت دانشمندان دادهای بستگی دارد که آن را کنترل میکنند. برای فیلتر و پردازش کردن مؤثر دادهها حتی پیشرفتهترین فناوری نیز نمیتواند جایگزین تخصص و قضاوت انسان باشد. اگرچه این مشکلات از طریق تکنیکهای مبتنی بر قوانین برطرف شدهاند اما عدم پاسخگویی از معایب رویکرد مبتنی بر یادگیری ماشین است.
- شروع سرد
برای اینکه مدلهای یادگیری ماشین بدون نقص عمل کنند، نیاز به حجم زیادی داده دارند. برای سازمانهای بزرگ این حجم دادهها مسئله بزرگی نیست، اما برای سازمانهای کوچکتر باید حجم داده کافی وجود داشته باشد تا بتوان به درستی رابطه علت و معلول را شناسایی کرد.
بدون وجود حجم دادههای کافی، ماشین ممکن است برداشتهای اشتباهی از دادهها یاد بگیرد و همچنین ارزیابیهای غلط و نامربوطی داشته باشد. اغلب بهتر است که ابتدا یک سری قوانین اساسی اولیه اعمال شود سپس به مدلهای یادگیری ماشین اجازه داده میشود تا به منظور آمادگی بیشتر با دادههای بیشتری مواجه شوند. ما اغلب این رویکرد را در مورد مجموعه دادههای کوچکتر اعمال میکنیم.
- نادیده گرفتن ارتباط بین دادهها
مدلهای یادگیری ماشین روی اقدامات رفتارها و فعالیتها کار میکند. در ابتدا که مجموعه دادهها کوچک است، ماشین، ارتباط بین دادهها را نادیده میگیرد. مدلها ممکن است حتی از یک ارتباط به ظاهر ساده مانند کارت به اشتراک گذاشته شده بین دو حساب نیز چشمپوشی کنند. برای حل این مشکلات، عملکرد الگوریتمها با استفاده از شبکه گراف (Graph network) بهبود پیدا کرده است. مجموعه دادههای گراف این امکان را میدهد که حسابهای جعلی و مشکوک، قبل از اقدام به کلاهبرداری مسدود شوند.
ازآنجاکه یادگیری ماشین در بین دانشگاهیان و متخصصان حوزه صنعت بسیار محبوب شده است، در این عرصه دامنه وسیعی از نوآوریها به وجود خواهد آمد. آزمایش مدلها و الگوریتمهای مختلف میتواند در کشف کلاهبرداری بسیار کمککننده باشد. تکنیکهای یادگیری ماشین به طور واضحی نسبت به بررسیها و قوانین انسانی قابل اطمینان تر هستند.
راهحل یادگیری ماشین کارآمد و مقیاسپذیر است و میتواند تعداد زیادی از تراکنشها را به صورت آنی پردازش کند؛ اما استخراج دادهها و تهیه مجموعه دادههای آموزشی مناسب برای پیشبینیهای صحیح کار دشواری است.
برای شناسایی فعالیتهای مشکوک و از آن مهمتر، جدا کردن هشدارهای جعلی کلاهبرداری از هشدارهای صحیح، شرکت پی پال (PayPal) از یک موتور هوش مصنوعی با ابزارهای متنباز استفاده میکند. با ترکیب هر دو راهحل انسانی و هوش مصنوعی، این شرکت میزان هشدارهای کاذب خود را به نصف کاهش داده است؛ اما بانکها در بهکارگیری گسترده یادگیری ماشین و هوش مصنوعی بسیار کند عمل کردهاند.
این مسئله به دلیل هزینههای سنگین زیرساختی، مقررات سختگیرانه و ریسک جایگزینی فناوری فعلی است. بااینوجود بانکها میتوانند از یادگیری ماشین برای تجزیهوتحلیل اطلاعات غیر ساختاری مانند نظارت بر رسانههای اجتماعی و بررسی دقیق حساب مشتریان برای شناسایی ناهنجاری استفاده کنند.