پایگاه خبری راه پرداخت دارای مجوز به شماره ۷۴۵۷۲ از وزارت فرهنگ و ارشاد اسلامی و بخشی از «شبکه عصر تراکنش» است. راه پرداخت فعالیت خود را از دوم اردیبهشتماه ۱۳۹۰ شروع کرده و اکنون پرمخاطبترین رسانه ایران در زمینه فناوریهای مالی، بانکداری و پرداخت و استارتآپهای فینتک است.
الزام بهکارگیری علم داده در اعتبارسنجی
صالح سعیدی، راهبر کسبوکار بانکداری نوین داتین / امروزه استفاده بهینه از دادهها یکی از بزرگترین چالشهای اصلی و مهم در سازمانهاست. از این رو در دهه اخیر تمرکز اصلی سازمانها بر مدیریت بهینه دادهها شامل استخراج دادههای کاربردی، مفید و ذخیرهسازی آن و همچنین تحلیلوتدوین استراتژیهای مبتنی بر دادههاست. علم داده (Data Science) بهعنوان یک راهکار جامع میتواند این چالش مهم را تا حد زیادی مرتفع سازد.
یکی از کاربردهای مهم علم داده، در حوزه کسبوکار مطرح میشود که ما در این یادداشت بهطور خاص فرایند علم داده جهت تولید دادههای باکیفیت در سیستمهای اعتبارسنجی را بهطور کلی مورد بررسی قرار میدهیم. برای مدیریت بهینه دادهها و تولید خروجیهای مطلوب در سیستم اعتبارسنجی نیاز است که بر اساس فرایند علم داده پیش رفت. بدین ترتیب فرایند مذکور شامل مراحل زیر است که در ادامه به شرح آن میپردازیم:
- طرح مسئله (هدف اصلی)؛
- گردآوری دادهها؛
- آمادهسازی دادهها؛
- تحلیل و مدلسازی دادهها؛
- نمایش دادهها؛
- توسعه سیستم.
- طرح مسئله (هدف اصلی اعتبارسنجی)
هدف اصلی در سامانه اعتبارسنجی محاسبه نمره اعتباری فرد جهت اعطای تسهیلات یا تعیین میزان اعتبار به او از سوی ارائهدهندگان تسهیلات است. بهطور کلی هدف اعتبارسنجی بررسی و سنجش اهلیت اشخاص (حقیقی و حقوقی) در عمل به تعهدات آنهاست. منظور از اهلیت اشخاص، توانایی و تمایل در نحوه عمل به تعهدات آنهاست. بنابراین در فرایند اعتبارسنجی به دادههای اشخاص از جمله دادههای مالی و اعتباری، شغلی، تحصیلی، مالکیت و غیره نیاز است که با استفاده از این دادهها میتوان رفتار اشخاص را از گذشته تا به امروز تحلیل کرده و حتی بر اساس این تحلیل، رفتار آینده اشخاص را پیشبینی کرد. بدین ترتیب سیستم اعتبارسنجی مناسب، سبب کاهش ریسک اعتباری و اطمینان خاطر بیشتر اعطاکنندگان تسهیلات در بازگشت بهموقع سرمایهشان خواهد شد.
- گردآوری دادهها
سیستم اعتبارسنجی برای تشخیص اهلیت اشخاص به اطلاعات گوناگون از منابع اطلاعاتی مختلف نیاز دارد که این اطلاعات را میتوان از databaseها، online Repositories ،APIها و web serverها و همچنین دادههای ورودی توسط کاربر کسب کرد. قسمتی از این اطلاعات که توسط کاربر ارائه میشود، جهت احراز هویت او به کار رفته و علاوه بر آن، قسمت اعظم اطلاعات، جهت ارزیابی، ارائه نمره و رتبه اعتباری مورد بررسی قرار میگیرد. از طرفی فرایند گردآوری اطلاعات از منابع اطلاعاتی مختلف زمانبر بوده و بعضاً موانع بزرگی بر سر راه آن قرار دارد که از مهمترین این موانع میتوان به گسستگی اطلاعات اشاره کرد. در ایران بهدلیل عدم یکپارچگی اطلاعات یا وجود اطلاعات ناکافی و ناقص، دادهها بهدرستی منتقل نمیشوند. بدین ترتیب زمانی که سوابق اطلاعاتی اشخاص در دسترس نباشد، امکان تحلیل و مدلسازی بهینه دادهها وجود نخواهد داشت. بنابراین در این مرحله، علم داده کمک میکند تا با استفاده از مکانیسمها، ابزار و روشهای مناسب و منطقی، دادههای مورد نیاز را از منابع اطلاعاتی مختلف گردآوری کرد.
- آمادهسازی دادهها
پس از گردآوری حجم بسیار زیادی از انواع داده از سازمانهای مختلف، نیاز است که از این دادهها در جهت مدلسازی آنها برای رسیدن به بهترین خروجیها در سیستم اعتبارسنجی بهره برد. برخی اقلام اطلاعاتی کسبشده عیناً و بدون کموکاست مورد استفاده قرار میگیرند، ولی در اکثر مواقع میبایست دادهها پالایش شوند. بنابراین استفاده از تکنیکهای پاکسازی دادهها امری اجتنابناپذیر است.
یکی از مهمترین چالشها در امر آمادهسازی دادهها در کشور، اطلاعات ناقص و ناکافی اشخاص در سازمانهای مختلف است. بهعنوان مثال میتوان به مصادیق زیر اشاره کرد:
- در بسیاری از پروندههای اشخاص در سازمانهای کشور بهویژه در بانکها، مشخصات دقیق و صحیحی از قبیل کد ملی، شماره تلفن یا حتی آدرس دقیقی جهت احراز هویت آنها وجود ندارد که این موضوع بهدلیل عدم مراجعه مشتریان طی این سالها و همچنین بهروزنکردن اطلاعات اشخاص از سوی نهادهای مذکور است. بنابراین باید این مقادیر در پایگاههای دادهای بررسی و تکمیل شوند.
- در سازمانهای مختلف انواع دادهها مانند اعداد، تاریخ، ساعت و برخی دیگر از اقلام دادهای با فرمتهای متفاوتی ارائه شده است. بهعنوان مثال در برخی منابع، مقدار متغیر (شاخص) مدرک تحصیلی کارشناسی و در برخی دیگر لیسانس یا مقدار شاخص سن بهصورت عدد (مثلا 35) یا تاریخ تولد (مانند 1362/12/06) درج شده است. بنابراین استانداردسازی انواع دادهها یکی از مهمترین عملیات در پاکسازی دادهها بهشمار میآید.
- همچنین برخی دادههای اشخاص در پایگاههای دادهای تکراری است یا نامرتبط محسوب میشوند که باید این دادهها شناسایی و در نهایت حذف شوند. بنابراین در این مرحله دادهها جهت تحلیل و مدلسازی آماده و مورد استفاده قرار میگیرند.
- تحلیل و مدلسازی دادهها
پس از آمادهسازی دادهها، برای رسیدن به نمره اعتباری دقیقتر و همچنین دیگر خروجیهای مورد نظر، متغیر (شاخص)های مناسب تعریف یا اصلاح میشوند. بدین ترتیب جهت مدلسازی دادهها در سیستم اعتبارسنجی برای رسیدن به خروجی مناسب، از تکنیکهای گوناگونی میتوان استفاده کرد. تاکنون مدلهای مختلفی پیرامون اعتبارسنجی مشتریان در سراسر جهان معرفی شده که در دو دسته مدلهای پارامتریک و ناپارامتریک جای میگیرند که مهمترین و پرکاربردترین آنها در ادامه فهرست شدهاند:
1- مدلهای اعتبارسنجی پارامتریک
- مدل رگرسیون خطی؛
- مدلهای پروبیت و لاجیت؛
- مدل مبتنی بر تحلیل ممیزی.
2- مدلهای اعتبارسنجی ناپارامتریک
- شبکههای عصبی مصنوعی؛
- سیستمهای خبره؛
- مدل سلسلهمراتب تحلیلی؛
- مدل برنامهریزی ریاضی؛
- مدل نزدیکترین همسایه؛
- الگوریتم درخت طبقهبندی.
با توجه به جنبه کیفی برخی مدلهای معرفیشده و بهدلیل بهرهمندی از نقاط قوت و پوشش نقاط ضعف مدلها، پیشنهاد میشود که رویکردی ترکیبی از روشهای اعتبارسنجی جهت رسیدن به نتایج مطلوب و کاربردی در این سامانه مورد استفاده قرار گیرد.
بهعنوان مثال با بررسیهای انجامشده و با توجه به کاربرد و ویژگیهای روش شبکههای عصبی مصنوعی مانند شناسایی الگوها، دستهبندی اطلاعات و همچنین یادگیری در حین فرایند اعتبارسنجی، به نظر میرسد که در سیستم اعتبارسنجی بهتر است از شبکههای عصبی، بهعنوان یکی از روشهای اصلی در کنار روشهای دیگر مانند روشهای آماری جهت رسیدن به خروجیهای مطلوب همچون دستهبندی مشتریان خوشحساب و بدحساب، تعیین میزان نرخ نکول، تشخیص مشتریان وفادار و غیره استفاده شود.
- نمایش دادهها
پس از تحلیل دادهها، ایجاد مدل دادهای مناسب و بهکارگیری آن بهصورت الگوریتم محاسباتی نمره و رتبه اعتباری در سیستم اعتبارسنجی، میبایست نتایج بهدستآمده از عملکردهای مالی و غیرمالی در قالب گزارش جامع به اشخاص نمایش داده شود. همچنین متناسب با نیاز کاربران (سازمانی، حقیقی) گزارش اعتبارسنجی میتواند بر بستر اپلیکیشن، وبسایت و حتی پنل سازمانی ارائه شود.
در گزارش اعتبارسنجی، برخی اطلاعات جهت ارائه به کاربر الزامی است که مهمترین این موارد در اینجا فهرست شدهاند:
- ارائه اطلاعات هویتی، مشخصات تماس، آدرس؛
- ارائه نمره و رتبه اعتباری و توضیحات و دلایل مربوط به کسب این نمره و رتبه؛
- دستهبندی اطلاعات مالی و غیرمالی؛
- نمایش قراردادهای جاری، وضعیت وثایق، نحوه بازپرداخت اقساط در گذشته؛
- ارائه سوابق و وضعیت منفی شخص (اعم از حقیقی و حقوقی) در دورههای زمانی مختلف، بهعنوان مثال سابقه چک برگشتی، وضعیت منفی قراردادها شامل بدهیهای بیمهای شخص و اقساط معوقشده از تسهیلات بانکی؛
- وضعیت ضامنین در قراردادها؛
- وضعیت تعهدات آتی مشتری.
جهت خوانایی و درک بهتر کاربر از گزارش اعتبارسنجی به استفاده از روشهای عینیسازی دادهها (Data Visualization) مانند بهکارگیری نمودارها، چارتها و جداول نیاز است. بنابراین برای تولید گزارش حرفهای، بسیاری از مهندسان داده از نرمافزارهای تولید گزارش متناسب با زیرساختهای فنی خود بهره میبرند. از ابزارهای مهم و کاربردی در فضای عینیسازی دادهها میتوان به نرمافزارهای زیر اشاره کرد:
- Microsoft Power BI؛
- Tableau؛
- Qlick View.
- توسعه سیستم اعتبارسنجی
از آنجایی که سیستم اعتبارسنجی از منابع اطلاعاتی گوناگونی همچون سازمانهای دولتی و غیردولتی مانند بانکها و مؤسسات مالی و اعتباری، بیمهها، وزارتخانهها، شرکتها و نهادهای ذیربط و همچنین استارتاپهای مالی بهره میبرد، پس از هرگونه تغییری که در دادههای منابع مذکور رخ دهد، نیاز است تا سیستم اعتبارسنجی دادههای خود را بهروزرسانی کند تا در مراجعههای بعدی کاربران، گزارش اعتبارسنجی بهروزی را به ایشان ارائه دهد. از طرفی جهت استفاده از اطلاعات مالی و غیرمالی بیشتر و ارائه خروجیهای بهینه و بهروز، به افزودن منابع اطلاعاتی بیشتر در سیستم نیاز است.
بنابراین جهت توسعه سیستم اعتبارسنجی، دو رویکرد اصلی بهروزرسانی و افزودن دادههای بیشتر برای محاسبه نمره و رتبه اعتباری دقیقتر جزء الزامات است. بدین ترتیب میتوان انتظار داشت با استفاده از علم داده، چالش مدیریت بهینه دادهها در حوزه اعتبارسنجی تا حد قابل قبولی مرتفع شده و خروجیهای مطلوبی حاصل شود.