الزام به‌کارگیری علم داده در اعتبارسنجی

راه پرداخت

۷ دقیقه مدت مطالعه

۱۸ ٫ ۰۸ ٫ ۱۴۰۰

صالح سعیدی، راهبر کسب‌وکار بانکداری نوین داتین / امروزه استفاده بهینه از داده‌ها یکی از بزرگ‌ترین چالش‌های اصلی و مهم در سازمان‌هاست. از این رو در دهه اخیر تمرکز اصلی سازمان‌ها بر مدیریت بهینه داده‌ها شامل استخراج داده‌های کاربردی، مفید و ذخیره‌سازی آن و همچنین تحلیل‌وتدوین استراتژی‌های مبتنی بر داده‌هاست. علم داده (Data Science) به‌عنوان یک راهکار جامع می‌تواند این چالش مهم را تا حد زیادی مرتفع سازد.

یکی از کاربردهای مهم علم داده، در حوزه کسب‌و‌کار مطرح می‌شود که ما در این یادداشت به‌طور خاص فرایند علم داده جهت تولید داده‌های باکیفیت در سیستم‌های اعتبارسنجی را به‌طور کلی مورد بررسی قرار می‌دهیم. برای مدیریت بهینه داده‌ها و تولید خروجی‌های مطلوب در سیستم اعتبارسنجی نیاز است که بر اساس فرایند علم داده پیش رفت. بدین ترتیب فرایند مذکور شامل مراحل زیر است که در ادامه به شرح آن می‌پردازیم:

طرح مسئله (هدف اصلی)؛
گردآوری داده‌ها؛
آماده‌سازی داده‌ها؛
تحلیل و مدل‌سازی داده‌ها؛
نمایش داده‌ها؛
توسعه سیستم.

طرح مسئله (هدف اصلی اعتبارسنجی)

هدف اصلی در سامانه اعتبارسنجی محاسبه نمره اعتباری فرد جهت اعطای تسهیلات یا تعیین میزان اعتبار به او از سوی ارائه‌دهندگان تسهیلات است. به‌طور کلی هدف اعتبارسنجی بررسی و سنجش اهلیت اشخاص (حقیقی و حقوقی) در عمل به تعهدات آنهاست. منظور از اهلیت اشخاص، توانایی و تمایل در نحوه عمل به تعهدات آنهاست. بنابراین در فرایند اعتبارسنجی به داده‌های اشخاص از جمله داده‌های مالی و اعتباری، شغلی، تحصیلی، مالکیت و غیره نیاز است که با استفاده از این داده‌ها می‌توان رفتار اشخاص را از گذشته تا به امروز تحلیل کرده و حتی بر اساس این تحلیل، رفتار آینده اشخاص را پیش‌بینی کرد. بدین ترتیب سیستم اعتبارسنجی مناسب، سبب کاهش ریسک اعتباری و اطمینان خاطر بیشتر اعطاکنندگان تسهیلات در بازگشت به‌موقع سرمایه‌شان خواهد شد.

گردآوری داده‌ها

سیستم اعتبارسنجی برای تشخیص اهلیت اشخاص به اطلاعات گوناگون از منابع اطلاعاتی مختلف نیاز دارد که این اطلاعات را می‌توان از databaseها، online Repositories ،APIها و web serverها و همچنین داده‌های ورودی توسط کاربر کسب کرد. قسمتی از این اطلاعات که توسط کاربر ارائه می‌شود، جهت احراز هویت او به کار رفته و علاوه بر آن، قسمت اعظم اطلاعات، جهت ارزیابی، ارائه نمره و رتبه اعتباری مورد بررسی قرار می‌گیرد. از طرفی فرایند گردآوری اطلاعات از منابع اطلاعاتی مختلف زمان‌بر بوده و بعضاً موانع بزرگی بر سر راه آن قرار دارد که از مهم‌ترین این موانع می‌توان به گسستگی اطلاعات اشاره کرد. در ایران به‌دلیل عدم یکپارچگی اطلاعات یا وجود اطلاعات ناکافی و ناقص، داده‌ها به‌درستی منتقل نمی‌شوند. بدین ترتیب زمانی که سوابق اطلاعاتی اشخاص در دسترس نباشد، امکان تحلیل و مدل‌سازی بهینه داده‌ها وجود نخواهد داشت. بنابراین در این مرحله، علم داده کمک می‌کند تا با استفاده از مکانیسم‌ها، ابزار و روش‌های مناسب و منطقی، داده‌های مورد نیاز را از منابع اطلاعاتی مختلف گردآوری کرد.

آماده‌سازی داده‌ها

پس از گردآوری حجم بسیار زیادی از انواع داده از سازمان‌های مختلف، نیاز است که از این داده‌ها در جهت مدل‌سازی آنها برای رسیدن به بهترین خروجی‌ها در سیستم اعتبارسنجی بهره برد. برخی اقلام اطلاعاتی کسب‌شده عیناً و بدون کم‌وکاست مورد استفاده قرار می‌گیرند، ولی در اکثر مواقع می‌بایست داده‌ها پالایش شوند. بنابراین استفاده از تکنیک‌های پاک‌سازی داده‌ها امری اجتناب‌ناپذیر است.

یکی از مهم‌ترین چالش‌ها در امر آماده‌سازی داده‌ها در کشور، اطلاعات ناقص و ناکافی اشخاص در سازمان‌های مختلف است. به‌عنوان مثال می‌توان به مصادیق زیر اشاره کرد:

در بسیاری از پرونده‌های اشخاص در سازمان‌های کشور به‌ویژه در بانک‌ها، مشخصات دقیق و صحیحی از قبیل کد ملی، شماره تلفن یا حتی آدرس دقیقی جهت احراز هویت آنها وجود ندارد که این موضوع به‌دلیل عدم مراجعه مشتریان طی این سال‌ها و همچنین به‌روزنکردن اطلاعات اشخاص از سوی نهادهای مذکور است. بنابراین باید این مقادیر در پایگاه‌های داده‌ای بررسی و تکمیل شوند.
در سازمان‌های مختلف انواع داده‌ها مانند اعداد، تاریخ، ساعت و برخی دیگر از اقلام داده‌ای با فرمت‌های متفاوتی ارائه شده است. به‌عنوان مثال در برخی منابع، مقدار متغیر (شاخص) مدرک تحصیلی کارشناسی و در برخی دیگر لیسانس یا مقدار شاخص سن به‌صورت عدد (مثلا 35) یا تاریخ تولد (مانند 1362/12/06) درج شده است. بنابراین استانداردسازی انواع داده‌ها یکی از مهم‌ترین عملیات در پاک‌سازی داده‌ها به‌شمار می‌آید.
همچنین برخی داده‌های اشخاص در پایگاه‌های داده‌ای تکراری است یا نامرتبط محسوب می‌شوند که باید این داده‌ها شناسایی و در نهایت حذف شوند. بنابراین در این مرحله داده‌ها جهت تحلیل و مدل‌سازی آماده و مورد استفاده قرار می‌گیرند.

تحلیل و مدل‌سازی داده‌ها

پس از آماده‌سازی داده‌ها، برای رسیدن به نمره اعتباری دقیق‌تر و همچنین دیگر خروجی‌های مورد نظر، متغیر (شاخص)های مناسب تعریف یا اصلاح می‌شوند. بدین ترتیب جهت مدل‌سازی داده‌ها در سیستم اعتبارسنجی برای رسیدن به خروجی مناسب، از تکنیک‌های گوناگونی می‌توان استفاده کرد. تاکنون مدل‌های مختلفی پیرامون اعتبارسنجی مشتریان در سراسر جهان معرفی شده که در دو دسته مدل‌های پارامتریک و ناپارامتریک جای می‌گیرند که مهم‌ترین و پرکاربردترین آنها در ادامه فهرست شده‌اند:

1- مدل‌های اعتبارسنجی پارامتریک

مدل رگرسیون خطی؛
مدل‌های پروبیت و لاجیت؛
مدل مبتنی بر تحلیل ممیزی.

2- مدل‌های اعتبارسنجی ناپارامتریک

شبکه‌های عصبی مصنوعی؛
سیستم‌های خبره؛
مدل سلسله‌مراتب تحلیلی؛
مدل برنامه‌ریزی ریاضی؛
مدل نزدیک‌ترین همسایه؛
الگوریتم درخت طبقه‌بندی.

با توجه به جنبه کیفی برخی مدل‌های معرفی‌شده و به‌دلیل بهره‌مندی از نقاط قوت و پوشش نقاط ضعف مدل‌ها، پیشنهاد می‌شود که رویکردی ترکیبی از روش‌های اعتبارسنجی جهت رسیدن به نتایج مطلوب و کاربردی در این سامانه مورد استفاده قرار گیرد.

به‌عنوان مثال با بررسی‌های انجام‌شده و با توجه به کاربرد و ویژگی‌های روش شبکه‌های عصبی مصنوعی مانند شناسایی الگوها، دسته‌بندی اطلاعات و همچنین یادگیری در حین فرایند اعتبارسنجی، به نظر می‌رسد که در سیستم اعتبارسنجی بهتر است از شبکه‌های عصبی، به‌عنوان یکی از روش‌های اصلی در کنار روش‌های دیگر مانند روش‌های آماری جهت رسیدن به خروجی‌های مطلوب همچون دسته‌بندی مشتریان خوش‌حساب و بدحساب، تعیین میزان نرخ نکول، تشخیص مشتریان وفادار و غیره استفاده شود.

نمایش داده‌ها

پس از تحلیل داده‌ها، ایجاد مدل داده‌ای مناسب و به‌کارگیری آن به‌صورت الگوریتم محاسباتی نمره و رتبه اعتباری در سیستم اعتبارسنجی، می‌بایست نتایج به‌دست‌آمده از عملکردهای مالی و غیرمالی در قالب گزارش جامع به اشخاص نمایش داده شود. همچنین متناسب با نیاز کاربران (سازمانی، حقیقی) گزارش اعتبارسنجی می‌تواند بر بستر اپلیکیشن، وب‌سایت و حتی پنل سازمانی ارائه شود.

در گزارش اعتبارسنجی، برخی اطلاعات جهت ارائه به کاربر الزامی است که مهم‌ترین این موارد در اینجا فهرست شده‌اند:

ارائه اطلاعات هویتی، مشخصات تماس، آدرس؛
ارائه نمره و رتبه اعتباری و توضیحات و دلایل مربوط به کسب این نمره و رتبه؛
دسته‌بندی اطلاعات مالی و غیرمالی؛
نمایش قراردادهای جاری، وضعیت وثایق، نحوه بازپرداخت اقساط در گذشته؛
ارائه سوابق و وضعیت منفی شخص (اعم از حقیقی و حقوقی) در دوره‌های زمانی مختلف، به‌عنوان مثال سابقه چک برگشتی، وضعیت منفی قراردادها شامل بدهی‌های بیمه‌ای شخص و اقساط معوق‌شده از تسهیلات بانکی؛
وضعیت ضامنین در قراردادها؛
وضعیت تعهدات آتی مشتری.

جهت خوانایی و درک بهتر کاربر از گزارش اعتبارسنجی به استفاده از روش‌های عینی‌سازی داده‌ها (Data Visualization) مانند به‌کارگیری نمودارها، چارت‌ها و جداول نیاز است. بنابراین برای تولید گزارش حرفه‌ای، بسیاری از مهندسان داده از نرم‌افزارهای تولید گزارش متناسب با زیرساخت‌های فنی خود بهره می‌برند. از ابزارهای مهم و کاربردی در فضای عینی‌سازی داده‌ها می‌توان به نرم‌افزارهای زیر اشاره کرد:

Microsoft Power BI؛
Tableau؛
Qlick View.

توسعه سیستم اعتبارسنجی

از آنجایی که سیستم اعتبارسنجی از منابع اطلاعاتی گوناگونی همچون سازمان‌های دولتی و غیردولتی مانند بانک‌ها و مؤسسات مالی و اعتباری، بیمه‌ها، وزارتخانه‌ها، شرکت‌ها و نهادهای ذی‌ربط و همچنین استارتاپ‌های مالی بهره می‌برد، پس از هرگونه تغییری که در داده‌های منابع مذکور رخ دهد، نیاز است تا سیستم اعتبارسنجی داده‌های خود را به‌روزرسانی کند تا در مراجعه‌های بعدی کاربران، گزارش اعتبارسنجی به‌روزی را به ایشان ارائه دهد. از طرفی جهت استفاده از اطلاعات مالی و غیرمالی بیشتر و ارائه خروجی‌های بهینه و به‌روز، به افزودن منابع اطلاعاتی بیشتر در سیستم نیاز است.

بنابراین جهت توسعه سیستم اعتبارسنجی، دو رویکرد اصلی به‌روزرسانی و افزودن داده‌های بیشتر برای محاسبه نمره و رتبه اعتباری دقیق‌تر جزء الزامات است. بدین ترتیب می‌توان انتظار داشت با استفاده از علم داده، چالش مدیریت بهینه داده‌ها در حوزه اعتبارسنجی تا حد قابل قبولی مرتفع‌ شده و خروجی‌های مطلوبی حاصل شود.

یادداشت

اعتبارسنجی, تسهیلات, شرکت داتیس آرین قشم (داتین), علوم داده

راه پرداخت

اتاق خبر راه پرداخت مرجع پوشش روزانه اخبار و روندهای بانکداری، پرداخت، فین‌تک، بورس، بیمه و اقتصاد دیجیتال ایران است. تحریریه راه پرداخت از سال ۱۳۹۰ به‌صورت مستمر تحولات این اکوسیستم را رصد و تحلیل کرده و محتوایی تخصصی، دقیق و به‌روز برای مخاطبان خود تولید می‌کند.

دیگر مطالب نویسنده