MODEL VALIDATION
MODEL VALIDATION
Sự thật là các dự án mô hình đánh giá rủi ro là các loại mô hình có lịch sử rất lâu rồi, bên nào cũng có dùng rồi, phương pháp và công dụng nó tương đối là rõ ràng và chuẩn chỉnh. Các mô hình rủi ro là các mô hình mang tính tuân thủ, bên cạnh việc phục vụ dự đoán dự báo khách hàng vỡ nợ thì đặc biệt AScore nó còn là bước bắt buộc trong quy trình cho vay và có kiểm toán kiểm tra sau này. Hiện tại phát sinh nhiều các sản phẩm cho vay mới: vay nhanh, tín chấp, vay trên các kênh số,... nên việc sử dụng các mô hình chấm điểm nó đẩy lên yêu cầu rất cao về độ chính xác, tốc độ, hiệu năng.
Rất hiếm khi bạn mới có cơ hội join vào 1 dự án xây dựng từ đầu, chủ yếu là kiểm định, sửa chữa, tối ưu từ nền móng các mô hình đã có. Hoặc có những bên mua luôn sử dụng thẻ điểm của các bên thứ 3.
Nhiều bên tuyển dụng riêng hẳn các vị trí Model Validation để đánh giá hiệu quả của các mô hình thẻ điểm này.
Bạn là Data Science có sẵn 1 bộ skill rất fit với các vị trí này, nếu mang ngôn ngữ của Data Science apply các vị trí trên thì không ổn. Nó có 1 sự lệch pha nhẹ. Tôi note lại 1 số chỉ số quan trọng thường được dùng để đánh giá hiệu quả mô hình rủi ro.
1. Hệ số GINI
Khi xây dựng 1 mô hình phân loại (Classification) thì trong các khóa học về Machine Learning mọi người được giới thiệu 1 số các chỉ tiêu đánh giá hiệu năng của mô hình :
Confusion Matrix
Accuracy
Precision/ Recall/ F1 Score
AUROC
...
Tuy nhiên, bộ phận rủi ro lại thường sử dụng hệ số GINI hoặc AR (như nhau) để đánh giá sức mạnh phân loại của mô hình.
GINI được hiểu tương tự như hệ số AUC, có 1 cái khác là trong các paper về kinh tế và quy định IRB của Basel hay sử dụng đường cong CAP thay vì đường cong ROC (chỉ khác phần diện tích tính toán) , thói quen thôi còn không khác biệt nhiều.
Mọi người đều biết 1 bank sẽ phải ghim tỷ lệ nợ xấu (NPL) theo thông lệ là <=3% , cho nên nhãn khách hàng Good/Bad cực kỳ mất cân bằng khi xây dựng mô hình. VD không phải làm gì cũng có Accuracy 97%, mô hình quá tốt :v
GINI không thực sự quan tâm mô hình đoán trúng khách hàng vỡ nợ bao nhiêu % mà nó quan tâm nhiều tới thứ tự của các hạng điểm rủi ro.
Mục đích ở đây đó là mong muốn mô hình hiệu chỉnh theo hướng ép các khách hàng có nguy cơ vỡ nợ cao dạt hết xuống những rank đáy (rủi ro cao).
Nếu khách hàng xấu rải đều ở mọi rank (rank cao cũng có nợ xấu, rank thấp cũng có nợ xấu), GINI thấp, mô hình vứt đi.
GINI = Diện tích phần tô màu / Diện tích kẹp giữa Đường Hoàn Hảo và Đường Ngẫu Nhiên
Có 1 điểm lưu ý về các ngưỡng đánh giá GINI, nếu ở mô hình Scorecard thì GINI >= 0.3 là đã có thể sử dụng, cao quá 0.7 thì cũng không ổn thì ở mô hình cảnh báo sớm EWS, Fraud GINI có thể đẩy lên 0.7-0.9
Cảnh báo sớm tương tự như các mô hình phân loại rủi ro gian lận, nghĩa là nếu để sự kiện xảy ra rồi mới đánh giá được khách hàng xấu thì nó không còn nhiều ý nghĩa. Sẽ cân nhắc sử dụng các biến có tín hiệu rủi ro mạnh trong ngắn hạn.
Do đó, khi tinh chỉnh điểm cắt (Cut-off Score) cho EWS sẽ luôn kéo điểm cắt lên cao để "vét" bằng sạch những người có dấu hiệu khả nghi, chấp nhận việc vợt nhầm cả một số người tốt.
2. Hệ số K-S (Kolmogorov-Smirnov)
Bên cạnh GINI thì hệ số KS cũng hay được sử dụng. Cặp GINI-KS hay đi kèm với nhau
KS đo khoảng cách lớn nhất giữa hai đường phân phối thực nghiệm của khách hàng tốt và khách hàng xấu nên có thể phản ánh được khả năng phân biệt của mô hình.
3. PSI (Population Stability Index)
PSI được dùng để kiểm tra lại sức mạnh của mô hình. Nghĩa là khi mô hình đã chạy tốt trên tập dữ liệu trước đây, nhưng khi đem ra thực tế hành vi khách hàng đã thay đổi, PSI sẽ giúp trả lời câu hỏi là tập khách hàng hiện tại có giống tập khách hàng lúc xây mô hình hay không ?
PSI đo lường khoảng cách giữa Phân phối dữ liệu thực tế so với Phân phối dữ liệu lúc huấn luyện. Hay hiểu đơn giản là xem tại các hạng rủi ro, phân bổ tỷ lệ có giống như lúc ban đầu hay nó đã có 1 độ trôi nhất định.
Trên thực tế, công thức của PSI khá giống như giá trị thông tin (IV) chỉ là thay thế các nhãn “Tốt” và “Xấu” bằng “Mẫu mới” và “Mẫu cũ”.
Lưu ý phân bổ hạng ở đây là phân bổ số khách hàng chứ không phải phân bổ nợ xấu. Thông thường thì tập khách hàng siêu đẹp hoặc siêu xấu đương nhiên chiếm tỷ trọng thấp.
4. HHI (Herfindahl-Hirschman Index)
Trong bank, rủi ro lớn nhất không phải là vài khách hàng cá nhân bùng nợ, mà là rủi ro mang tính dây chuyền. Ví dụ như BĐS, nếu thị trường đó đóng băng, ngân hàng sẽ lập tức đối mặt với nguy cơ sụp đổ vỡ nợ hàng loạt.
HHI được dùng để đánh giá mức độ tập trung của tổng thể, ví dụ 1 chút đánh giá HHI xem khách hàng tập trung chủ yếu ở hạng điểm nào.
Tương tự như PSI, HHI cũng quan sát phân bổ số khách hàng chứ không phải phân bổ nợ xấu.
Nếu mà người làm model chịu áp lực của phía kinh doanh cố tình ép điểm để dồn khách hàng vào các hạng giữa (Hạng 4, 5, 6) nhằm lách các quy định phê duyệt khó khăn ở các hạng đáy thì xem HHI sẽ bị soi ra ngay.
5. MAPE (Mean Absolute Percentage Error)
MAPE - Sai số phần trăm tuyệt đối trung bình, MAPE quy đổi mọi sai số về dạng %
Rất đơn giản MAPE dùng để đo lường việc dự báo khác gì so với thực tế.
Có nhiều phương án sử dụng MAPE như việc đo tỷ lệ Bad thực tế so với dự báo trong từng hạng, hoặc so sánh LGD và EAD trên thực tế và dự tính.
6. Anchor Point (Test)
Phần này có thể rất dễ nhầm lẫn là điểm Anchor Point khi xây mô hình.
Ví dụ Khi xây model chạy ra 1 xác suất vỡ nợ (PD), ví dụ là khách hàng có xác suất vỡ nợ là 5%. Vậy là cao hay thấp ??? Cần có 1 hệ quy chiếu điểm cho dễ đo. Anchor Point là một mốc điểm số chuẩn tự quy ước sẽ tương ứng với một tỷ lệ Tốt/Xấu (Odds Ratio) cố định. Ví dụ thông thường quy ước tỷ lệ 50 người Tốt mới có 1 người Xấu (Odds = 50:1), thì hệ thống phải chấm đúng 600 điểm -> số 600 này là Anchor Point
Nhưng Anchor Point khi kiểm định mô hình nó là 1 dạng test Điểm neo Xác suất.
Mục tiêu đó là kiểm tra Tính trên tổng thể toàn bộ danh mục cho vay, Ngân hàng đang đánh giá rủi ro (PD) cao hơn hay thấp hơn so với thực tế?
Ví dụ:
Trung bình nợ xấu của Bank trong dài hạn khoảng 10 năm là 1.2%. Năm nay covid, thực tế nợ xấu lên 2.2%, model PD xây ra chạy nợ xấu tổng ra khoảng 1.5%, liệu mô hình này có còn đúng với còn dùng được không ?
Phần này không có đúng và không có sai, con số trả ra để tham khảo định hướng để có chính sách nới lỏng hay thắt chặt
Nếu lạc quan thấy hiện tại mô hình đang báo cáo rủi ro thấp hơn thực tế. Nếu quá lạc quan Bank tự tin phê duyệt cho vay ào ạt, áp dụng lãi suất thấp thì khả năng cao sẽ bị tăng nợ xấu
Nếu bi quan thấy hiện tại mô hình đang báo cáo rủi ro cao hơn so với trung bình 10 năm nay, Bank lo lắng sẽ siết cho vay reject bớt các khách hàng hơi tiềm ẩn lưng chừng hoặc tăng lãi suất lên, có thể sẽ bị mất thị phần.
Tùy thuộc vào nhận định thị trường, nếu thấy tổng thể năm khách hàng xấu nhiều hơn bình thường nhưng không chênh lệch quá nhiều so với thị trường, có thể cân nhắc cộng điểm cho toàn bộ danh mục.
Ví dụ như covid xấu nhiều quá thì cho phép khách hàng xấu 1 chút vẫn được phê duyệt.
7. Curve shape
Mô hình PD không được phép gãy rank. Nghĩa là đường xác suất vỡ nợ luôn phải hướng dốc lên. Khách hàng hạng Tốt bắt buộc phải có tỷ lệ nợ xấu thấp hơn khách hàng hạng thấp hơn.
Khi đánh giá Nợ xấu của mô hình PD với Nợ xấu thực tế (Adjusted ODR), phần nợ xấu thực tế này được phép kẻ ra một Dải sai số (Lower Bound và Upper Bound) dựa trên Độ lệch chuẩn (Standard Error - SE). Có thể thắt chặt hoặc nới lỏng nhưng thông thường chọn khoảng xác suất đúng 95%.
Phân bổ Nợ xấu của mô hình chạy trong Rải băng sai số này thì được gắn và trạng thái Aligned- Đạt
Tôi không có nhiều kinh nghiệm trong mảng kiểm định rủi ro này. Đây là 1 mảng khó. Việc đọc được kết quả và có hướng tối ưu nó yêu cầu nhiều kinh nghiệm và hiểu business.
Người xây được model chưa chắc đã kiểm định đánh giá tốt, nhưng người biết làm kiểm định tốt hiểu rất rõ việc xây model