• 風控特征—時間滑窗統計特征體系

    發布時間:2021-03-08 發表于話題:無視多頭借貸的下款app 點擊:198 當前位置:龍發金融 > 科技 > 軟件 > 風控特征—時間滑窗統計特征體系 手機閱讀

    風控業務背景

    俗話說,路遙知馬力,日久見人心。在風控中也是如此,我們常從時間維度提取借款人在不同時間點的特征,以此來判斷借款人的風險。在實踐中,這類特征通常會占到80%以上。由于是通過時間切片和聚合統計函數來構造,因此一般被稱為時間滑窗統計特征。

    本文的主要意義在于:

    對于需要入門風控建模的同學而言,希望能幫助你快速上手特征工程。對已經有特征工程經驗的同學而言,希望能帶給你一些風控業務理解。目錄
    Part 1. 觀察期、觀察點及表現期
    Part 2. RFM模型介紹
    Part 3. 時間滑窗數量統計類特征
    Part 4. 時間滑窗占比統計類特征
    Part 5. 時間滑窗趨勢統計類特征
    Part 6. 時間滑窗穩定性衍生特征
    Part 7. 第三方多頭借貸變量衍生
    Part 8. 總結
    致謝
    版權聲明
    參考資料

    Part 1. 觀察期、觀察點及表現期

    理解這三者的概念是風控建模前期樣本準備的基礎,在此簡單介紹。

    觀察點(Observation Point:并非是一個具體的時間點,而是一個時間區間,表示的是客戶申請貸款的時間。在該時間段申請的客戶可能會是我們用來建模的樣本 。(提示:為什么用“可能”這個描述,因為還需剔除一些強規則命中的異常樣本,這部分樣本將不會加入建模)觀察期(Observation Window):用以構造特征X的時間窗口。相對于觀察點而言,是歷史時間。觀察期的選擇依賴于用戶數據的厚薄程度。通常數據越厚,可提取的信息也就越全面、可靠。表現期(Performance Window):定義好壞標簽Y的時間窗口。相對于觀察點而言,是未來時間。由于風險需要有一定時間窗才能表現出來,因此信貸風險具有滯后性。表現期的長短可以通過Vintage分析和滾動率分析來確定,在此不做展開。圖 1 - 觀察期、觀察點及表現期

    表現期越長,信用風險暴露將越徹底,但意味著觀察期離當前將越遠,用以提取樣本特征的歷史數據將越陳舊,建模樣本和未來樣本的差異也越大。反之,表現期越短,風險還未暴露完全,但好處是能用到更近的樣本。

    Part 2. RFM模型介紹

    RFM模型最早是用來衡量客戶價值和客戶創利能力。理解RFM框架的思想是構造統計類特征的基礎,其含義為:

    R(Recency):客戶最近一次交易消費時間的間隔。R值越大,表示客戶交易發生的日期越久,反之則表示客戶交易發生的日期越近。F(Frequency):客戶在最近一段時間內交易消費的次數。F值越大,表示客戶交易越頻繁,反之則表示客戶交易不夠活躍。M(Monetary):客戶在最近一段時間內交易消費的金額。M值越大,表示客戶價值越高,反之則表示客戶價值越低。

    Part 3. 時間滑窗數量統計類特征

    對于不同數據源,我們可以統計得到不同內容的RFM特征。例如:

    運營商數據:用戶每天的通話記錄次數、時長等。信用卡賬單或電商交易數據:用戶每天的交易筆數、金額等。埋點行為數據:用戶每天在某頁面的瀏覽量、點擊量等。設備數據:用戶每天的登陸、活躍次數。

    為了擴展更多的維度,我們常會維護一個分類名單庫(或分類指標體系),可參考《信貸風控中的名單庫挖掘、使用和維護》。接下來,我們就可以繼續細分類目來統計。例如:

    信用卡交易數據:用戶每天在母嬰用品、交通出行、餐飲、美容美發等交易筆數、金額。設備App數據:用戶手機上安裝的借貸類、生活類、運動類、音樂類等App的數量。

    以設備App數據為例,我們將統計得到如下數據:

    圖 2 - 截止下單日,用戶每天統計的App數量

    需要指出的是,我們需要結合業務去分析數據,數據因為業務才具有溫度

    敲黑板劃重點1——了解數據采集邏輯

    特征是從原始數據中提取的信息,如果數據源采集上就存在問題,那么所構造的特征也必然有問題。

    對于一些采集客觀、可靠的數據源而言,分析過程就相對簡單。例如,如果用戶某天沒有打電話,那么這天的通話次數為0,這是因為運營商客觀保留了用戶的原始數據。這時候,0的含義就是用戶在當天未有通話行為。當然,對于用戶借用他人手機打電話這種情況,則不在考慮范圍內。

    對于依賴于用戶登陸、活躍行為才能采集到的數據,就更需要結合采集方式來分析。例如,在設備App數據中,如果某天統計得到用戶安裝的借貸類App為0。這個數字后面可能有哪些原因呢?可能的猜想有:

    1. 統計函數原理:用戶這一天并沒有使用手機,導致數據采集上缺失。但SQL中count()函數在統計時會count(null) = 0,也就是說會將缺失值填充默認值為0。2. 用戶使用行為:用戶使用了新安卓手機,數據采集正常,但確實沒安裝借貸類App,因此用戶維度統計值為0。或者,用戶使用了老安卓手機,但主動卸載了所有借貸類App。3. 數據采集技術:用戶使用了蘋果手機,由于無法采集到App數據,哪怕手機上實際安裝了借貸App,但統計值也為0。4. 變量構造邏輯:雖然手機上安裝了借貸類App,但并不在你的借貸App名單庫中,因此匹配數為0。

    那么到底是哪種原因呢?對于這些猜想,我們可以從以下維度加以佐證:

    用戶當天是否活躍?用戶使用設備是否出現新的UMID(設備ID)?用戶使用設備的平臺(iOS / Android)?名單庫是否很久沒有維護?

    這也就是需要結合業務經驗對多個特征交叉衍生新特征的原因,這種特征具有強業務含義,因此往往能發揮出更好的效果。

    敲黑板劃重點2——定義觀察期有效性

    我們還需考慮觀察期的有效性,以及不同用戶的數據厚薄程度

    比如,如果一個用戶手機號網齡才6個月,那么在統計最近6個月、12個月、24個月的通話記錄次數時,可想而知這幾個變量的數值都是一樣的。

    同理,對于手機號網齡分別是6個月的新用戶和6年的老用戶而言,“最近12個月的通話記錄次數”這種特征是不公平(unfair)的。兩者的數據厚薄程度不同,新用戶的觀察期實際上只有6個月,而老用戶的觀察期是12個月。

    為了區分這種情況,有以下建議:

    1. 定義觀察期有效性,在時間滑窗統計時,更需要有意識地留出有效的觀察期。
    2. 定義分群變量。比如將數據有效期只有6個月和12個月的用戶分成2個群體。

    Part 4. 時間滑窗占比統計類特征

    在得到數量統計類特征后,我們繼續衍生占比(ratio)類特征,一方面可用來去除量綱影響,另一方面衡量用戶的行為偏好。例如:

    最近N個月內母嬰類消費次數占比 = 最近N個月內母嬰類消費次數 / 最近N個月內消費次數

    如果用戶在某類消費次數或者金額占比上有明顯的傾向,我們就更能掌握用戶的消費行為偏好和其他屬性。比如,如果用戶的母嬰類消費支出占比較大,說明用戶是有娃一族,風險也就相對更低。

    Part 5. 時間滑窗趨勢統計類特征

    由于一個人的行為是會動態變化的,衡量這種變化趨勢對于風險識別也很重要。例如,對于借款人的多頭借貸風險,如果多頭指標呈現逐步上升的趨勢,我們就覺得多頭負債風險在上升。借款人往往會采取“拆東墻補西墻”的措施,如果哪一天連東墻都找不到拆,這個擊鼓傳花的游戲也就game over。

    我們一般計算斜率(slope)來衡量這種變化趨勢。例如:

    多頭借貸趨勢 =(當月的多頭借貸次數 - 上個月的多頭借貸次數)/ 上個月的多頭借貸次數

    Part 6. 時間滑窗穩定性衍生特征

    在不同時間點統計的數量特征基礎上,我們可以繼續衡量用戶行為的穩定性。

    在數學上,我們通常可以用變異系數(Coefficient of Variation,CV來衡量這種數據波動水平。變異系數越小,代表波動越小,穩定性越好。

    變異系數的計算公式為:變異系數 C·V =( 標準偏差 SD / 平均值Mean )× 100%

    例如,對于借貸次數,我們可以計算CV來衡量借貸行為的穩定性。

    另外需要注意的是,對于持續多頭借貸的老哥,其實風險并不會很高,因為有持續穩定的借貸渠道。但對于集中性爆發的多頭借貸行為,我們就更需要加以關注。這背后的動機,可能是手頭突然緊張(比如網賭輸錢),可能是破罐子破摔,可能是前期潛伏突然爆發,可能是行業大環境影響。

    Part 7. 第三方多頭借貸變量衍生

    據筆者所知,目前市場上所提供的第三方多頭借貸數據通常包含以下變量:

    借款人最近7天、1個月、3個月、6個月、12個月、18個月、24個月的某類平臺借貸次數

    某類平臺包含:消費金融公司、互聯網金融公司、銀行信貸、數據風控公司等等。

    根據這些原始變量,我們可以按照以上方法論衍生一些新變量。例如:

    如果以“最近7天的多頭借貸次數 / 最近1個月的多頭借貸次數”,我們便可以判斷借款人的時間維度上的借貸行為分布。這個變量數值越大,代表近期借貸集中,短期風險更大。

    如果以“最近1個月的銀行信貸借貸次數 / 最近1個月的多頭借貸次數”,我們便可以判斷借款人的在借貸平臺維度的分布。這個變量數值越大,可以認為越趨于正面。

    在使用這些變量時,我們還需考慮第三方數據公司所接入的機構數的變化。也就是說,如果接入機構數在持續增長,那么整體人群的多頭借貸指數也可能往高分偏移。

    Part 8. 總結

    本文系統總結了時間滑窗統計特征的構造方法論,以及相應的業務理解。總的來說,我們先統計數量,再從占比、趨勢、穩定性、集中性等維度去衍生。當然,最重要的一點還是多結合業務去思考。

    致謝

    感謝參考資料的作者帶給我的啟發。本文尚有理解不當之處,在此拋磚引玉。

    版權聲明

    歡迎轉載分享請在文章中注明作者和原文鏈接,感謝您對知識的尊重和對本文的肯定。

    原文作者:求是汪在路上(知乎ID)
    原文鏈接:https://zhuanlan.zhihu.com/p/85440355/

    ??著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處,侵權轉載將追究相關責任

    參考資料

    felix:JDATA京東算法大賽入門(score0.07+時間滑動窗口特征+xgboost模型)?zhuanlan.zhihu.com高階用戶運營 | 如何用RFM模型實現用戶分層管理(附案例)|推薦收藏?www.douban.com「回顧」自動化特征工程和自動建模在風控場景的應用?mp.weixin.qq.com

    關于作者

    在某互聯網金融公司從事風控建模、反欺詐、數據挖掘等方面工作,目前致力于將實踐經驗固化分享,量化成長軌跡。歡迎交流

    本文來源:http://www.gjqj.com.cn/info/280654.html

    標簽組:[時間窗

    相關APP下載

    熱門話題

    科技推薦文章

    科技熱門文章

    成人视频免费在线观看 - 视频 - 在线观看 - 影视资讯 - 品赏网