第114章 進組(第一更)(1 / 2)

第117章?進組(第一更)

“你的這組數據裡,重複值是怎麼處理的?”

程風推了推眼鏡,偷偷抬頭看了看方豫,訥訥的問道。

這是體育生吧?這是體育生吧?這是體育生吧?

體育生都開始建模了嗎?

方豫一進門,接近一米九的身高和壯碩的身材就帶給程風很大的視覺壓力。

等方豫坐下後,程風更是感覺到方豫身上有種若有若無的威圧感,讓他有一種在麵對導師時的感覺。

方豫隻當程風是個書呆子學長,沒太在意他的異常。

方豫不知道的是,生命本質的連續提升,讓普通人麵對方豫時,會產生一些低位生物麵對高位生物的畏懼。

現在方豫還隻是一個二級法師,等到了更高等級時,這種狀況會更加明顯。

很多不想放棄人類正常社交生活的奧術法師,就會選擇使用類似“溫和之力”手環的道具或奧術封印壓製住自己的上位者氣息。

聽到程風的問題,方豫露出思考的表情:“用pandas的dupted方法返回一個布爾型Series,可以識彆重複值,然後用drop函數或keep函數刪除就好了。”

“如果是特征重複的,就要用corr方法計算特征相似度,用method參數指定肯德爾或斯皮爾曼相關係數。”

聽到方豫的回答,程風不由得一愣,這完全出乎他的意料。

雖然程風問的隻是一些基礎的內容,但能獲得如此清晰的回答,也是完全出乎程風自己的意料。

程風仍舊不太敢看方豫,盯著屏幕:“那離群值你又是怎麼識彆的?我看到你用Winsorizing方法調整了離群值,為什麼用winsorizing而不是用眾數替代或刪除?”

方豫又思考了一下:“對於數值型數據,用箱線圖和直方圖進行識彆,當然也可以用describe函數生成的描述信息識彆,分類數據,用條形圖識彆,還有一部分正態分布數據用3σ準則進行識彆。”

“至於說處理,因為刪除離群值會讓樣本數顯著減少,我又不了解後續算法對離群值是否敏感,用眾數替代如果掩蓋了數據的變異性可能會對結果產生影響,所以采用Winsorizing方法調整了離群值。”

程風看了看方豫,半天沒說話。

至少在大二的時候,他肯定是沒這個水平的。

彆說方豫隻是金融學專業,就算是數學專業的,大二時也不過剛剛開始接觸一些初級的數據結構和基礎編程。最多也就是剛剛開始接觸數據清洗和數據操縱的相關內容。

很多人直到大四,甚至到了研究生進組,還沒搞明白到底如何評估離群值,說不準估著估著,把正常值都當成離群值清洗了。

而方豫剛剛對這兩個基礎問題的回答,雖然簡練,但很明顯已經熟練掌握了清洗數據的相關技能。

更重要的是,他不僅能夠區分處理重複值和離群值的不同方法,還能夠討論不同統計方法的適用場景,並提供具體的代碼實現。…。。

這可就不是一般學生能掌握的了,除非他早就深度參與過一些數據建模的項目。

伱特麼玩我呢吧?你這種學金融學的少爺,把應用數學學這麼好乾嗎?有必要嗎?

你們不是應該畢業拚資源去嗎?乾嘛搶我們這些小鎮做題家的飯碗?

而且,你一個金融專業的,是怎麼把數學學這麼好的?平時不上專業課的嗎?

經濟學和金融數學是數學和物理專業的自留地你不知道嗎?

你也不看看,校內的這些教授,哪個本科不是讀的數學和物理?

你一個經濟學院的,跟著湊什麼經濟學的熱鬨啊。

難道這就是真天才和小鎮做題家的差彆嗎?

不,你們最大的差彆是方豫有掛。

“學長?”方豫疑惑的叫了聲程風。

剛剛的回答中,技術層麵的答案大多數都是柚子通過埃瑟朗之核傳遞過來的,不過方豫還是往裡麵補充了一些觀點性的東西。

“方豫學弟,我沒有……”程風剛說了一半,就聽到實驗室門口傳來一個聲音。

“假如後續采用線性回歸模型,你準備如何處理這組數據中的離群值和特征相似度?”方豫一回頭,就看到童永山正從門口走進來。

而在童永山身後,還有一名身穿旗袍的二十六七歲年輕女子。

女人不算太漂亮,方豫打分的話,長相最多也就能給她打70分。

身材倒是還不錯,能有80分。

但這風情,可是90分的水平。

“老師!師姐。”

“院長好。”

程風趕緊從椅子上站起來,向導師問好。

而方豫,也站起身,禮貌的對自家院長打了個招呼,隨後又向那名被程風稱呼為師姐的年輕女子點了點頭。

旗袍女抿著嘴溫婉一笑,秋波流轉,眼神豔瀲,也沒和方豫做自我介紹,嫋嫋婷婷扭動著腰肢,走到茶水間,開始做咖啡。

上一章 書頁/目錄 下一頁