這個就比較紮心瞭。

不過更紮心的,可能是不僅教資沒過,還因為曬圖泄露瞭個人信息。

你可能覺得奇怪,大傢明明把“姓名、身份證號、準考證號”等個人敏感信息都打上瞭馬賽克,為什麼還會泄露信息?難不成還可以恢復?

可能還真的可以!

同樣在昨晚,GitHub上一個AI項目沖上瞭熱榜,截止目前已經收獲瞭8.4K星標。

這個AI的主要功能就是:去除馬賽克,還原字符密碼。

AI破解『密碼』

相信不少人都認為,隻要打上瞭馬賽克,就不會泄露敏感信息,因此,我們在朋友圈、微博等公開社交平臺,經常能夠看到打瞭馬賽克的結婚照、證書照、成績照等。

但事實上,無論是圖像、文字還是字符,AI還原馬賽克已經不是什麼難事瞭。

最近一位名為Sipke Mellema的程序員便開發瞭這樣一款工具。他說,一些公司在內部文檔中經常會使用像素化的方式顯示密碼,但沒有工具可以從這樣的圖像中恢復密碼,因此便創建瞭一個。

我們先來看下效果圖:

其中,第一行是被像素化後的密碼序列,被狠狠地打瞭一層馬賽克,看不出一點原始痕跡。

第二行是經過AI還原後的密碼,可以看到密碼序列基本被還原瞭,而且準確度很高,隻有稍加推理就能得到第三行的原始密碼。

那麼,這個“不可思議”的AI還原技術是如何實現的?

我們知道,馬賽克是圖像像素化處理的一種手段,它通過將影像特定區域的色階細節劣化並打亂色塊,達到一種模糊圖像的效果。

像素化在許多領域被用於模糊圖像信息,其中線性盒濾波器( Linear Box Filter)是一種較為普遍的處理算法。盒子濾波也稱為方框濾波,它采用一個像素框,用該框中所有像素的平均值覆蓋像素。

像這樣,表情圖像被分為四個色塊,每個色塊被色塊平均值所覆蓋,最終形成瞭像素化表情,由於原始信息丟失,因此不能直接反轉濾波器。

Mellema正是利用瞭盒子濾波器,提出瞭AI還原算法-Depix。

線性盒濾波器是一種確定性算法,對相同的值執行像素化通常會產生同樣的像素塊(Block),那麼反之,使用相同位置的塊對相同文本執行像素化,是否也會得到同樣的塊值?

Mellema嘗試通過像素化文本來找出匹配的模式,結果發現確實如此。

具體來說,Mellema把每個塊或塊組合看作一個子問題。該算法要求在相同背景上,具備相同的文本大小和顏色,因此他沒有選擇創建潛在字符的查找表,因為現代文本編輯器可以添加色調、飽和度和亮度,也就是說存在海量潛在字符。

在處理字符方面,Mellema使用待處理字符的德佈魯因序列(De Bruijn sequence),將其粘貼到相同的編輯器中,然後截圖。該截圖可用作相似塊的查找圖像,例如:

德佈魯因序列包括待處理字符的所有雙字符組合,這一點很重要,因為一些塊會重疊兩個字符。

要找出合適的匹配需要搜索圖像中具備相同像素配置的塊。在測試中,Depix 算法無法找到字符“o”,因為在搜索圖像中,搜索塊還包含下一個字母“d”,但在原始圖像中這裡有個空格。

顯然,在創建字符的德佈魯因序列時,如果加上空格會帶來同樣的問題,即算法無法找到後續字母恰當的塊。有空格又有字母的圖像需要更長的搜索時間,但結果也更好。

對於大多數像素化圖像而言,Depix可以找到塊的單個匹配結果。它先假設這些塊是正確的,然後將周圍多個匹配塊進行比較,使其與像素化圖像中的幾何距離相同,並假設這些匹配也是正確的。

在正確的塊沒有更多幾何匹配後,Depix 直接輸出所有正確的塊。對於多匹配塊,Depix 將輸出所有匹配的平均值。雖然 Depix 的輸出並不完美,但已經算不錯瞭。

下圖展示瞭包含隨機字符的測試圖像的去像素化結果,大部分字符被正確讀取:

最後需要說明的是,Mellema開發這個AI項目並不是為瞭竊取信息,而是利用ECB和明文攻擊(Known-Plaintext Attacks)的模式,提高信息保護技術。在他看來,不知道如何破壞當前的保護模式,是信息安全中的常見陷阱。

AI還原『人臉圖像』

如前所述,除瞭字符密碼,AI還原人臉照也不在話下。

今年6月中旬,杜克大學推出AI算法—PULSE,可以將低分辨率的人臉圖像放大64倍,即使是打瞭馬賽克,面部的毛孔、皺紋,頭發也都能變得清晰可見。

不過,被還原的人臉是一全新的虛擬面孔,並不是真實存在的。其中眼睛、鼻子、嘴巴等五官是AI在原始圖像的基礎上,自行想象出的結果。

因此,這項AI技術不能用於身份識別。比如監控攝像頭拍攝的失焦、無法辨別的圖片,不能通過PULSE還原成真實存在的人像。不過,它在醫學、顯微鏡、天文學,以及衛星圖像等領域有著廣泛的應用場景。

在技術方面,不同其他超分辨率算法,PULSE不是遍歷LR(Low Resolution)圖像來慢慢添加細節,而是發現與HR相對應的LR,通過“縮減損失(Downscale)”的方式得到SR(Super Resolution)圖像。

其次,PULSE使用瞭生成對抗網絡(GAN)來進行模型訓練。GAN包括一個生成器(Generator)和一個鑒別器(Discriminator),在同一組照片訓練中,二者通過相互博弈的方式檢驗輸出是否足夠逼真。

最後,無論是利用AI還原字符密碼、還是人臉圖像,其初心都是科技向善。但這些AI技術不可避免地被有些人用於不良或非法用途。

因此,在這個科技高速發展的現在,保護個人數據顯得尤為重要。

引用鏈接:

https://www.linkedin.com/pulse/recovering-passwords-from-pixelized-screenshots-sipke-mellema/?trackingId=yYFSUnuxRXasNV%2Fh3ZsiSw%3D%3D

https://gizmodo.com/researchers-have-created-a-tool-that-can-perfectly-depi-1844051752

https://en.wikipedia.org/wiki/De_Bruijn_sequence

https://github.com/beurtschipper/Depix

Source: m.cnbeta.com