title | date | comments | author | categories | tags | ||
---|---|---|---|---|---|---|---|
Adversarial Examples Are Not Bugs, They Are Features |
2020-11-20 12:00:00 -0800 |
true |
YiWei |
|
|
Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Logan Engstrom, Brandon Tran, Aleksander Madry (ALL in MIT 麻省理工) NIPS 2019 - 329次引用 由於對抗性的例子引起的極大關注,但是其存在性和普遍性的原因仍不清楚。 在這篇論文中證明adversarial example 通常是non-robust feature存在的原因。 並且利用一些設置去觀察 the misalignment between the (human-specified) notion of robust and the inherent geometry of the data.
Previous view : Adversarial vulnerability is “輸入空間中的高維性質” 或是 “在資料上的統計波動(statistical fluctuations?)” Author view : “Adversarial vulnerability is a direct result of our models’ sensitivity to well-generalizing features in the data.” 對抗性弱點是模型對數據中的一般特徵的敏感性的直接結果
那什麼是 robust feature 和 non-robust feature? 人認為的feature v.s. 模型認為的feature 驗證non-robust feature的存在:(a)他會造成模型的易碎性 (b)他可能比robust feature 更容易被電腦接受
我們通常會訓練一個模型能夠最大化的提高準確度,因此其傾向於使用許多方向的特徵點,即使是人類無法理解的特徵。 我們認為一般模型的學會去利用這些non-robust feature 從而導致我們的模型被攻擊。
故adversarial transferability, 是由於兩個模型所學習到的non-robust feature 太過相似導致能夠被傳遞。 但是non-robust feature 和 robusts feature都同樣重要
Robust Feature 的製造, 使用adversarial training model 去創造
Non-Robust feature 的製造 利用misunlabeled 的方式製造不一樣的non-robustness feature
從哪些圖片來得到的$\hat D_R$和
這個圖像的表示是不管使用了哪種資訊,仍然擁有不錯的standard learning,並且non-robust的 adversarial accuracy是比其他的feature還要慘的,代表比較容易受到攻擊影響。
首先以
The Transferability
Five different model in
Yin, Dong, et al. "A fourier perspective on model robustness in computer vision." Advances in Neural Information Processing Systems. 2019. The hackmd with myself -> A Fourier Perspective on Model Robustness in Computer Vision