日本語DNNモデルの脆弱性診断・防御技術[鹿児島大学]
日本語DNNモデルの脆弱性を発見する攻撃技術です。
■日本語DNNモデルの脆弱性を発見する攻撃技術(提案手法1) ・日本語DNNモデルに、日本語特有(ひらがな・カタカナ・漢字)の字種変換や語順変更などを加えて、 意味はそのままにDNNが誤った判定をする事例を自動生成する技術です。 ・日本語モデルの弱点を効率的に検出し、DNNの品質や安全性の向上に活用できます。 ■モデルの安全性を高める防御技術(提案手法2) ・提案手法1で発見した脆弱性に対して、再度、字種変換などの微弱な摂動(再攻撃)を加え、 多数決で正しい判定に修正することで、誤判定を防止する技術です。 ・DNNモデルの弱点による誤判定を防ぎ、信頼性の向上に活用できます。 【商用モデルでの検証結果】 攻撃技術(提案手法1) ・従来手法では発見できなかった日本語DNNモデルの脆弱性を効率的に発見。 ・商用モデル(Microsoft Azure Text Analytics)への攻撃にも成功。 防御技術(提案手法2) ・従来手法と比べて、大幅に高い防御成功率を達成。
- 企業:株式会社信州TLO
- 価格:応相談