Pages

Thursday, October 14, 2021

その個人情報はうそか本当か、AIが判定 4種類のうそのつき方が明らかに - ITmedia

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 ブリストル大学、Youtility、キングス・カレッジ・ロンドン、ソーレン・プライブッシュ氏による英国の研究チームが発表した「Truth or Dare」は、オンライン上で入力された個人情報が真実なのか虚偽なのかを予測する、機械学習を用いたシステムだ。

 結果は、827人を対象にした映画の割引券アンケートにおいて、約89%の精度で真偽判定できた。また、ユーザーは真実を隠すため、主に4つの方法を用いてプライバシーを保護することが分かった。

photo 各質問に対する虚偽率を示す表。4つの虚偽のタイプに分類される。R-回答拒否、I-無効な情報、P-部分的に真実でない、U-完全に真実でない

 近年、オンライン上で個人情報を求められるケースが往々にしてある。これらデータは、企業側である処理者において、サービスのパーソナライズ、製品開発、ターゲット広告、収益予測、市場情報、サービス向上など、さまざまな目的で重要な役割を果たしている。

 しかし、個人情報の不正使用はデータ収集の脅威となっており、その結果ユーザーはプライバシーを守る行動を取る。個人データを保護するための標準的な方法の1つは、「真実ではないデータ」を提供するという改ざんだ。その結果、ユーザーは個人情報を求められても提供したくないため、虚偽を入力し、処理者には虚偽の可能性があるデータが蓄積される。この問題は双方にとって由々しき問題といえる。

 この研究は、ある個人が特定の種類のデータと文脈の中で真実の情報を提供するかどうかを、機械学習技術を用いて推定する手法だ。ユーザーが真実の情報を提供する行為を避けるためにどのような戦略をとるのかを分析した。

 質問に回答すると映画の割引券がもらえるアンケートの中で、参加者に個人情報を提供してもらう実証的な調査を行った。

 今回の参加者は827人(女性379人、男性436人、その他12人)、平均年齢31.6歳で、それぞれに20問の質問に答えてもらった。収集できた回答は合計1万6540件、このデータを訓練用とテスト用に分けて使用した。

 分析方法は主に、個人が虚偽の情報を提供する可能性が高いかどうかを予測する機械学習を用いた定量的方法と、虚偽の情報を提供する際にユーザーが用いる戦略を特定するThematic analysisを用いた定性的方法を実施した。

 その結果、機械学習では、この環境で個人が真実の情報を提供する可能性があるかどうかを、平均89.2%の精度で予測した。情報を改ざんする際にユーザーが取る戦略は、4つの異なるタイプ「パターンやフォーマットに従わない回答(無効な情報)」「フォーマットやパターンに従っているが、完全に真実ではない回答」「フォーマットやパターンに従っているが、部分的に真実である回答」「回答する意思がないことを示唆する回答」に分類できた。

 部分的に真実でない回答には、真実の情報の一部を提供し残りの情報を差し控える、真実の情報に偽の情報を追加するの2種類がある。例えば、住所の途中までは真実を入力しているが番地などの詳細は省いたり、または番地だけ虚偽の情報を入力したりすることだ。

photo

Adblock test (Why?)


からの記事と詳細 ( その個人情報はうそか本当か、AIが判定 4種類のうそのつき方が明らかに - ITmedia )
https://ift.tt/3FLzWBL

No comments:

Post a Comment