میدونی - فناوری تشخیص ویدیوهای جعلی ( Deepfake Video Detection )

اخیراً ویدیوهای جعلی که توسط الگوریتم های یادگیری عمیق تولید می شوند مورد توجه زیادی قرار گرفته اند. از این فناوری برای تغییر چهره به صورت بسیار واقعی استفاده می شود. تعداد زیادی ویدیوی جعلی در اینترنت وجود دارد که بیشتر آنها مربوط به افراد مشهور یا سیاستمداران می باشند. این ویدیوها اغلب برای خدشه دار کردن وجهه افراد و تاثیر روی افکار عمومی استفاده می گردند که تا حد زیادی یک تهدید اجتماعی محسوب می شوند.

گرچه این الگوریتم ها ذاتا هیچ ویژگی مثبت یا منفی ندارد، اما فناوری فوق به طور گسترده ای برای اهداف منفی استفاده می شود. جهت جلوگیری از این تهدید برای جامعه بشری، تحقیقاتی در حال انجام است که شامل توسعه روش های تشخیص و ایجاد معیارهای مناسب می باشد. هدف این مقاله نشان دادن وضعیت فعلی این تحقیقات است خصوصا در زمینه، فرآیند تولید، روش های متعدد تشخیص و معیارهای موجود. شایان ذکر است روش های تشخیص فعلی هنوز برای استفاده واقعی کافی نبوده و نیاز به تحقیقات بیشتری می باشد.

مسئله ویدیوهایی که چهره افراد در آنها تغییر کرده است در سال های اخیر توجه گسترده ای را به خود جلب کرده است، به ویژه پس از ظهور فناوری که تصاویر و ویدیوها را با ابزارهای یادگیری عمیق تغییر می دهد. الگوریتم های فوق چهره فرد در یک ویدیو را با چهره ای از ویدیو دیگر با استفاده از رمزگذاری خودکار یا شبکه مولد متقابل (یک شبکه عصبی عمیق که می تواند از مجموعه داده های آموزشی یاد بگیرد و داده های جدیدی با ویژگی های مشابه داده های آموزشی تولید کند) جایگزین می نماید. با این فناوری، ویدیو با چهره تغییر داده شده بسادگی تولید می شود به شرطی که امکان دسترسی به حجم زیادی از داده های مناسب (شامل حالات، ویژگی ها و نمونه ها) وجود داشته باشد.

در حالی که فناوری فوق می تواند برای اهداف مثبت مانند فیلم سازی و واقعیت مجازی استفده گردد همچنان برای امور مخرب بکار می رود. همانطور که در شکل 1 نشان داده شده است، تعداد زیادی ویدیو جعلی در اینترنت وجود دارد که بیشتر آنها سیاستمداران و افراد مشهور را هدف قرار می دهند. تشخیص محتوای جعلی به یکی از موضوعات داغ برای افراد، کسب و کارها و دولت ها در سراسر جهان تبدیل شده است.

با افزایش علاقه به فناوری مذکور، تحقیقات مرتبط بیشتری در حال انجام است. در سال های اخیر شاهد پیشرفت قابل توجهی در توسعه روش های جدید تشخیص بوده ایم، ساخت مجموعه داده های ویدیویی برای تشخیص ویدیو جعلی شروع شده و در حال افزایش است.

فرآیند کلی تولید ویدیوهای جعلی

با انتشار اولین ویدیوهای جعلی، الگوریتم های جدید تغییر تصویر خیلی زود ارائه شدند که اکثر آنها بر اساس شبکه های مولد عمل می نمایند. با این روش ها، الگوریتم های فوق می توانستند برای ایجاد محتوای جعلی و نقض حریم خصوصی استفاده شوند که تأثیر مخرب زیادی بر جامعه داشتند.

تغییر چهره، فناوری جدید نوظهوری نیست و اولین تلاش در این خصوص مربوط به پرتره رئیس جمهور ایالات متحده در سال 1865 آبراهام لینکلن صورت گرفت.

با توجه به اهداف متنوع برای کاربرد این الگوریتم ها، آنها را می توان به دو دسته تعویض چهره و بازسازی چهره تقسیم بندی کرد.

الگوریتم تعویض چهره ( Face swapping )

این نوع ویدیو ها که با تعویض چهره و هویت افراد از دو ویدیو حاصل می شوند در سال های اخیر مورد توجه قرار گرفته است. در مطالعه کورشونوا، شبکه های عصبی کانولوشنال (CNN) طوری آموزش داده شدند تا هویت ظاهری سوژه را از مجموعه عکس های بی ساختار استخراج نموده و امکان تولید تصاویر با کیفیت جهت تعویض چهره را فراهم نمایند. با این حال به دلیل اینکه در این روش پیوستگی زمانی در نظر گرفته نمی شد این رویکرد برای تولید ویدیوهای با کیفیت نمی توانست اعمال شود. در همان سال اولشفسکی رویکرد جدیدی برای تولید ویدیو ارائه کرد که شامل یک تصویر واحد RGB و یکسری ویدیوی منبع بود. یک شبکه مولد عمیق برای تغییر بافت سوژه با استفاده از بافت های منبع و بافت تصویر واحد استفاده شد. براساس این روش چهره تولید شده جدید با ویدیوی منبع ترکیب شده و جایگزین چهره اصلی می گردد.

برای تولید چنین ویدیویی، تمام فریم های ویدیوی مورد نظر با استفاده از روش مولد پردازش می شوند. شکل زیر فرآیند کلی تولید ویدیوهای تعویض چهره را نشان می دهد. بدیهی است که این الگوریتم ها ضمن حفظ حالت چهره اصلی، هسته اصلی ویدیو تولیدی را ارائه می دهند.

الگوریتم های فوق بیشتر بر اساس رمزگذاری خودکار توسعه یافته اند که به طور گسترده برای امور بازسازی داده بکار می روند. رمزگذاری خودکار از دو جزء تشکیل شده است : رمزگذار و رمزگشا. ابتدا ویژگی های پنهان توسط رمزگذار از تصویر استخراج شده و سپس برای بازسازی تصویر اصلی وارد رمزگشا می شوند. در این الگوریتم، دو رمزگذار خودکار آموزش داده می شوند تا چهره در فریم های ویدیویی منبع و فریم های ویدیویی هدف با هم تعویض شوند. فرآیند فوق در شکل زیر نشان داده شده است.

شایان ذکر است که رمزگذاز A فقط با چهره های A آموزش داده شده در حالی که رمزگذار B فقط با چهره های B آموزش دیده است. هنگامی که فرآیند آموزش کامل شد، یک چهره جدید ایجاد شده از چهره A به رمزگذار B منتقل می شود. رمزگذار B سعی می کند چهره B را با ویژگی های چهره A بازسازی نماید.

بازسازی چهره ( Face reenactment )

برخلاف فناوری تعویض چهره، الگوریتم های بازسازی چهره سعی می کنند حالت افراد در ویدیوها را کنترل کنند، به این معنی که بتوان ویدیوهایی تولید کرد که در آن کسی برای انجام کار مد نظر وجود ندارد. اولین الگوریتم بازسازی چهره به سال 2006 باز می گردد. منظور این بود که بازسازی چهره براساس یک چهره الگو برای حالت های مختلف چهره انجام شود. بیشتر کارهای بعدی بر اساس این طرح بنا شد که در آن یک مدل پارامتریک برای تنظیم چهره در تصاویر استفاده شد. این روش می توانست تصاویر چهره با واقع گرایی بالا تولید نماید، اما نتایج به دست آمده اغلب فاقد انسجام زمانی بود. در سال های اخیر، تحقیقات در مورد بازسازی چهره با افزایش توان محاسباتی بیشتر توسعه یافته است.

وظیفه این الگوریتم انتقال حالات چهره می باشد. شکل 4 فرآیند کلی بازسازی چهره را نشان می دهد. برای انجام بازسازی چهره، نورپردازی صحنه و پارامترهای هویتی حفظ می شوند در حالیکه حالت سر، قیافه و طرز نگاه چشم ها تغییر می کنند. سپس تصاویر نهایی بر اساس مولفه های اصلاح شده بازسازی می شوند.