Recognizing fake Audios and Videos

How to Identify fake Videos and Audios

Shekhar Nayak

Today, the world is seeing a surge in the field of digital and social media. There is an array of digital creators, influencers, designers and technologists working towards creation of high quality digital content. Majority of this content is being created with the help of AI or even with AI powered digital tools alone.

With the advent of Generative AI, there are powerful models capable of morphing faces, cloning voices, lip syncing with audios, creating digital avatars which can speak anything in any language with emotions. While most of it seems to be cool and fun tech enabling quick and high quality media creation, the implications are high ranging from the fake identity cards, digital banking frauds to information warfare at the global level.

How we can identify what content is reliable and trustworthy in these times is by going through a checklist like this –

The Source/Origin – We should look at the origin of the digital content. Is it coming from a verified source such as known and reliable news agencies, government or private organizations or trusted individuals whether common or celebs?
Authenticity/validation – We should look at the logos and timestamps in the video. The logos if they match with the source logos and if the timestamps look meaningful, then one could proceed further.
Synthetic cues – Look for any synthetic cues in the video/audio/text content.

Video – If the faces are AI generated, they may have matching faces with the intended persons yet may have unusual characteristics as no or unusual eye blinking and any other visual artifacts or deepfake manipulations [1].

Audio – Any unusual background sounds like echoes, noise by other speakers not in the visual frame and even minor digital artifacts such as minor distortions, much slower or faster speaking rate, altered speaking style or an unusual accent could be a sign of synthetic speech.

Text – The actual message contained in the audio/video should be analyzed if it could possibly be said by the intended speakers/personalities. The context, the consistency within the text and accuracy are factors to be considered.

Asnchronous behaviour – Anything asynchronous between the audio and the video such as glitches in lip sync, missing/mismatched words in the audio differing from the video or a mismatch between the static/dynamic background environment and associated sounds could also indicate digital manipulation or human AI collaborative altering in the content.

Since, there are huge number deepfakes being created [2] for various ethical (research and safety) purposes and unethical (fraud, misinformation) purposes, even the AI detection models/algorithms have hard time in detecting synthetic/altered content.

As Lord Krishna says in Bhagwad Gita 7.15, “मम माया दुरत्यया”, the illusory energy is difficult to overcome, it is becoming evident more and more in this digital age. Also, what Sri Ramakrishna has called “Avidya Maya” [4] is becoming more evident as the deepfake world taking us into ignorance and further away from reality than ever. Relying on the own intellect and wisdom (Vidya Maya) seems the best tool to discriminate between real and fake as artificial intelligence strives to take over human intelligence [5].

[1].https://www.media.mit.edu/projects/detect-fakes/overview/

[2].https://www.quotenet.nl/zakelijk/a61091985/deepfake-duckduckgoose-investering-parya-lotfi-yesdelft/

[3].https://vivekavani.com/b7v14/

[4].https://www.vivekananda.net/BooksOnSwami/Gospel/Vol2/40.html

[5].https://www.bbc.com/future/article/20260417-ai-chatbots-could-be-making-you-stupider

Shekhar Nayak is Assistant Professor of Speech Technology at the University of Groningen/Campus Fryslân. He has numerous research papers on Sarcasm detection, speech synthesis, and so on.

Nederlandse Vertaling

Fake Video’s en Audio’s

De wereld ziet momenteel een enorme groei in het gebruik van digitale en sociale media. Een groot aantal digitale makers, influencers, ontwerpers en technologen werkt aan de creatie van hoogwaardige digitale content. Het merendeel van deze content wordt gemaakt met behulp van AI, of zelfs uitsluitend met AI-gestuurde digitale tools.

Met de opkomst van generatieve AI zijn er krachtige modellen die gezichten kunnen vervormen, stemmen kunnen klonen, lippen kunnen synchroniseren met audio en digitale avatars kunnen creëren die in elke taal en met emoties kunnen spreken. Hoewel het meeste hiervan coole en leuke technologie lijkt die snelle en hoogwaardige mediacreatie mogelijk maakt, zijn de implicaties groot, variërend van valse identiteitskaarten en digitale bankfraude tot informatieoorlogvoering op wereldniveau.

Hoe kunnen we in deze tijd betrouwbare content identificeren? Dat kan met behulp van een checklist zoals deze:

De bron/oorsprong – We moeten kijken naar de oorsprong van de digitale content. Komt het van een geverifieerde bron, zoals bekende en betrouwbare nieuwsagentschappen, overheids- of particuliere organisaties, of vertrouwde personen, of het nu gewone mensen of beroemdheden zijn?

Authenticiteit/validatie – We moeten de logo’s en tijdstempels in de video bekijken. Als de logo’s overeenkomen met de bronlogo’s en als de tijdstempels betekenisvol lijken, kunnen we verder gaan.

Synthetische aanwijzingen – Zoek naar synthetische aanwijzingen in de video-/audio-/tekstinhoud.

Video – Als de gezichten door AI zijn gegenereerd, kunnen ze overeenkomen met de beoogde personen, maar toch ongebruikelijke kenmerken vertonen, zoals geen of ongebruikelijk knipperen met de ogen en andere visuele artefacten of deepfake-manipulaties [1].

Audio – Ongebruikelijke achtergrondgeluiden zoals echo’s, ruis van andere sprekers die niet in beeld zijn en zelfs kleine digitale artefacten zoals lichte vervormingen, een veel langzamer of sneller spreektempo, een veranderde spreekstijl of een ongebruikelijk accent kunnen een teken zijn van synthetische spraak.

Tekst – De daadwerkelijke boodschap in de audio/video moet worden geanalyseerd om te bepalen of deze mogelijk door de beoogde sprekers/personen kan worden uitgesproken. De context, de consistentie binnen de tekst en de nauwkeurigheid zijn factoren waarmee rekening moet worden gehouden.

Asynchrone gedragingen – Alles wat asynchroon is tussen de audio en de video, zoals haperingen in de lipsynchronisatie, ontbrekende/verkeerd klinkende woorden in de audio die afwijken van de video, of een mismatch tussen de statische/dynamische achtergrond en de bijbehorende geluiden, kan ook duiden op digitale manipulatie of een gezamenlijke aanpassing van de inhoud door een mens en AI.

Aangezien er enorm veel deepfakes worden gemaakt [2] voor diverse ethische (onderzoek en veiligheid) en onethische (fraude, desinformatie) doeleinden, hebben zelfs AI-detectiemodellen/algoritmen moeite met het detecteren van synthetische/aangepaste inhoud.

Zoals Heer Krishna zegt in de Bhagavad Gita 7.15, “मम माया दुरत्यया”, is de illusie moeilijk te overwinnen, en dit wordt steeds duidelijker in dit digitale tijdperk. Ook wordt wat Sri Ramakrishna “Avidya Maya” [4] heeft genoemd steeds duidelijker naarmate de deepfake-wereld ons in onwetendheid stort en ons verder van de werkelijkheid verwijdert dan ooit tevoren. Vertrouwen op het eigen intellect en de eigen wijsheid (Vidya Maya) lijkt het beste middel om onderscheid te maken tussen echt en nep, nu kunstmatige intelligentie ernaar streeft de menselijke intelligentie over te nemen [5].

[1].https://www.media.mit.edu/projects/detect-fakes/overview/

[2].https://www.quotenet.nl/zakelijk/a61091985/deepfake-duckduckgoose-investering-parya-lotfi-yesdelft/

[3].https://vivekavani.com/b7v14/

[4].https://www.vivekananda.net/BooksOnSwami/Gospel/Vol2/40.html

[5].https://www.bbc.com/future/article/20260417-ai-chatbots-could-be-making-you-stupider

_____________

Shekhar Nayak is universitair docent spraaktechnologie aan de Universiteit Groningen/Campus Fryslân. Hij heeft talloze publicaties op zijn naam staan over onderwerpen als sarcasmedetectie en spraaksynthese.