thesis/0_preamble/french_summary.typ

#import "../lib.typ": epigraph, APK, pb1-text-fr, pb2-text-fr, pb3-text-fr, etal, APKs, DEX, todo, num, à-maj

#let eg = [_ex._]

#show figure.where(kind: raw): set figure(supplement: [Code])
#let mp = text(font: "libertinus serif", sym.dot.c)

= Résumé Substantiel en Français

#epigraph("Ellana Caldin, Le Pacte des Marchombres, Tome 1: Ellana, de Pierre Bottero")[Il y a deux réponses à cette question, comme à toutes les questions : celle du savant et celle du poète.]

== Introduction

Android est le système d'exploitation pour téléphones portables le plus utilisé depuis 2014, et depuis 2017, il surpasse même Windows toutes platformes confondues.
Cette popularité en fait une cible de choix pour les acteurs malveillants.
Il est donc important d'être capable d'analyser une application pour savoir exactement ce qu'elle fait.
Ce processus est appelé l'ingénierie inverse.

Beaucoup de travail a été fait dans ce domaine pour les programmes d'ordinateur.
Toutefois, les applications Android présentent leur propres difficultées.
Par exemple, les applications sont distribuées dans leur format spécifique, le format #APK, et le code des applications est lui-même compilé dans un format de code à octets spécifique à Android: Dalvik.
La première difficulté pour l'ingénieur#mp;e inverse est donc d'avoir des outils qui comprennent les formats utilisés par Android.
Dans le processus d'analyse, une première étape serait alors de lire le contenu de l'application.
Des outils comme Apktool peuvent être utilisés pour convertir les fichiers binaire de l'application dans une version lisible par un#mp;e humain#mp;e.
D'autres comme Jadx essaient de générer le code source Java depuis le code à octets.
Toutefois, les applications Android peuvent être très grosses et il n'est pas toujours possible de les analyser manuellement.
D'autres outils ont été développés pour extraire une représentation plus haut niveau du contenu de l'application.
Par exemple, Flowdroid a pour objectif de détecter les fuites d'informations: l'utilisateur#mp;ice définit une liste de méthodes qui génèrent des informations sensbiles, et une liste de méthodes qui exfiltrent des informations vers l'extérieur.
Flowdroid va alors calculer s'il existe des chemins dans l'application permettant de relier des méthodes de la première catégorie avec des méthodes de la seconde.

Malheureusement, ces outils sont difficiles à utiliser, et même s'ils fonctionnent sur des applications simples construites dans le but de tester les outils, il n'est pas rare que ces outils échouent sur de vraies applications.
Cela pose la problématique #pb1-text-fr

Il y a deux familles d'analyse: l'analyse statique et l'analyse dynamique.
L'analyse statique analyse l'application sans la lancer, alors que l'analyse dynamique examine le comportement de l'application pendant son exécution.
Chacune a ses forces et ses faiblesses, et certains problèmes d'analyse sont traditionnellement associés à l'une ou l'autre pour les résoudre.
L'un de ces problème est le chargement dynamique de code.
Les applications Android sont initiallement prévus pour être codé en Java, et donc Android a hérité de beaucoup de fonctionnalités de Java.
En l'occurence, Android a un système de chargeur de classes similaire à celui de Java, qui peut être utilisé pour charger, en cour d'exécution, du code extérieur à l'application.
Etant donné que ce code chargé dynamiquement n'est pas nécessairement disponible dans l'application initialement, ce problème est relégé à l'analyse dynamique.
Toutefois, il semblerait qu'une généralisation hâtive soit souvent faite, et que le système de chargement de classe dans son ensemble soit relégé à l'analyse dynamique.
L'absence d'étude détaillée de ce mecanisme nous amène à notre seconde problématique: #pb2-text-fr

Un autre problème usuellement associé à l'analyse dynamique est la réflexion.
Android permet à une application de manipuler les classes et méthodes sous forme d'objet.
En utilisant cette fonctionnalité, il est donc possible d'appeler une méthode en utilisant son nom sous forme de chaine de caractère au lieu d'utiliser une instruction Dalvik avec une référence vers la méthode appelée.
Ce cas est déjà compliqué à analyser statiquement quand la chaine de caractère est lisible dans l'application, mais il devient imposible quand elle ne l'est pas (#eg la chaine est envoyée par un serveur externe lors de l'exécution, ou elle est stockée chiffrée et n'est déchiffrée qu'au dernier moment).
L'analyse dynamique permet de capturer à la fois le code chargé dynamiquement et les méthodes appelées par réflexion.
Toutefois, obtenir ces instructions est insuffisant.
Il n'existe pas de solution standard pour transmettre ces données aux outils d'analyse statique, qui pourtant peuvent en avoir besoin pour analyser l'application dans son entièreté.
Certaines contributions d'ingénierie inverse ont déjà proposé d'instrumenter (modifier) l'application pour y ajouter les résultats de leur analyse avant de l'analyser avec d'autres outils.
Cette approche prometteuse motive notre troisième problématique: #pb3-text-fr


#todo[Bouger le résumé a la fin fr à la fin?]

#[
== Evaluation de la réutilisabilité des outils d'analyse statique pour Android

#import "../lib.typ": MWE
#import "../3_rasta/X_var.typ": *
#import "../3_rasta/X_lib.typ": *

Dans ce chapitre, nous étudions la réutilisabilité d'outils d'analyse statique publiés entre 2011 et 2017.
Le but de cette étude n'est pas de quantifier la précision des outils, car ces outils ont des objectifs finaux différents.
Au contraire, dans ce chapitre nous allons considérer comme correct tout résultat renvoyé par les outils, et uniquement compter les occurences où les outils échouent à calculer un résultat quel qu'il soit.

Les questions auxquelles nous voulons répondre sont:

/ QR1: Quels outils d'analyse statique pour Android vieux de plus de 5 ans peuvent encore être utilisé aujourd'hui avec un effort raisonnable?
/ QR2: Comment la réutilisabilité des outils évolue-t-elle avec le temps, en particulier pour l'analyse d'applications publiées avec plus de 5 ans d'écart avec l'outil?
/ QR3: Est-ce que la réutilisabilité des outils change quand on analyse une application bénigne comparé à un maliciel?

Nous basons notre étude sur revue de litérature systématique de Li #etal qui liste les contributions accompagnées d'outils sous licence libre.
Nous avons retrouvé les outils en questions, listé dans le @tab:rasta-outils.
Nous avons éliminé les outils utilisant de l'analyse dynamique en plus de l'analyse statique, et vérifié la présence des sources, de la documentation, et d'un optionnel exécutable si jamais les sources ne peuvent pas être compilées.

#figure({
  show table: set text(size: 0.80em)
  show "#etal": etal

  // Trad to fr
  show "Hybrid tool (static/dynamic)": "Outil hybride (statique et dynamique)"
  show "Works on source files only": "Nécessite les fichiers sources"
  show "Authors ack. a partial doc": "Auteurs reconnaissent documentation insufisante"
  show "Binary obtained from authors": "Binaire obtenu des auteurs"
  show "Related to Android hardening": "Dédié à la sécurisation d'Android"
  show "Not built with author’s help": "Ne compile pas même avec l'aide des auteurs"

  let show_citekeys(keys) = [
  /*
    #keys.split(",").map(
      citekey => cite(label(citekey))).join([]
    ) (#keys.split(",").map(
      citekey => cite(label(citekey), form: "year")
    ).join([]))
  */
  ]
  table(
    columns: 7,
    inset: (x: 0% + 5pt, y: 0% + 2pt),
    stroke: none,
    align: center+horizon,
    table.hline(),
    table.header(
      table.cell(colspan: 7, inset: 3pt)[],
      table.cell(rowspan:2)[*Outil*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(colspan:3)[*Disponibilité*],
      table.vline(end: 3),
      table.vline(start: 4),
      [*Dépo*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(rowspan:2)[*Décision*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(rowspan:2)[*Commentaires*],

      [Bin],
      [Src],
      [Doc],
      [type],
    ),
    table.cell(colspan: 7, inset: 3pt)[],
    table.hline(),
    table.cell(colspan: 7, inset: 3pt)[],
    ..rasta_tool_data
    .map(entry => (
      [#entry.tool #show_citekeys(entry.citekey)],
      str2sym(entry.binary),
      str2sym(entry.source),
      str2sym(entry.documentation),
      link(entry.url, entry.repo),
      str2sym(entry.decision),
      entry.why,
    )).flatten(),
    table.cell(colspan: 7, inset: 3pt)[],
    table.hline(),
    table.cell(colspan: 7, inset: 3pt)[],
    table.hline(),
  )
  [
    *binaires, sources*: #nr: non pertinent, #ok: disponible, #bad: partiellement disponible, #ko: non fourni\
    *documentation*: #okk: excellente, #MWE, #ok: quelques incohérences, #bad: mauvaise qualité, #ko: non disponible\
    *décision*: #ok: considéré; #bad: considéré mais pas compilé; #ko: sort du cadre de l'étude
  ]},
  caption: [Outils considérés: disponibilité et réutilisabilité],
) <tab:rasta-outils>

Nous avons ensuite sélectionné la version des outils à utiliser.
Certains outils ont évolué depuis leur publication, soit en étant maintenus par leurs auteurs, soit suite à un branchement par un autre développeur.
Nous avons décidé d'utiliser la dernière version stable en date de 2023 (date de l'étude).
Le seul cas de branchement interescant que nous avons trouvé est celui d'IC3, que nous avons décidé d'inclure en plus d'IC3.
Le @tab:rasta-choix-sources résume cette étape.

#figure({
  show table: set text(size: 0.80em)
  show "#etal": etal
  let show_citekeys(keys) = [/*
    #keys.split(",").map(
      citekey => cite(label(citekey))).join([]
    )
  */]
  table(
    columns: 8,
    inset: (x: 0% + 5pt, y: 0% + 2pt),
    stroke: none,
    align: center+horizon,
    table.hline(),
    table.header(
      table.cell(colspan: 8, inset: 3pt)[],
      table.cell(rowspan:2)[*Outil*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(colspan:2)[*Original*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(colspan:2)[*Branchement Vivant*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(rowspan:2)[*Date Dernière \ Modification*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(rowspan:2)[*Auteurs \ Contactés*],
      table.vline(end: 3),
      table.vline(start: 4),
      [*Environment*],

      [Etoiles],
      [Vivant],
      [Nb],
      [Utilisable],
      [Langage -- SE],
    ),
    table.cell(colspan: 8, inset: 3pt)[],
    table.hline(),
    table.cell(colspan: 8, inset: 3pt)[],
    ..rasta_tool_data
    .filter(entry => entry.exclude != "EXCLUDE")
    .map(entry => (
      [#entry.tool #show_citekeys(entry.citekey)],
      entry.stars,
      str2sym(entry.alive),
      entry.nbaliveforks,
      str2sym(entry.forkusable),
      entry.selecteddate,
      str2sym(entry.authorconfirmed),
      [#entry.lang -- #entry.os]
    )).flatten(),
    table.cell(colspan: 8, inset: 3pt)[],
    table.hline(),
    table.cell(colspan: 8, inset: 3pt)[],
    table.hline(),
  )
  [#ok: oui, #ko: non, UX.04: Ubuntu X.04]},
  caption: [Outils selectionnés, branchements, versions selectionnées et environnements d'exécution],
) <tab:rasta-choix-sources>

Nous avons ensuite exécuté ces outils sur deux jeux d'applications: Drebin, un jeu de maliciels connus pour être vieux et biaisé, et Rasta, un jeu que nous avons échantilloné nous-mêmes pour réprésenter l'évolution des caractéristiques des applications entre 2010 et 2023, d'un total de #NBTOTALSTRING #APKs.

Après avoir lancé les outils, nous avons collecté les différents résultats et traces d'exécution.
@fig:rasta-exit-drebin-fr et @fig:rasta-exit-fr montrent les résultas des analyses sur les applications de Drebin et Rasta.
L'analyse est considérée comme réussie (vert) si un résultat est obtenu, sinon elle a échoué (rouge).
Quand l'analyse met plus d'une heure à finir, elle est avortée (bleue).
On peut voir que les outils ont d'assez bon résultats sur Drebin, avec 11 outils qui ont un taux de finition au dessus de 85%.
Sur Rasta par contre, #resultunusablenb outils (#resultunusable) ont un taux de finition en dessous de 50%.
Les outils qui avaient des difficultés avec Drebin ont aussi de mauvais résultats sur Rasta, mais d'autre outils avec des résultats acceptables sur Drebin chutent avec Rasta.

Ces résultats nous permettent de répondre à notre première question *QR1*:

Sur un jeu d'applications réscentes nous considérons que #resultunusable des outils sont utilisables.
De plus pour les outils que nous avons pu lancer, #resultratio des analyses ont bien terminé correctement.

#figure(
  image(
    "../3_rasta/figs/exit-status-for-the-drebin-dataset.svg",
    width: 100%,
    alt: "Bar chart showing the % of analyse apk on the y-axis and the tools on the x-axis.
      Horizontal blue dotted lines mark the 15%, 50% % and 85% values.
      Each bar represent a tools, with the finished analysis in green at the bottom, the analysis that timed of in blue, then on top in red the analysis that failed. Their is a last color, grey, for the other category, only visible in the dialdroid bar representing 5% of the result.
      The results are (approximately) as follow:
      adagio: 100% finished
      amandroid: less than 5% timed out, the rest finished
      anadroid: 85% failed, less than 5% timed out, the rest finished
      androguard: 100% finished
      androguard_dad: 5% failled, the rest finished
      apparecium: arround 1% failed, the rest finished
      blueseal: less than 5 failed, a little more than 10% timed out, the rest (just under 85%) finished
      dialdroid: a little more than 50% finished, less than 5% timed out, arround 5% are marked as other, the rest failled
      didfail: 70% finished, the rest failed
      droidsafe: 40% finihed, 45% timedout, 15% failed
      flowdroid: 65% finished, the rest failed
      gator: 100% finished
      ic3: 99% finished, 1% failed
      ic3_fork: 98% finishe, 2% failed
      iccta: 60% finished, less than 5% timed out, the rest failed
      mallodroid: 100% finished
      perfchecker: 75% finished, the rest failed
      redexer: 100% finished
      saaf: 90% finished, 5% timed out, 5% failed,
      wognsen_et_al: 75% finished, 1% failed, the rest timed out
    "
  ),
  caption: [Taux de finition pour le jeu d'applications Drebin],
) <fig:rasta-exit-drebin-fr>

#figure(
  image(
    "../3_rasta/figs/exit-status-for-the-rasta-dataset.svg",
    width: 100%,
    alt: "Bar chart showing the % of analyse apk on the y-axis and the tools on the x-axis.
      Horizontal blue dotted lines mark the 15%, 50% % and 85% values.
      Each bar represent a tools, with the finished analysis in green at the bottom, the analysis that timed of in blue, then on top in red the analysis that failed. Their is a last color, grey, for the other category, only visible in the dialdroid bar representing 10% of the result and in the blueseal bar, for 5% of the results.
      The results are (approximately) as follow:
      adagio: 100% finished
      amandroid: less than 5% failed, 10% timed out, the rest finished
      anadroid: 95% failed, 1% timed out, the rest finished
      androguard: 100% finished
      androguard_dad: a little more than 45% finished, the rest failed
      apparecium: arround 5% failed, 1% timed out, the rest finished
      blueseal: 20% finished, a 15% timed out, 5% are marked other, the rest failed
      dialdroid: 35% finished, 1% timed out, 10 are marked other, the rest failed
      didfail: 25% finished, less than 5% timed out, the rest failed
      droidsafe: less than 10% finihed, 20% timedout, the rest failed
      flowdroid: 55% finished, the rest failed
      gator: a little more than 85% finished, 5% timed out, 10% failed
      ic3: less than 80% finished, 5% timed out, the rest failed
      ic3_fork: 60% finished, 5% times out, the rest failed
      iccta: 30% finished, 10% timed out, the rest failed
      mallodroid: 100% finished
      perfchecker: 25% finished, less than 5% timed out, the rest failed
      redexer: 90% finished, the rest failed
      saaf: 40% finished, the rest failed,
      wognsen_et_al: a little less than 15% finished, a little less than 20% failed, the rest timed out
    "
  ),
  caption: [Taux de finition pour le jeu d'application Rasta],
) <fig:rasta-exit-fr>

Nous avons ensuite étudié l'évolution du taux de finition des outils au cours des ans.
La @fig:rasta-exit-evolution-java-fr montre cette évolution pour les outils codés en Java.
On peut noter une tendance générale où le taux de finition diminue avec le temps.

Plusieurs facteurs peuvent être responsables.
Par exemple, la librairie standard d'Android et le format des applications ont évolué avec les versions d'Android.
Un autre changement notable est la taille du code à octets des applications.
Les applications les plus récentes ont notablement plus de code.

Pour déterminer le facteur qui influence le plus le taux de finitions, nous avons étudié des sous-ensembles de Rasta avec certains de ces paramètres fixés.
Par exemple, nous avons tracé l'évolution du taux de finition en fonction de l'année de publication des applications sur l'ensemble des applications dont le code à octets fait entre 4.08 et 5.2 Mo.

#figure(
  image(
    "../3_rasta/figs/finishing-rate-by-year-of-java-based-tools.svg",
    width: 90%,
    alt: ""
  ),
  caption: [Taux de finition des outils basé sur Java au cours des ans],
) <fig:rasta-exit-evolution-java-fr>

Nous en avons conlu la réponse à notre question de recherche *QR2*:
Au cour du temps, le taux de finition des outils diminue, allant de 78% à 61% cinq ans plus tard, à 45% dix ans plus tard.
Ce taux varie en fonction de la taille du code à octet, et, dans de moindre mesure, la version d'Android.


Pour répondre à notre dernière recherche question, nous avons comparé le taux de finition entre les applications bénignes et les maliciels.
Les résultats semblent indiquer que les maliciels sont plus facilement analysés.
Pour vérifier cette affirmation, nous avons comparé le taux de finition mais aussi la taille du code à octets des applications et effectivement, il semblerait que ce résultat soit vrai, y compris à taille égale.

Nous avons donc une réponse à notre *RQ3*: Les maliciels causent moins d'erreurs lors de leur analyse par des outils d'analyse statique.

Finalement, nous avons une réponse à notre première problématique:

Plus de la moitié des outils sélectionnés ne sont plus utilisables.
Dans certains cas, cela est dû à notre incapicité à les installer correctement, mais majoritairement, cela est dû au faible taux de finition des outils lors de l'analyse des applications.
Nos résultats montrent que les applications avec beaucoup de code sont plus difficiles à analyser, et, en moindre mesure, la version d'Android ainsi que la malignité de l'application peut avoir un impact.

] #[

== Chargeurs de classes au milieu: Dérouter les analyseur statiques pour Android

#import "../lib.typ": MWE
#import "../4_class_loader/X_var.typ": *

Dans ce chapitre, nous étudions comment Android gère le chargement de classe en présence de mutliples versions de la même classe.
Nous modélisons l'algorithme de chargement de classe d'Android, et l'utilisons comme base pour une nouvelle famille de brouillage de code que nous appelons _masquage de classes_.
Nous auditons ensuite des applications publiés en 2023 pour déterminer si cette technique de brouillage est actuellement utilisée.

Le chargement de classe est une fonctionnalité de Java dont Android a hérité.
Les développeurs intéragissent avec elle le plus souvent au travers de classes héritant de `ClassLoader` pour charger dynamiquement du code.
Toutefois, elle a un rôle bien plus général.
#à-maj chaque fois qu'Android rencontre une nouvelle classe en exécutant une méthode, il va charger cette classe au travers du mécanisme de chargement de classe.

L'interet de ce mécanisme est qu'il permet d'utiliser des classes provenant de différentes sources.
Pour cela, Android associe à chaque classe un objet `ClassLoader`, celui qui a été utilisé pour charger cette classe.
Par la suite, Android utilise ce `ClassLoader` pour charger toutes les classes référencées par cette première classe.
Pour permettre aux classes provenant de différents `ClassLoader` d'intéragir entre elles, les `ClassLoader` implémentent un mécanisme de délégation.
Chaque `ClassLoader` a un "parent", un autre objet de type `ClassLoader`, auquel le `ClassLoader` va déléguer le chargement de classe.
Si la classe n'est pas trouvée par le parent, alors le `ClassLoader` va la charger lui même.
Bien que ce système de délégation est utilisé par toutes les classes héritant de `ClassLoader` dans la librairie standard d'Android (à l'exception de `DelegateLastClassLoader` qui délègue dans un ordre légèrement différent), ce comportement est spécifié par l'implémentation de chaque classe `ClassLoader`.
Une application peut très bien définir une nouvelle classe héritant de `ClassLoader` qui n'implémente pas ce processus.
Toutefois, ce cas relève de l'analyse dynamique: un `ClassLoader` défini dans l'application ne peut pas être utilisé par Android sans exécuter du code de l'application pour l'instancier.
Dans ce chapitre, nous nous concentrons sur le comportement par défaut d'Android, aussi nous n'avons besoin d'analyser que les `ClassLoader` instanciés par Android lui même pour lancer l'application.

Le premier `ClassLoader` utilisé par Android est `BootClassLoader`.
Cette classe est une classe singleton, ce qui signifie qu'il ne peut y avoir qu'une seule instance de la classe par application.
Elle est utilisée pour charger les classes de plateforme.
Ces classes sont les classes implémentées par Android et qui peuvent être utilisées par une application sans qu'elles ne soient présentes dans l'application.
Elles peuvent être séparées en deux catégories, les classes du KDL (Kit de Développement Logiciel)  Android, et les classes de l'IPA cachée.
Les premières forment la librairie standard d'Android.
Elles sont documentées et couramment utilisées par les développeurs.
Les secondes sont des classes utilisées par Android en interne, mais que les applications ne sont pas supposées utiliser.
Elles ne sont pas documentées, et depuis quelques années Android commence a faire des efforts pour empêcher les dévelopeurs de les utiliser.
Elles sont toutefois encore utilisées, et, au moins jusqu'à présent, les mesures d'Android ne suffisent pas à les rendre innaccessibles.

Ce `BootClassLoader` est utilisé comme le parent par défaut par tous les `ClassLoader` définis dans les classes plateforme d'Android.
Quand le parent d'un `ClassLoader` n'est pas défini (quand sa valeur est nulle), les `ClassLoader` vont déléguer au `BootClassLoader` à la place.
L'autre type de `ClassLoader` utilisé par Android par défaut est le `PathClassLoader`.
Cette classe est utilisée pour charger des classes stockées dans des fichiers.
Android en définit deux par défaut, un `PathClassLoader` "système", et un `PathClassLoader` pour l'application.
La documentation indique que le chargeur "système" est le chargeur par défaut pour le processus principal.
Toutefois, il ne semble pas être utilisé en pratique.
Le chargeur de l'application en revanche est utilisé pour les classes contenues dans l'application, c'est donc le chargeur utilisé par défaut pour toutes les classes codées par le développeur.

En plus des chargeurs de classes, il y a un dernier critère à considérer.
Les fichiers #DEX contenant le code à octets des applications ont une limite du nombre de méthodes qui peuvent être référencées.
Pour y remédier, Android a introduit un nouveau format d'application contenant plusieurs fichiers #DEX.
Pour notre étude, le point notable de ces appplications est que bien qu'Android teste qu'un fichier #DEX ne contient qu'une seule implémentation de chaque classe, ce test n'est fait que fichier par fichier: deux fichiers #DEX peuvent contenir une implémentation d'une même classe chacun.
Les fichiers #DEX de ces applications "multi-dex" sont nommés `classes.dex`, puis `classesX.dex` où `X` est un entier supérieur ou égale à 2.
Pour savoir quelle implémentation est utilisée par Android, il faut donc savoir dans quel ordre les fichiers sont visités par les `PathClassLoader`.

Finalement, après avoir étudié le code source d'Android, nous concluons que l'algorithme utilisé est le même que celui que nous avons décrit dans le pseudo code @lst:algo-cl.
Cet algorithme a deux points notables.
En premier lieu, les classes platformes ont toujours la priorité sur les autres classes.
Cela peut être intuité pour les classes courantes comme `String`, mais il faut se rappeler que les classes de l'IPA cachée ne sont pas documentées.
Ensuite, les classes sont sélectionnées parmis les fichiers #DEX dans un ordre non trivial, et s'arrête à la première implémentation trouvée.
Le premier fichier testé est `classes.dex`, suivi de `classes2.dex`, puis `classes3.dex` et ainsi de suite, jusqu'à ce qu'un fichier `classesX.dex` n'existe pas.
La limite au nombre de fichiers #DEX est très élevée ($2^64$ sur les téléphones actuels), tant que le fichier suivant existe et que la classe n'est pas trouvée, Android va continuer.
Aussi, le code contenu fichier `classes100.dex` peut être utilisé par Android, ou non, par exemple si `classes99.dex` n'existe pas.
Plus surprenant, de code contenu dans un fichier `classes1.dex` ou `classes02.dex` ne serra pas utilisé.
Lors de l'analyse statique d'applications, ces deux points peuvent mener à des complications que nous allons maintenant explorer.

#todo[traduire en francais @lst:algo-cl]
#figure(
  ```python
  def get_mutli_dex_classses_dex_name(index: int):
    if index == 0:
      return "classes.dex"
    else:
      return f"classes{index+1}.dex"

  def load_class(class_name: str):
    if is_platforn_class(class_nane):
      return load_from_boot_class_loader(class_name)
    else:
      index = 0
      dex_file = get_nutli_dex_classses_dex_name(index)
    while file_exists_in_apk(dex_file) and \
      not class_found in_dex_file(class_name, dex_file):
      index += 1
    if file_exists_in apk(dex_file):
      return load_from_file(dex_file, class_name)
    else:
      raise ClassNotFoundrror()
   ```,
  caption: [Algorithme de chargement de classe par défaut pour les applications Android],
) <lst:algo-cl>

A partir de cet algorithme, nous avons mis au point plusieurs méthodes de brouillage de code que nous appelons _masquage de classe_: la classe utilisée est masquée par une autre implémentation fournie par le développeur.
Nous nous concentrons sur l'obfuscation statique, mais cette stratégie peut être étendue à une approche dynamiquement en utilsant différents chargeurs de classes.
Nous proposons trois techniques dans cette catégorie:

/ Auto masquage: Ici, le développeur utilise le format multi-dex pour mettre plusieur implémentations différentes dans la même application.
  L'objectif est d'exploiter les divergences entre l'algorithme de chargement de classes d'Android et la façon dont les outils d'analyse selectionnent l'implémentation à utiliser.
  De cette façon, la classe utlisée par Android ne sera pas celle analysée.
/ Masquage de KDL: Cette fois, le développeur inclut une implémentation pour une classe du KDL dans l'application.
  Un outil qui ne priorise pas les classes plateformes, ou ne les connaît pas, va alors utiliser une implémentation invalide de la classe pour son analyse.
/ Masquage d'IPA Cachée: L'idée est la même que pour la technique précédente, mais cette fois pour une classe de l'IPA caché.
  Nous distinguons masquage de KDL et masquage d'IPA caché car les IPA cachés n'étant pas documentés, il est possible que des outils soient capables de résoudre la première technique mais pas la deuxième.

Nous avons vérifié l'effet de ses techniques sur 4 outils d'analyse Android courants: Jadx, Apktool, Androguard et Flowdroid.
Le @tab:cl-resultats résume nos conclusions.
Jadx est un décompilateur d'application.
Lorsqu'il est utilisé pour décompiler une application usant d'auto-masquage, il va sélectionner la mauvaise classe, mais indiquer en commentaire la liste des fichiers de code à octet contenant une implementation de la classe.
Apktool et Androguard listent toutes les classes de l'application, il revient donc à l'analyste de choisir la bonne implémentation, et pour les analyses plus poussées d'Androguard, Androguard choisit la mauvaise classe.
Aucun de ces trois outils n'indiquent en aucune façon qu'une classes est déjà définie dans le KDL ou les IPA cachés.
Flowdroid en revanche est capable de détecter les flux de données passant par des classes du KDL, y compris en présence d'une réimplémentation dans l'application.
Ce n'est par contre pas le cas pour les classes d'IPA cachées.
Il est intéressant de noter que Soot, la librairie sur laquelle est basé Flowdroid, a bien un algorithme qui priorise les fichers #DEX, et que cet algorithme est très proche de celui d'Android.
Toutefois, les fichiers commençant par `classes` sont ensuite priorisés par ordre alphabétique.
Cela signifie que les classes contenuent dans `classes0.dex`, `classes02.dex` ou `classes10.dex` sont priorisées sur celles de `classes2.dex`.
Ce problème est hérité par Flowdroid, ce qui le rend sensible à la technique d'auto-masquage.

#figure({
  table(
    columns: 5,
    stroke: none,
    align:(left+horizon, center+horizon, center+horizon, center+horizon, center+horizon),
    table.hline(),
    table.header(
      table.cell(colspan: 5, inset: 3pt)[],
      table.cell(rowspan: 2)[Outil],
      table.cell(rowspan: 2)[Version],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(colspan: 3)[Masquage],
      [Auto], [KDL], [Cachée],
    ),
    table.cell(colspan: 5, inset: 3pt)[],
    table.hline(),
    table.cell(colspan: 5, inset: 3pt)[],

    [Jadx], [1.5.0], [#warn], [#ok], [#ok],
    [Apktool], [2.9.3], [#warn], [#ok], [#ok],
    [Androguard], [4.1.2], [#warn], [#ok], [#ok],
    [Flowdroid], [2.13.0], [#ok], [#ko], [#ok],

    table.cell(colspan: 5, inset: 3pt)[],
    table.hline(),
  )
  [#ok: Le masquage fonctionne \ #warn: Le masquage fonctionne, mais un avertissement est émis ou les différentes implémentations sont visibles \ #ko: Le masquage ne marche pas]
  },
  caption: [Résultats des techniques de masquage contre des outils d'analyse statique]
) <tab:cl-resultats>

Pour savoir si ces techniques sont utilisées dans la nature, nous avont scanné #nbapk applications publiées entre janvier 2023 et 2024.
Pour vérifier que les différentes implémentations sont bien distinctes, nous comparons la représentation smali du code à octets des méthodes.
Le @tab:cl-masquage résume ces résultats.
Il est notable qu'un nombre important d'applications (#scan_only_shadow.at(1).ratioapp%) ont au moins un cas de masquage.
En étudiant en détail, nous avons noté que la majorité des classes concernées sont des classes introduites entre la version minimale et la version cible d'Android pour l'application.
Cela laisse entendre que ces classes ont été rajoutées pour permettre à l'application de fonctionner avec les versions d'Android où ces classes n'existent pas.
Le taux élevé de code identique pour les cas d'auto-masquage semble également pointer vers des erreurs lors de la compilation de l'application.
De plus, l'analyse manuelle des cas où le smali diffère montre que les différences viennent de détails lors de la compilation (par exemple, l'inversion de deux registres, ce qui n'as aucun effet sur l'exécution du code).

#figure({
  show table: set text(size: 0.80em)

  show "Self": "Auto"
  show "Sdk": "KDL"
  show "Hidden": "Cachées"
  show "Total": "Totale"

  table(
    columns: 9,
    stroke: none,
    align: center+horizon,
    inset: (x: 0% + 5pt, y: 0% + 2pt),
    table.hline(),
    table.header(
      table.cell(colspan: 9, inset: 3pt)[],
      [],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(colspan: 3)[*Nombre d'app*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(colspan: 4)[*Moyenne*],
      table.vline(end: 3),
      table.vline(start: 4),
      table.cell(rowspan: 2)[*Code \ Identique*],

      [],
      [], [*%*], [*% maliciel*],
      [*Classes Masquées*], [*Médianne*], [*KDL*], [*Min KDL*],

    ),
    table.cell(colspan: 9, inset: 3pt)[],
    table.hline(),
    table.cell(colspan: 9)[Pour toutes les applications du jeu],
    table.hline(),
    table.cell(colspan: 9, inset: 3pt)[],

    ..scan_50k.map(e => (
      [*#e.method*],
      num(e.nbapp), [#e.ratioapp%], [#e.ratiomal%],
      num(e.avgshadow), num(e.median), num(e.avgtargetsdk), num(e.avgminsdk),
      [#e.id%]
    )).flatten(),

    table.cell(colspan: 9, inset: 3pt)[],
    table.hline(),
    table.cell(colspan: 9)[Pour les applications avec au moins 1 cas de masquage],
    table.hline(),
    table.cell(colspan: 9, inset: 3pt)[],

    ..scan_only_shadow.map(e => (
      [*#e.method*],
      num(e.nbapp), [#e.ratioapp%], [#e.ratiomal%],
      num(e.avgshadow), num(e.median), num(e.avgtargetsdk), num(e.avgminsdk),
      [#e.id%]
    )).flatten(),

    table.cell(colspan: 9, inset: 3pt)[],
    table.hline(),
  )},
  caption: [Classes masquées comparées aux classes platform d'Android IPA 34 pour un jeu de #nbapk applications]
) <tab:cl-masquage>

Notre conclusion est que le masquage de classes n'est pas activement exploité pour le brouillage de code.
En revanche, cette situation se produit naturellement dans les applications.
Il est donc important pour les outils d'analyses de modéliser correctement le processus de chargement de classes.
Avec l'algorithme décrit par le @lst:algo-cl, cela répond à notre seconde problématique.

] #[
== L'Application de Thésée: Même après avoir ajouté les informations d'exécution, c'est toujours votre application

#import "../5_theseus/X_var.typ": *

Dans ce dernier chapitre, nous nous penchons sur la question de comment permettre aux outils d'analyse statique d'accéder à des résultats dynamiques.
Des contributions précédentes ont encodé leur résulat dans l'application elle-même pour transmettre leurs résultats à d'autres outils.
Nous allons utiliser cette approche pour permettre à des outils d'analyse statique d'analyser le comportement d'applications utilisant de la réflexion ou du chargement de code dynamique.

Premièrement, il nous faut définir la transformation que nous voulons effectuer.
Concernant la réflexion, il y a 3 méthodes permettant d'appeler des méthodes arbitraires dans Android.
`Class.newInstance()` et `Constructor.newInstance()` permettent d'instancier un nouvel object et d'appeler l'un des ses constructeurs, tandis que `Method.invoke()` permet d'appeler une méthode.
Les objects `Class`, `Constructor` ou `Method` utilisés pour appeler ces méthodes peuvent être obtenus de multiples façons différentes.
Nous n'allons donc pas chercher à modifier le code obtenant ces objets.
#à-maj la place, nous allons nous concentrer sur l'appel des méthodes.
#à-maj différents moments de l'exécution, un même site peut appeler différentes méthodes.
De plus, la collection des informations de réflexion sera toujours au meilleur effort: il y a des situations où on ne peut jamais être certain d'avoir la liste complète des méthodes appelées.
Par exemple, on peut imaginer une application qui appelle par réflexion une méthode dont le nom est obtenu depuis un serveur distant.
Dans ce cas, sans accès au code du serveur il est impossible d'avoir la liste exhaustive des méthodes qui peuvent être utilisées.
Pour prendre en compte ces deux cas, nous allons remplacer les appels par des blocs conditionnels.
Pour chaque méthode dont on sait qu'elle peut être appelée, nous testons si l'object `Method ` correspond à cette méthode en comparant son nom et sa signature.
Si c'est le cas, la méthode est appelée dans le bloc avec l'instruction Dalvik appropriée.
Si la méthode ne correspond à aucune méthode connue, alors l'appel est fait par réflexion.
Ainsi, le comportement de l'application est conservé.

Pour le chargement de code dynamique, nous avons conclu qu'il n'est pas nécessaire de modifier le code.
A la place, nous pouvons directement ajouter à l'application le ficher #DEX en utilisant le format multi-dex.
Toutefois, si jamais certaines classes contenues dans le code que nous injectons sont déja présentes dans l'application, nous renommons la classes et ses références de sorte à reproduire statiquement le comportement de l'algorithme de chargement de classe d'Android.
Cette approche a des limites, en particulier lors d'appel réflexifs, car il n'existe pas de solutions pour comparer les chargeurs de classes avec une valeur statique.
Si un même site d'appel réflexif appelle deux méthodes avec des signatures et noms identiques mais associées à des classes provenant de chargeurs de classes différents, nous ne sommes pas en messure de reproduire exactement le même comportement statiquement.
Toutefois, les appels aux deux différentes méthodes apparaissent bien dans la nouvelle application, ce qui devrait permettre aux outils d'analyse statique de considérer les deux cas possible.

Pour pouvoir effectuer ces transformations, il nous faut certaines informations.
Les noms, signature et chargeur de classes des méthodes appelées par réflexion, ainsi que la position exacte du site de l'appel réflexif, et le code à octets chargé dynamiquement.
Pour obtenir ces informations, nous utilisons Frida, un outil permettant d'injecter des scripts dans les méthodes appelées pendant l'exécution d'une application Android.
Pour la réflexion, nous avons bien entendu instrumenté `Class.newInstance()`, `Cconstructor.newInstance()` et `Method.invoke()`.
Pour le chargement de code, le choix est un peu moins évident car il existe de multiples façons de charger du code à octets.
Nous avons finalement choisi `DexFile.openInMemoryDexFileNative()` et `DexFile.openDexFileNative()`, des méthodes de l'IPA cachée.
Ces méthodes sont les dernières méthodes appelées dans l'environement Java avant de passer en native pour analyser et charger le code à octets.
Pour aider à l'exploration des applications, nous avons réutilisé une partie de GroddDroid, un outil dédié à l'exploration dynamique d'applications.

Nous avons lancé notre analyse statique sur les #num(5000) applications publiées en 2023 du jeu d'applications Rasta.
Malheureusement, les résultats semble indiquer que notre environnement d'exécution est insuffisant et que beaucoup d'applications n'ont pas été visitées correctement.
Malgrés tout, nous avons collecté #nb_bytecode_collected fichiers de code à octets.
Toutefois, une fois comparé, nous remarquons que parmi ces fichiers, il n'y a que #num(bytecode_hashes.len()) fichiers distincts.
L'inspection du contenu montre que ces fichiers sont principalement des librairies de code publicitaire ou analytiques.
Seuls #num(nb_bytecode_collected - nb_google - nb_appsflyer - nb_facebook) fichiers parmi les #nb_bytecode_collected collectés ne proviennent ni de Google, ni de Facebook, ni de AppsFlyer.
Ces fichiers restants contiennent du code spécifique aux applications les utilisant, principalement des applications exigeant un niveau important de sécurité comme des applications banquaires ou d'assurance santé.

Nous avons ensuite modifié les applications comme décrit précédemment, puis relancé les outils de notre première contribution sur les applications modifiées pour comparer leur taux de finition au taux sur les applications initiales.
En fonction des outils, le taux de finition est soit inchangé, soit légèrement plus faible pour les applications modifiées.

Pour vérifier que notre approche fonctionne, nous avons créé une petite application de test utilisant du chargement dynamique et des appels réflexifs.
@fig:th-demo-avant montre la classe principale de l'application.
On peut voir par exemple que l'application utilise des chaines de caractères chiffrées pour stocker le nom des méthodes à appeler.

#figure(
  ```java
package com.example.theseus;

public class Main {
    private static final String DEX = "ZGV4CjA [...] EAAABEAwAA";
    Activity ac;
    private Key key = new SecretKeySpec("_-_Secret Key_-_".getBytes(), "AES");
    ClassLoader cl = new InMemoryDexClassLoader(ByteBuffer.wrap(Base64.decode(DEX, 2)), Main.class.getClassLoader());

    public void main() throws Exception {
        String[] strArr = {"n6WGYJzjDrUvR9cYljlNlw==", "dapES0wl/iFIPuMnH3fh7g=="};
        Class<?> loadClass = this.cl.loadClass(decrypt("W5f3xRf3wCSYcYG7ckYGR5xuuESDZ2NcDUzGxsq3sls="));
        Object obj = "imei";
        for (int i = 0; i < 2; i++) {
            obj = loadClass.getMethod(decrypt(strArr[i]), String.class, Activity.class).invoke(null, obj, this.ac);
        }
    }
    public String decrypt(String str) throws Exception {
        Cipher cipher = Cipher.getInstance("AES/ECB/PKCS5Padding");
        cipher.init(2, this.key);
        return new String(cipher.doFinal(Base64.decode(str, 2)));
    }

    ...
}
  ```,
  caption: [Code de la classe principale de l'application calculé par Jadx, avant modification],
)<fig:th-demo-avant>

Après avoir lancé notre analyse statique et instrumenté l'application pour y ajouter les informations dynamique, Jadx montre maintenant le @fig:th-demo-apres.
On peut voir que les méthodes `Malicious.get_data()` et `Malicious.send_data()` sont appelées.
De plus, la classe `Malicious` qui n'était pas présente dans l'application originale est maintenant visible dans l'application modifiée.

#figure(
  ```java
    public void main() throws Exception {
        String[] strArr = {"n6WGYJzjDrUvR9cYljlNlw==", "dapES0wl/iFIPuMnH3fh7g=="};
        Class<?> loadClass = this.cl.loadClass(decrypt("W5f3xRf3wCSYcYG7ckYGR5xuuESDZ2NcDUzGxsq3sls="));
        Object obj = "imei";
        for (int i = 0; i < 2; i++) {
            Method method = loadClass.getMethod(decrypt(strArr[i]), String.class, Activity.class);
            Object[] objArr = {obj, this.ac};
            obj = T.check_is_Malicious_get_data_fe2fa96eab371e46(method) ?
              Malicious.get_data((String) objArr[0], (Activity) objArr[1]) :
              T.check_is_Malicious_send_data_ca50fd7916476073(method) ?
              Malicious.send_data((String) objArr[0], (Activity) objArr[1]) :
              method.invoke(null, objArr);
        }
    }
    ```,
    caption: [Code de `Main.main()` calculé par Jadx, après modifications],
)<fig:th-demo-apres>

Dans le code de `Malicious`, `get_data()` retourne des données d'une source d'information sensible, et `send_data()` exfiltre les données qui lui sont passées.
Une fuite d'information devrait donc être détecté par Flowdroid.
Lancé sur l'application originale, Flowdroid calcule un graphe d'appel de méthodes contenant 43 arcs, et ne détecte aucune fuite.
En revanche, lancé sur l'application modifiée, Flowdroid calcule cette fois un graphe de 76 arsc, et détecte bien la fuite de données.

Bien que nous n'ayons pas pu tester notre approche correctement à grande échelle dû aux limites de notre environnement d'analyse statique, nous avons bien montré qu'il est possible de transmettre des informations dynamiques à des outils d'analyse statique pour améliorer leurs résultat.


] /*#[
== Conclusion

]*/

/*
* Vocabulaire:
* - Obfuscation: brouillage, Reverse Engineering: Ingénierie Inverse,  jofr 1 jav 2013 https://www.legifrance.gouv.fr/jorf/jo/id/JORFCONT000026871045
* - Malware: Maliciel, https://cyber.gouv.fr/le-cyberdico#M
* - Bytecode: Code à octets, https://www.culture.gouv.fr/fr/thematiques/langue-francaise-et-langues-de-france/agir-pour-les-langues/moderniser-et-enrichir-la-langue-francaise/nos-publications/Vocabulaire-des-TIC-2017
* - API: IPA (interface de programmation d'application) https://www.enseignementsup-recherche.gouv.fr/fr/bo/22/Hebdo21/CTNR2212247K.htm
* - SDK: Kit de développement logiciel (KDL?) https://www.cnil.fr/fr/definition/kit-de-developpement-logiciel-ou-sdk-software-development-kit
*
* autres ref:
* - https://www.enseignementsup-recherche.gouv.fr/fr/bo/22/Hebdo21/CTNR2212247K.htm
* - https://datafranca.org/wiki/Cat%C3%A9gorie:Cybers%C3%A9curit%C3%A9
* - https://cyber.gouv.fr/le-cyberdico
*/