## Configuration

### Connexion à la base de données

In [None]:
%reload_ext sql
%sql postgresql://user_tp:ue_info_reseaux_db@localhost/ue_info_reseaux_db

### Schéma par défaut

In [None]:
%%sql
SET search_path TO game; -- Allow to use automaticaly game schema

## Énigme 1 : Les tentatives de connexion

### Objectif 1 : Identification des attaques par force brute

In [None]:
%%sql

### Objectif 2 : Analyse de la distribution temporelle

La cellule ci-dessous permet de configurer l'affichage pour afficher tous les résultats de votre requête qui seront récupérés par la ligne 
```python
result = _
``` 
du script python qui suit.

In [None]:
%config SqlMagic.displaylimit = None

Modifiez la requête ci-dessous :

In [None]:
%%sql

SELECT 
    ip_address,
    attempt_date::timestamp::date as date,
    EXTRACT(HOUR FROM attempt_date) as heure,
    COUNT(*) as nb_tentatives
FROM login_attempts
GROUP BY 
    ip_address,
    attempt_date::timestamp::date,
    EXTRACT(HOUR FROM attempt_date)
ORDER BY nb_tentatives DESC;

Dans la cellule précédente remplacez `%%sql` par `%%sql result1 <<` pour charger la sortie SQL dans un dataframe et exécutez le script suivant :

In [None]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime, timedelta

# Récupération des résultats de la requête SQL
df = result1.DataFrame()

# Conversion des colonnes Decimal en int
df['heure'] = df['heure'].astype(int)
df['minute'] = df['minute'].astype(int)

# Création d'une colonne datetime en combinant date, heure et minute
df['datetime'] = pd.to_datetime(df['date']) + \
                pd.to_timedelta(df['heure'], unit='h') + \
                pd.to_timedelta(df['minute'], unit='m')

# Calcul des dates min et max
date_min = df['datetime'].min()
date_max = df['datetime'].max()
total_hours = (date_max - date_min).total_seconds() / 3600

# Détermination de la fréquence des ticks en fonction de la durée totale
if total_hours <= 1:  # Moins d'1h
    freq = '10min'
    date_format = '%Hh%M'
elif total_hours <= 3:  # Moins de 3h
    freq = '15min'
    date_format = '%Hh%M'
elif total_hours <= 6:  # Moins de 6h
    freq = '30min'
    date_format = '%Hh%M'
elif total_hours <= 12:  # Moins de 12h
    freq = '1H'
    date_format = '%Hh%M'
elif total_hours <= 24:  # Moins de 24h
    freq = '2H'
    date_format = '%Hh%M'
elif total_hours <= 48:  # Moins de 48h
    freq = '4H'
    date_format = '%d/%m %Hh'
else:  # Jusqu'à 72h
    freq = '6H'
    date_format = '%d/%m %Hh'

# Calcul du nombre de bins adaptatif (1 bin = 5 minutes)
nb_bins = int(total_hours * 12)  # 12 intervals de 5 minutes par heure

# Configuration du style
plt.figure(figsize=(15, 7))

# Création de l'histogramme
sns.histplot(data=df, 
            x='datetime',
            weights='nb_tentatives',
            bins=nb_bins,
            color='steelblue')

# Personnalisation du graphique
plt.title(f'Distribution temporelle des tentatives de connexion échouées\n'
          f'du {date_min.strftime("%d/%m/%Y %Hh%M")} au {date_max.strftime("%d/%m/%Y %Hh%M")}', 
          pad=20, 
          fontsize=14)
plt.xlabel(f"Date et Heure (intervalles de 5 minutes)", fontsize=12)
plt.ylabel('Nombre de tentatives de connexion échouées', fontsize=12)

# Configuration adaptative de l'axe X
dates = pd.date_range(start=date_min, end=date_max, freq=freq)
plt.xticks(dates, [d.strftime(date_format) for d in dates], rotation=45)

# Ajout d'une grille
plt.grid(True, alpha=0.3)

# Ajustement de la mise en page
plt.tight_layout()

On limite maintenant l'affichage à 15 lignes :

In [None]:
%config SqlMagic.displaylimit = 15

## Énigme 2 : Analyse des comptes corrompus

### Objectif 1 : Détection des connexions simultanées

In [None]:
%%sql

### Objectif 2 : Identification des comptes suspects

In [None]:
%%sql

## Énigme 3 : Les transactions suspectes

### Objectif 1 : Détection des micro-transactions nocturnes

In [None]:
%%sql

### Objectif 2 : Distribution géographique des transactions suspectes

Modifiez la requête suivante :

In [None]:
%%sql
    
WITH stats_par_ville AS (
    -- Cette première partie calcule toutes les statistiques par ville
    SELECT 
        l.city as ville,
        l.country as pays,
        COUNT(*) as nb_transactions,
        COUNT(DISTINCT t.customer_id) as nb_comptes,
        ROUND(AVG(t.amount)::numeric, 2) as montant_moyen,
        COUNT(DISTINCT t.ip_address) as nb_ips,
        -- Ratio : nombre de transactions par compte
        ROUND(COUNT(*)::numeric / NULLIF(COUNT(DISTINCT t.customer_id), 0), 1) as ratio_tx_compte,
        -- Ratio : nombre d'IPs différentes par compte
        ROUND(COUNT(DISTINCT t.ip_address)::numeric / NULLIF(COUNT(DISTINCT t.customer_id), 0), 1) as ratio_ip_compte
    FROM transactions t
    JOIN locations l ON t.ip_address LIKE l.ip_range || '%'
    WHERE t.transaction_date >= '2024-03-15'
    GROUP BY l.city, l.country
    HAVING COUNT(*) > 0
)
SELECT 
    ville,
    pays,
    nb_transactions as "nombre de transactions",
    nb_comptes as "nombre de comptes",
    montant_moyen as "montant moyen",
    nb_ips as "nombre d'IPs",
    ratio_tx_compte as "transactions par compte",
    ratio_ip_compte as "ip par compte",
    -- À vous d'implémenter le calcul du score de risque ici !
    -- Il doit combiner trois CASE pour les différents critères
    [votre code ici] as score_risque
FROM stats_par_ville
ORDER BY score_risque DESC;

Dans la cellule précédente remplacez `%%sql` par `%%sql result2 <<` pour charger la sortie SQL dans un dataframe et exécutez le script suivant :

In [None]:
import folium
import pandas as pd
import numpy as np

# Récupération des résultats de la requête SQL
df = result2.DataFrame()

# Conversion des colonnes en types appropriés
df['montant moyen'] = df['montant moyen'].astype(float)
df['score_risque'] = df['score_risque'].astype(float)

# Coordonnées des villes
coords = {
    # France
    'Paris': [48.8566, 2.3522],
    'Lyon': [45.7500, 4.8500],
    'Marseille': [43.2965, 5.3698],
    'Bordeaux': [44.8378, -0.5792],
    'Lille': [50.6292, 3.0573],
    'Toulouse': [43.6047, 1.4442],
    
    # International
    'New York': [40.7128, -74.0060],
    'Sao Paulo': [-23.5505, -46.6333],
    'Tokyo': [35.6762, 139.6503],
    'Moscow': [55.7558, 37.6173],
    'St. Petersburg': [59.9343, 30.3351],
    'Berlin': [52.5200, 13.4050],
    'Beijing': [39.9042, 116.4074],
    'Mumbai': [19.0760, 72.8777],
    'Singapore': [1.3521, 103.8198]
}

# Création de la carte centrée sur une vue mondiale
m = folium.Map(location=[30, 0], zoom_start=2)

def get_color(score):
    if score >= 70:
        return 'red'
    elif score >= 40:
        return 'orange'
    else:
        return 'yellow'

# Calcul du rayon min et max pour l'échelle des cercles
min_amount = float(df['montant moyen'].min())
max_amount = float(df['montant moyen'].max())

def get_radius(amount):
    min_radius = 3
    max_radius = 8
    if amount == min_amount:
        return min_radius
    return min_radius + (max_radius - min_radius) * (np.log(amount) - np.log(min_amount)) / (np.log(max_amount) - np.log(min_amount))

# Ajout des marqueurs
for _, row in df.iterrows():
    if row['ville'] in coords:
        popup_content = f"""
        <div style="width:200px">
            <b>{row['ville']} ({row['pays']})</b><br>
            Nombre de transactions: {int(row['nombre de transactions'])}<br>
            Nombre de comptes: {int(row['nombre de comptes'])}<br>
            Montant moyen: {float(row['montant moyen']):,.2f}€<br>
            Transactions par compte: {float(row['transactions par compte']):,.1f}<br>
            IPs par compte: {float(row['ip par compte']):,.1f}<br>
            Score de risque: {int(row['score_risque'])}
        </div>
        """
        
        folium.CircleMarker(
            coords[row['ville']],
            radius=get_radius(float(row['montant moyen'])),
            popup=folium.Popup(popup_content, max_width=300),
            color=get_color(row['score_risque']),
            fill=True,
            fillColor=get_color(row['score_risque']),
            fillOpacity=0.7,
            weight=2
        ).add_to(m)

# Légende des niveaux de risque
legend_html = '''
<div style="position: fixed; 
            bottom: 50px; 
            right: 50px; 
            z-index: 1000;
            padding: 10px;
            background-color: white;
            border-radius: 5px;
            box-shadow: 0 0 15px rgba(0,0,0,0.2);">
            <p><strong>Score de risque</strong></p>
            <p><i style="background: red; width: 15px; height: 15px; display: inline-block; border-radius: 50%;"></i> ≥ 70 (Élevé)</p>
            <p><i style="background: orange; width: 15px; height: 15px; display: inline-block; border-radius: 50%;"></i> 40-69 (Moyen)</p>
            <p><i style="background: yellow; width: 15px; height: 15px; display: inline-block; border-radius: 50%;"></i> < 40 (Faible)</p>
</div>
'''
m.get_root().html.add_child(folium.Element(legend_html))

# Légende des tailles
amounts_for_legend = [min_amount, 
                     np.exp((np.log(min_amount) + np.log(max_amount))/2), 
                     max_amount]

legend_html = '''
<div style="position: fixed; 
            bottom: 50px; 
            left: 50px; 
            z-index: 1000;
            padding: 10px;
            background-color: white;
            border-radius: 5px;
            box-shadow: 0 0 15px rgba(0,0,0,0.2);">
            <p><strong>Montant moyen</strong></p>
'''
for amount in amounts_for_legend:
    legend_html += f'<p><i style="background: #666; width: {get_radius(amount)}px; height: {get_radius(amount)}px; display: inline-block; border-radius: 50%;"></i> {amount:,.0f}€</p>'
legend_html += '</div>'
m.get_root().html.add_child(folium.Element(legend_html))

# Affichage de la carte
m