CATALOGUE Code & Data Formation Python Maîtriser Python Maîtrisez les Fonctions Groupby et Tee d'Itertools en Python

Maîtrisez les Fonctions Groupby et Tee d'Itertools en Python

Itertools : Groupby et tee
Vidéo non disponible ! Réessayez plus tard
Cette vidéo fait partie de la formation
Maîtriser Python
Revoir le teaser Je m'abonne
5,0
Transcription


99,00€ Je commande

Formation incluse dans l'abonnement Elephorm Je m'abonne à Elephorm

DescriptionProgrammeAvis
5,0

99,00€ Je commande

Formation incluse dans l'abonnement Elephorm Je m'abonne à Elephorm

A la fin de cette vidéo, vous serez capable de comprendre et d'appliquer les fonctions groupby et tee de itertools pour améliorer vos manipulations de données en Python.

Découvrez comment utiliser les fonctions groupby et tee de la bibliothèque itertools en Python pour grouper et dupliquer efficacement vos itérateurs.

Dans cette leçon, nous allons explorer deux fonctions essentielles de la bibliothèque itertools en Python : groupby et tee. La fonction groupby permet de grouper des éléments selon une condition spécifique, tandis que tee duplique un itérable pour permettre des lectures parallèles.

Nous commencerons par examiner la fonction groupby. Cette fonction est souvent mal comprise car elle nécessite que l'ensemble de données soit trié au préalable. De plus, groupby retourne un générateur contenant lui-même des générateurs, rendant l'évaluation des résultats moins intuitive. Par exemple, nous pouvons grouper un ensemble de lettres triées par ordre alphabétique.

Ensuite, nous illustrerons un exemple plus concret : parcourir un système de fichiers en catégorisant les fichiers selon leur taille (inférieure à 10 Ko, entre 10 Ko et 100 Ko, et supérieure à 100 Ko). Cela démontre l'utilité de groupby pour des cas d'utilisation réels plus complexes.

Ensuite, nous traiterons tee, une fonction permettant de dupliquer un itérable pour des lectures en parallèle. Bien que tee soit souvent mal compris, il offre des avantages significatifs pour traiter des générateurs en parallèle, minimisant l'utilisation de la mémoire en fonction du parcours des éléments.

Voir plus
Questions réponses
Pourquoi est-il important de trier les données avant d'utiliser groupby ?
groupby ne fonctionne correctement que sur des données triées ; sinon, il pourrait ne pas grouper les éléments comme attendu.
Comment fonctionne la duplication d'un itérable avec tee ?
tee crée deux nouveaux générateurs qui peuvent être lus indépendamment, ce qui permet de parcourir le même itérable plusieurs fois.
Quels sont les avantages d'utiliser tee avec des générateurs infinis ?
tee permet de lire des générateurs en parallèle tout en optimisant l'utilisation de la mémoire, même pour des générateurs infinis, à condition de gérer correctement la consommation des éléments.

Programme détaillé

2 commentaires
5,0
2 votes
5
4
3
2
1
michelkreutner
Il y a 1 year
Commentaire
Les explications sont claires et concises. Ce cours sur l'utilisation avancée de Python est tres intéressant. Il vous apportera des connaissances que vous pourrez ensuite approfondir.
Je suis vraiment tres satisfait par cette première formation suivie sur Python.
yvan.vogel
Il y a 2 years
Commentaire
Hello, sur la video autour de asyncio, vous utilisez python 2.7.12. J'utilise python 3.10, aussi je souhaite faire partager mon code (qui fonctionne) selon ma vision et compréhension sur le sujet d'étude que vous avez proposé. Yvan Vogel.

#CODE en python 3.10.0 64 bits (VScode 1.62.3)
import datetime
import asyncio
import aiohttp
import requests


# ----------------------------------------------------------------------------------------------------------------------------
def req_bloquante(num):
print(f"Get {num}")
uid = requests.get("https://httpbin.org/uuid").json()["uuid"]
print(f"Res {num}: {uid}")


def faire_toutes_les_requetes():
for x in range(51):
req_bloquante(x)


print("=====> ### Bloquant : ")
start = datetime.datetime.now()
faire_toutes_les_requetes()
exec_time = (datetime.datetime.now() - start).seconds
print(f"Downloading all take {exec_time} seconds\n")

# ----------------------------------------------------------------------------------------------------------------------------


async def requeteSansBloquer(semaphore, num, session):
print(f"Get {num}")
# await semaphore.acquire() # putting this await semaphore commande the Res is ordering but process very slow ~60 sec
async with session.get("https://httpbin.org/uuid") as response:
uid = (await response.json())["uuid"]
# await asyncio.sleep(delay=3) #delay = number of seconds
# semaphore.release()
print(f"Res {num}: {uid}")
# return uid # ?


async def main():
semaphore = asyncio.Semaphore(value=1)
tasks = []
async with aiohttp.ClientSession(
loop=loop, connector=aiohttp.TCPConnector(ssl=False)
) as session:
for x in range(51):
tasks.append(requeteSansBloquer(semaphore, x, session))
await asyncio.gather(*tasks)
print("This is after the loop...")


if __name__ == "__main__":
print("=====> ### Non Bloquant : ")
start = datetime.datetime.now()
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
exec_time = (datetime.datetime.now() - start).microseconds
print(f"Downloading all take {exec_time} micro seconds\n")