Une tâche importante qui incombe à lenfant est de reconnaître puis de mémoriser les mots qui lui parviennent dans le flux de la parole environnante, afin de les utiliser dans ses propres énoncés. Confronté à un flux continu de parole, le jeune enfant doit donc en extraire des unités porteuses dune forme et effectuer ce quon appelle segmentation lexicale. Le but de cette thèse est dapprofondir plusieurs aspects du processus de segmentation par des simulations computationnelles fondées sur des méthodes dapprentissage machine non supervisé appliquées à des corpus langagiers de grande taille. Nous analyserons lémergence du lexique en contexte, via le traitement non supervisé de grands corpus de parole en relation avec des scènes visuelles. Des modèles computationnels pour lacquisition du lexique ont déjà été proposés mais ils sont le plus souvent limités au traitement des séquence de symboles (séquences de phonèmes issues dune transcription manuelle des signaux enregistrés). La première originalité de cette thèse est la proposition de modèles applicables directement sur le signal de parole. Pour cela, nous convoquerons les avancées récentes de lapprentissage profond (architectures neuronales de type « encodeur-décodeur» ou « end-to-end »). La seconde originalité de cette thèse est la volonté détudier lémergence du lexique à partir dun contexte. A cette fin, nous nous appuierons sur des corpus multimodaux préexistants, particulièrement le corpus synthétique SPEECH-COCO constitué de plus de 600.000 scènes visuelles décrites oralement ainsi que sur le corpus DylNet, collecté lors dinteractions denfants à lécole maternelle.