2 repository-uri
Transformer architectures that utilize a bidirectional encoder to process inputs and an autoregressive decoder to generate outputs.
Distinct from Encoder-Decoder Generation Methods: The candidates are either vision-specific or overly narrow; this covers the general NLP encoder-decoder architecture.
Explore 2 awesome GitHub repositories matching artificial intelligence & ml · Encoder-Decoder Transformers. Refine with filters or upvote what's useful.
Acesta este un framework de machine learning pentru tratarea diverselor sarcini de procesare a limbajului natural ca o problemă unificată de tip text-to-text. Oferă un toolkit pentru pre-antrenarea și ajustarea fină a modelelor transformer la scară largă, utilizând un sistem în care atât input-urile, cât și output-urile sunt formatate ca secvențe de text brut. Framework-ul se distinge prin sistemul său de antrenare distribuită, care utilizează strategii bazate pe mesh pentru a scala ponderile modelelor și batch-urile de antrenament pe mai multe nuclee TPU. Susține învățarea multi-task prin combinarea diverselor seturi de date într-un singur flux de antrenament folosind rate de amestec configurabile, permițând unui singur model să gestioneze diverse sarcini lingvistice. Sistemul acoperă o gamă largă de capabilități, inclusiv arhitecturi encoder-decoder, decodare beam-search pentru generarea de text și fluxuri de lucru de transfer learning. Include utilitare pentru pregătirea seturilor de date NLP, evaluarea performanței modelului și exportul checkpoint-urilor antrenate pentru servire în producție. Biblioteca susține încărcarea checkpoint-urilor de modele pre-antrenate de diverse dimensiuni pentru a accelera dezvoltarea.
Provides a transformer architecture featuring a bidirectional encoder and an autoregressive decoder for sequence-to-sequence tasks.
Acest proiect este o resursă educațională cuprinzătoare de machine learning și o serie de tutoriale livrate sub formă de colecție de Jupyter Notebooks interactive. Oferă implementări practice în Python pentru întregul ciclu de viață al machine learning-ului, acoperind învățarea supervizată și nesupervizată, deep learning și reinforcement learning. Resursa se remarcă prin ghiduri detaliate de implementare pentru arhitecturi complexe, inclusiv transformatoare, rețele generative adversariale (GAN) și rețele neuronale convoluționale. Include, de asemenea, cursuri specializate pentru dezvoltarea de agenți de reinforcement learning folosind Q-learning și Deep Q-Networks în medii simulate. Conținutul acoperă o gamă largă de capabilități în data science, inclusiv pipeline-uri de data engineering, codificarea trăsăturilor (feature encoding) și reducerea dimensionalității. Oferă materiale extinse despre evaluarea modelelor prin cross-validation și metrici de diagnostic, precum și subiecte avansate precum procesarea limbajului natural (NLP), analiza sentimentelor și AI generativ. Întregul curriculum este conceput pentru execuție interactivă în Jupyter Notebooks, combinând cod executabil, text bogat și vizualizări.
Implements transformer architectures using encoder-decoder structures for processing and generating sequential information.