Información del curso

Título: Introducción al procesamiento del lenguaje natural
código: 81336
ECTS: 1.5
Horas: 50 ( 20 de ellas de clase)
Semestre: segundo
Modalidad: presencial
Comienzo de clases: 8 de febrero de 2024

Descripción

Actividad dirigida tanto a alumnos de áreas científico-técnicas (informática) como de humanidades (lingüística).

Este curso introducirá al alumno en el tema del PLN y las tecnologías que lo sustentan, dando una visión general con un enfoque divulgativo y práctico y sin entrar a fondo en sus formalismos teóricos. El curso tendrá un carácter teórico-práctico y comprenderá estos aspectos:

  • Introducción y conceptos básicos de PLN.
  • Aplicaciones prácticas (ej.: traducción, clasificación de textos, análisis de sentimientos, búsqueda de información, detección de “spam”, etc.)
  • Clasificación de las diferentes técnicas (ej.: aprendizaje automático, reglas, etc.) y tareas (“POS tagging”, análisis sintáctico, reconocimiento de entidades nombradas, segmentación de textos, “word sense disambiguation”, resolución de anáforas, etc.).
  • Recursos lingüísticos (e.j.: WordNet, BabelNet)
  • Modelos de lenguaje basados en «transformers» (ej.: BERT, GPT-3)
  • Los datos lingüísticos enlazados («linguistic linked data»)
  • Ejercicios prácticos con librerías abiertas de PLN (ej.: Stanford CoreNLP, OpenNLP, spaCy).

Grupos

El curso se impartirá en un único grupo en modalidad presencial. En los días previos al inicio de las clases se confirmará el lugar y hora de impartición (si bien se intentará mantener el horario de años anteriores: jueves a las 19:00)

Evaluación

La actividad se evaluará en base a la asistencia activa a clase (al menos un 75% de las sesiones).

También se basará en la realización de un trabajo final que, a elección del alumno, podrá ser de carácter práctico (programa informático) o bien elaborando una memoria escrita sobre alguno de los contenidos de la asignatura.

Perfil del alumno

La actividad va dirigida a alumnos de grado de la Universidad de Zaragoza, pero los alumnos de otros niveles (master y doctorado) también son bienvenidos de oyentes. Se espera un doble perfil de alumnos:

  • científico/técnico (con conocimientos en programación)
  • lingüística/humanidades (sin conocimientos en programación)

La duración del curso es de 50 horas, que engloban tanto las clases teórico-prácticas (20 horas) como el trabajo individual de seguimiento del curso y la realización y presentación del trabajo final.

Los ejercicios prácticos se adaptarán al nivel de conocimientos previos de los asistentes (por una parte ejercicios de programación para aquellos asistentes con conocimientos informáticos y, por otra parte, uso de herramientas de usuario final para aquellos alumnos sin conocimientos previos de programación).

Se recomienda (aunque no será obligatorio) venir a clase con un ordenador portátil para poder seguir mejor la parte práctica de la asignatura.

Matrícula

  • Alumnos de grado: El estudiante realiza la matrícula a través del servicio de automatrícula junto con el resto de asignaturas de su plan de estudios de la Universidad de Zaragoza. El siguiente plazo de matrícula es del 26 de enero al 2 de febrero de 2024
  • Otros perfiles de alumnos (estudiantes de master, doctorado, profesionales de empresa, alumnos de otras universidades, etc.) pueden asistir también al curso como oyentes, bajo petición previa por correo electrónico y sujeto a disponibilidad de espacio libre en el aula.

Planificación

    • Sesión 1 (8/02/2024) – Presentación del curso. Historia y conceptos básicos del PLN.
    • Sesión 2 (15/02/2024) – Tareas básicas del PLN. Extracción de entidades.
    • Sesión 3 (22/02/2024) – Corpus. Representación de sentidos.
    • Sesión 4 (29/02/2024) –  Medidas semánticas. Semántica distribucional. Embeddings.
    • Sesión 5 (7/03/2024) –  Sociolingüística computacional (tema invitado). Modelos del lenguaje basados en transformers (introducción)
    • Sesión 6 (14/03/2024) – Modelos del lenguaje basados en transformers (continuación)
    • Sesión 7 (11/04/2024)  – Modelos del lenguaje basados en transformers (finalización) 
    • Sesión 8 (18/04/2024)  – Charla invitada
    • Sesión 9 (25/04/2024) –  Evaluación de sistemas de PLN. Datos lingüísticos enlazados. 
    • Sesión 10 (16/05/2024) – Presentación de trabajos.

Charla invitada

Título: «Lingüística computacional: puentes entre academia e industria.»

Ponente: Daniela Corbetta. DAIL software

Horario

Jueves de 19:00 a 21:00

Las clases comenzarán el 8 de febrero de 2024

Lugar de impartición

Aula A11
Edificio Ada Byron
Campus Río Ebro
Universidad de Zaragoza
C/ María de Luna 1
50018 Zaragoza

Ubicación: