Reconocimiento de Entidades Nombradas

Video Tutorial: Reconocimiento de entidades con nombre.

En el procesamiento del lenguaje natural, el Reconocimiento de Entidades Nombradas (NER, por sus siglas en inglés) es un proceso en el que se analiza una frase o una porción de texto para encontrar entidades que puedan clasificarse en categorías como persona, organización, lugar o diversas como obras de arte, idiomas, partidos políticos, eventos, títulos de libros, etc.

Esta función está disponible para los siguientes idiomas:

  • Inglés
  • Alemán
  • Español
  • Portugués
  • Francés
  • Holandés
  • Ruso
  • Chino simplificado

Puede pensar en ello como un procedimiento especial de autocodificación, en el que usted, como usuario, no introduce un término de búsqueda. En su lugar, ATLAS.ti revisa sus datos y encuentra las entidades por usted.

Puede seleccionar las entidades que desea buscar:

  • persona
  • organización
  • ubicación
  • misceláneos (obras de arte, idiomas, partidos políticos, eventos, títulos de libros, etc.)

Una vez completada la búsqueda, ATLAS.ti le muestra lo que ha encontrado y puede hacer correcciones. En el siguiente paso puede revisar los resultados en contexto y codificar todos los resultados con los códigos sugeridos, o decidir para cada resultado si lo codifica o no.

Para abrir la herramienta:

Seleccione la pestaña Buscar & Codificar y desde allí Reconocimiento de Entidades Nombradas.

Seleccione los documentos o grupos de documentos que desea buscar y haga clic en Continuar.

Seleccione si la unidad base de la búsqueda y la codificación deben ser párrafos, frases o palabras, y qué categoría de entidad desea buscar.

Definir consulta NER

Gestionar modelos: Si quieres mejorar tus resultados, puedes descargar e instalar un modelo más completo.

Haga clic en Administrar Modelos si desea instalar o desinstalar un modelo ampliado.

Haga clic en Continuar para iniciar la búsqueda de los documentos seleccionados. En la siguiente pantalla, se presentan los resultados de la búsqueda y puede revisarlos.

Revisar los resultados de la búsqueda

Si ha seleccionado la búsqueda de todos los tipos de entidades (personas, ubicación, organización y misceláneos), puede revisarlos todos juntos, o solo centrarse en una entidad a la vez. Para ello, desactive todos los demás tipos de entidades.

Revisar los resultados de la búsqueda NER

Seleccione todos los resultados que desee codificar.. Si un resultado es interesante pero aparece en la categoría equivocada, puede cambiar la categoría en la segunda columna de la lista de resultados. En la tercera columna aparece el nombre del código sugerido.

Resultados de la autocodificación

Tiene tres opciones para el nombre del código:

  • Sólo categoría: si selecciona esta opción, todos los resultados de la búsqueda se codificarán en la categoría NER: Persona, Lugar, Organización, Varios

  • Categoría: Entidad: Si selecciona esta opción, se crearán categorías con subcódigos para las NUEVAS categorías: Persona, Localización, Organización, Varios. Las entidades se convertirán en los subcódigos.

También tiene la opción de agrupar todos los códigos de una categoría NER en un grupo de códigos. Esta opción es útil si ha seleccionado la segunda opción con subcódigos.

Haga clic en Mostrar resultados para inspeccionar los resultados en contexto.

La página de resultados le muestra un Lector de citas indicando dónde están las citas al codificar los datos con el código propuesto. Si la codificación ya existe en la cita, también se mostrará.

Resultados de la TNE

Haciendo clic en el ojo, puedes cambiar entre la vista previa reducida y la ampliada.

Puede revisar cada segmento de datos y codificarlo haciendo clic en el signo más situado junto al nombre del código. También puede codificar todos los resultados a la vez seleccionando Aplicar códigos propuestos. Puede seleccionar la primera opción Aplicar todos los códigos, o seleccionar sólo un código de la lista.

Si ha seleccionado la opción categoría: subcódigo para la codificación, los resultados de la codificación podrían tener el siguiente aspecto:

Resultados de codificación NER

Dependiendo del área que haya seleccionado al principio, se codifica la palabra, la frase o el párrafo.

El [Diálogo de codificación] regular(../Codes/CodingData_es.md) también está disponible para agregar o eliminar códigos.

Codificación manual de las frases sugeridas

El motor de búsqueda detrás de NER

ATLAS.ti utiliza spaCy como motor de procesamiento del lenguaje natural. Puede encontrar información más detallada aquí.

Los datos de entrada se procesan en una cadena, un paso tras otro para mejorar el conocimiento derivado del paso anterior. Haga clic aquí para más detalles.

El primer paso es un tokenizador para dividir un texto dado en partes significativas y sustituir las elipsis, etc. Por ejemplo, la frase en inglés:

"Debería haberlo sabido (entonces no lo sabía)". se convertirá en token: “I should have known ( did not back then ).“

El tokenizador utiliza un vocabulario para cada idioma para asignar un vector a una palabra. Este vector se aprendió previamente utilizando un corpus y representa un tipo de similitud de uso en el corpus utilizado. Haga clic aquí para más información.

El siguiente componente es un etiquetador que asigna etiquetas de parte del discurso a cada token y a los lexemas si el token es una palabra. La secuencia de caracteres "mío", por ejemplo, tiene significados muy diferentes según se trate de un sustantivo o un pronombre.

Por lo tanto, no se trata solo de una lista de palabras que se utiliza como referencia. Por lo tanto, tampoco existe la opción de agregar sus propias palabras a una lista o de ver la lista de palabras que se utiliza.

El reconocedor de entidades se ha entrenado en textos similares a los de la wikipedia y funciona mejor en textos gramaticalmente correctos y similares a los de la enciclopedia. Utilizamos modelos modificados preformados o construidos desde cero, según el idioma.