Reconocimiento de entidades nombradas (NER)

En el procesamiento del lenguaje natural, el reconocimiento de entidades nombradas (NER) es un proceso mediante el cual se analiza una oración o un fragmento de texto para encontrar entidades que pueden clasificarse en categorías como persona, organización, lugar u otras como obras de arte, idiomas, partidos políticos, eventos, títulos de libros, etc.

Esta función está disponible para los siguientes idiomas:

  • Inglés
  • Alemán
  • Español
  • Portugués
  • Francés
  • Neerlandés
  • Ruso
  • Chino simplificado

Puede considerarse como un procedimiento especial de autocodificación en el que usted, como usuario, no introduce un término de búsqueda. En su lugar, ATLAS.ti recorre sus datos y encuentra entidades por usted.

Puede seleccionar qué tipos de entidades desea buscar:

  • persona
  • organización
  • lugar
  • miscelánea (obras de arte, idiomas, partidos políticos, eventos, títulos de libros, etc.)

Una vez completada la búsqueda, ATLAS.ti le muestra lo que encontró y puede realizar correcciones. En el siguiente paso puede revisar los resultados en contexto y codificar todos los resultados con los códigos sugeridos, o decidir por cada hallazgo si desea codificarlo o no.

Para abrir la herramienta:

En el menú principal, seleccione Código > Buscar y codificar > Reconocimiento de entidades nombradas.

Seleccione los documentos o grupos de documentos que desea buscar y haga clic en Continuar.

Alcance de NER

Seleccione si la unidad base para la búsqueda y la codificación debe ser párrafos, oraciones o palabras, y qué categoría de entidad desea buscar.

Definir consulta NER

Administrar modelos: Si desea mejorar sus resultados, puede descargar e instalar un modelo más completo.

Haga clic en Administrar modelos si desea instalar o desinstalar un modelo extendido.

Haga clic en Continuar para comenzar a buscar en los documentos seleccionados. En la siguiente pantalla se presentan los resultados de la búsqueda y puede revisarlos.

Revisión de los resultados de la búsqueda

Si seleccionó buscar todos los tipos de entidades (personas, lugares, organizaciones y miscelánea), puede revisarlos todos juntos o centrarse en un tipo de entidad a la vez. Para ello, desactive todos los demás tipos de entidades.

Revisión de resultados de búsqueda NER

Seleccione todos los resultados que desea codificar. Si un resultado es interesante pero aparece en la categoría incorrecta, puede cambiar la categoría en la segunda columna de la lista de resultados. En la tercera columna se muestra el nombre de código sugerido.

Autocodificar resultados

Tiene tres opciones para el nombre del código:

  • Solo categoría: Si selecciona esta opción, todos los hallazgos de la búsqueda se codificarán bajo la categoría NER: Persona, Lugar, Organización, Miscelánea.

  • Categoría: Entidad: Si selecciona esta opción, se crearán categorías con subcódigos para las NUEVAS categorías: Persona, Lugar, Organización, Miscelánea. Las entidades se convertirán en los subcódigos.

También tiene la opción de agrupar todos los códigos de una categoría NER en un grupo de códigos. Esta opción es útil si seleccionó la segunda opción con subcódigos.

Haga clic en Continuar para inspeccionar los resultados en contexto.

La página de resultados le muestra un Lector de citas que indica dónde se encuentran las citas al codificar los datos con el código propuesto. Si ya existe una codificación en la cita, también se mostrará.

Resultados NER

Haciendo clic en el ojo, puede alternar entre vistas previas pequeñas y grandes.

Puede recorrer y revisar cada segmento de datos y luego codificarlo haciendo clic en el más junto al nombre del código. O bien, puede codificar todos los resultados seleccionando el botón Aplicar códigos. Puede seleccionar la primera opción Aplicar todos los códigos, o seleccionar solo un código de la lista.

Si ha seleccionado la opción de categoría: subcódigo para la codificación, los resultados de la codificación podrían verse de la siguiente manera:

Resultados de codificación NER

Según el área que haya seleccionado al principio, se codificará la palabra, la oración o el párrafo.

El Diálogo de codificación habitual también está disponible para agregar o eliminar códigos.

Codificación manual de declaraciones sugeridas

El motor de búsqueda detrás de NER

ATLAS.ti utiliza spaCy como su motor de procesamiento del lenguaje natural. Puede encontrar información más detallada aquí.

Los datos de entrada se procesan en una cadena de procesamiento: paso a paso para mejorar el conocimiento derivado del paso anterior. Haga clic aquí para obtener más detalles.

El primer paso es un tokenizador para dividir un texto dado en partes significativas y reemplazar elipsis, etc. Por ejemplo, la oración:

"I should've known (didn't back then)." se tokenizará como: "I should have known ( did not back then )."

El tokenizador utiliza un vocabulario para cada idioma y asigna un vector a cada palabra. Este vector fue aprendido previamente mediante el uso de un corpus y representa un tipo de similitud de uso en el corpus utilizado. Haga clic aquí para obtener más información.

El siguiente componente es un etiquetador que asigna etiquetas de categoría gramatical a cada token y lexema si el token es una palabra. La secuencia de caracteres "mine" (en inglés), por ejemplo, tiene significados bastante diferentes dependiendo de si es un sustantivo o un pronombre.

Por lo tanto, no se usa simplemente una lista de palabras como referencia. En consecuencia, tampoco existe la opción de agregar sus propias palabras a una lista ni de ver la lista de palabras que se utiliza.

El reconocedor de entidades está entrenado con texto similar al de Wikipedia y funciona mejor con texto gramaticalmente correcto, similar al de una enciclopedia. Utilizamos modelos preentrenados modificados o construidos desde cero, según el idioma.