Inteligencia Artificial

Named-Entity Recognition (NER): Qué es, técnicas y ejemplos

¿Te gustaría comprender cómo se pueden identificar automáticamente nombres de personas, lugares y organizaciones en grandes textos? La Named-Entity Recognition (NER) es la respuesta, y en este artículo te contamos qué es NER, las técnicas más efectivas para implementarla y ejemplos de su uso en diversos sectores.

Luis López Cuerva

Lectura 7 minutos

Publicado el 11 de julio de 2024

Introducción

¿Alguna vez te has preguntado qué técnica nos permite conocer automáticamente si la palabra “banco” se refiere a mobiliario, peces o entidades bancarias?

¿Alguna vez has querido detectar de manera automática qué organizaciones se mencionan en un texto?

En OpenWebinars te respondemos estas y muchas más preguntas.

Named-Entity Recognition es la técnica de inteligencia artificial que nos permite identificar, reconocer y clasificar entidades en cualquier tipo de textos.

El 80% de los datos presentes en empresas se clasifican como textos no estructurados, el tipo de dato perfecto para aplicar NER. Además, NER es una técnica que se emplea a la hora de realizar un gran número de tareas.

Cuando queremos hacer sistemas de recomendación como el “Ver a continuación” de Netflix, buscadores especializados como Booking o analizar la presencia de nuestra marca en redes sociales utilizamos NER.

Casi todas las tareas de procesamiento del lenguaje natural (NLP o PLN) que abordemos en nuestra vida laboral van a utilizar NER de alguna manera. Así que vamos a analizar en profundidad esta técnica.

¡Comencemos a extraer entidades!

Qué es el Named-Entity Recognition (NER)

Named-Entity Recognition, también conocido como “reconocimiento de entidades nombradas” es una subtarea perteneciente al NLP.

Concretamente NER es una tarea de extracción de información en texto no estructurado que busca localizar y clasificar las entidades presentes dentro de un texto en un conjunto de categorías predefinidas.

A lo largo de esta publicación vamos a estar refiriéndonos constantemente al término entidad, así que vamos a definirlo. Una entidad es una palabra, una expresión o un conjunto de palabras que hacen referencia a un objeto, concepto, individuo u organización. Por tanto, una entidad es una unidad de información con significado propio y que se puede identificar de manera única en un texto.

Relevancia en la IA y en el NLP

Named-Entity Recognition es una subtarea del procesamiento del lenguaje natural crucial para poder realizar un gran número de tareas como puede ser la creación de chatbots y asistentes virtuales, los sistemas de recuperación de información, el análisis de marcas en redes sociales o los sistemas de recomendación.

Esto se debe a que NER ayuda a comprender el lenguaje, ya que permite conocer de qué habla un texto y qué se menciona de forma implícita y explícita. Si quieres conocer en mayor profundidad las taras de NLP te recomendamos nuestro curso de introducción al PLN.

Funcionamiento y tipos de entidades reconocidas

El funcionamiento general de NER se puede dividir en tres fases:

Creación de las categorías: En esta primera fase creamos el conjunto de categorías en las que queremos clasificar las entidades que reconozcamos. Podemos crear nuestras propias categorías personalizadas, pero existe un conjunto de categorías estándar que veremos más adelante.
Reconocimiento de entidades: En la segunda fase la técnica de NER que estemos utilizando se encargará de reconocer las entidades presentes en el texto. Más adelante veremos las diferentes aproximaciones.
Desambiguación de entidades: Finalmente realizaremos la desambiguación de entidades para aquellas que puedan hacer referencia a distintos elementos. Por ejemplo, en la frase: “El banco de Valencia ha abierto una oficina” debemos detectar que “banco de valencia” hace referencia a una organización financiera y no a la ciudad de Valencia.

Tipos de entidades nombradas

Con el paso del tiempo se ha estandarizado un conjunto de categorías para realizar NER, aunque es relativamente común crear conjuntos de categorías personalizadas cuando se desea llevar a cabo una tarea muy específica.

Las categorías estándar son las siguientes:

Entidades personales: Engloba todas las entidades que hacen referencia a personas. Por ejemplo, nombres, apellidos, apodos y pseudónimos.
Organizaciones y empresas: Incluye empresas, grupos políticos, bandas musicales, clubs deportivos, organismos gubernamentales y organizaciones públicas. Es destacable que las nacionalidades y las religiones no se incluyen en este tipo de entidad.
Lugares geográficos: Esta categoría incluye lugares geográficos como países, ciudades, regiones o calles.
Fechas y tiempos: Engloba todas las entidades que hacen referencia a fechas y tiempos específicos.
Otras entidades: Incluye entidades que no se ajustan a las categorías anteriores, como nombres de eventos, nombres de productos, nombres de obras de arte, etc.

Principales técnicas empleadas

A lo largo del tiempo se han empleado muchas aproximaciones diferentes para aplicar NER.

Las tres técnicas que han presentado mejores resultados a lo largo del tiempo son las reglas basadas en el lenguaje, los modelos estadísticos y recientemente los modelos basados en aprendizaje profundo.

Reglas basadas en el lenguaje

Las primeras aproximaciones que obtuvieron resultados prometedores fueron aquellas basadas en reglas. Estas aproximaciones hacen uso de un conjunto de reglas para identificar entidades en el texto. Estas reglas se basan en las reglas gramaticales del idioma en el que se esté trabajando y la estructura interna de las oraciones.

Estas aproximaciones tienen la ventaja de ser fáciles de implementar y entender, pero pueden ser limitadas en su capacidad para manejar la complejidad del lenguaje natural y la variabilidad en la forma en que se expresan las entidades.

Modelos estadísticos

El segundo tipo de aproximaciones que obtuvieron resultados satisfactorios fueron los modelos estadísticos. Estos modelos aprenden a identificar patrones directamente desde los datos para aprender a reconocer y desambiguar las entidades. Requieren de conjuntos de datos etiquetados, pero son más efectivos que las aproximaciones basadas en reglas, ya que pueden aprender a reconocer patrones complejos y variados en los datos.

Algunos de los modelos estadísticos más utilizados a lo largo del tiempo son:

Modelos ocultos de Markov(HMM).
Conditional Random Fields (CRF).

Modelos de aprendizaje profundo

Los modelos basados en el aprendizaje profundo (Deep Learning) son actualmente la aproximación que presenta mejores resultados. Al igual que los modelos estadísticos aprenden a reconocer patrones complejos en los datos a partir de datasets etiquetados. Sin embargo, los modelos basados en aprendizaje profundo son mucho más flexibles, potentes y han demostrado tener una mayor precisión.

El enfoque más tradicional de estos modelos es la red neuronal Long-short term memory (LSTM), pero actualmente los transformers son los modelos neuronales que obtienen mejores resultados. Si quieres aprender más acerca de los modelos deDeep Learning y su uso en tareas de NLP te recomendamos nuestro curso de aprendizaje automático y PLN.

Principales aplicaciones del NER

NER es una técnica fundamental en el procesamiento de lenguaje natural que tiene una amplia variedad de aplicaciones en diferentes campos. De entre todas ellas queremos destacar cuatro aplicaciones principales.

Procesamiento de textos y documentos: El NER se utiliza en el procesamiento de textos y documentos para extraer información relevante, como nombres de personas, lugares, organizaciones, fechas, etc. Esto es útil en aplicaciones como la búsqueda de información, la clasificación de documentos y la extracción de conocimientos.
Análisis de redes sociales: El NER se utiliza en el análisis de redes sociales para identificar y analizar las entidades nombradas en los posts, tweets, comentarios, etc. Esto es útil para entender de qué habla la opinión pública, identificar tendencias y monitorear la reputación de una marca o persona.
Motores de búsqueda y recuperación de información: El NER se utiliza en motores de búsqueda y recuperación de información para mejorar la precisión de los resultados de búsqueda. Al identificar y clasificar las entidades nombradas en los documentos, los motores de búsqueda pueden proporcionar resultados más relevantes y precisos.
Asistentes virtuales y chatbots: El NER se utiliza en asistentes virtuales y chatbots para entender y responder a las preguntas y solicitudes de los usuarios. Al identificar y clasificar las entidades nombradas en las preguntas, los asistentes virtuales y chatbots pueden proporcionar respuestas más precisas y relevantes.

Beneficios de Named-Entity Recognition (NER)

Aunque existen un gran número de beneficios provenientes de incorporar técnicas de NER a nuestras tareas de NLP, destacamos los cuatro beneficios principales.

Mejora en la precisión y eficiencia: El NER mejora la precisión y eficiencia en la extracción y análisis de información, ya que permite identificar y clasificar automáticamente las entidades nombradas en los textos. Esto reduce el tiempo y el esfuerzo necesarios para analizar grandes cantidades de datos y mejora la precisión de los resultados.
Automatización y eficiencia operativa: El NER permite automatizar procesos que anteriormente requerían intervención humana, como la extracción de información de textos y la clasificación de entidades. Esto mejora la eficiencia operativa y reduce los costes asociados con la mano de obra y el tiempo.
Mejora en la experiencia del usuario: El NER mejora la experiencia del usuario en aplicaciones como la búsqueda de información, la recuperación de documentos y la interacción con asistentes virtuales. Al proporcionar resultados más precisos y relevantes, el NER mejora la satisfacción del usuario y la experiencia general.

Ecosistema para trabajar con NER

NER es una tarea popular que se puede llevar a cabo en prácticamente todos los ecosistemas modernos enfocados al NLP. Queremos destacar los tres ecosistemas más utilizados.

spaCy

spaCy es una biblioteca de procesamiento de lenguaje natural moderna para Python que incluye herramientas para NER. spaCy es conocida por su velocidad y precisión a la hora de llevar a cabo tareas de NLP. Además, ofrece una API fácil de usar para desarrolladores.

spaCy utiliza modelos de aprendizaje automático para identificar entidades nombradas en el texto, y ofrece una variedad de características y herramientas para trabajar con NER, incluyendo:

Identificación de entidades nombradas: spaCy puede identificar entidades nombradas como personas, lugares, organizaciones, fechas, etc.
Clasificación de entidades: spaCy puede clasificar entidades nombradas en categorías como persona, lugar, organización, etc.
Extracción de información: spaCy puede extraer información relevante de los textos, como nombres de personas, lugares y organizaciones.

NLTK (Natural Language Toolkit)

NLTK es una biblioteca de procesamiento de lenguaje natural para Python que incluye herramientas para NER. NLTK es una de las bibliotecas más populares y ampliamente utilizadas para el procesamiento de lenguaje natural, y ofrece una variedad de herramientas y recursos para trabajar con NER, incluyendo:

Identificación de entidades nombradas: NLTK puede identificar entidades nombradas como personas, lugares, organizaciones, fechas, etc.
Clasificación de entidades: NLTK puede clasificar entidades nombradas en categorías como persona, lugar, organización, etc.
Extracción de información: NLTK puede extraer información relevante de los textos, como nombres de personas, lugares y organizaciones.

Transformers y Modelos Avanzados

Los modelos de transformers como BERT y RoBERTa han revolucionado el campo del procesamiento de lenguaje natural en los últimos años. Estos modelos utilizan técnicas de aprendizaje profundo para aprender a representar el lenguaje natural de manera efectiva y han demostrado ser muy precisos.

Para trabajar con modelos de transformers, generalmente se utilizan las bibliotecas Torch, TensorFlow y Keras.

Torch es una biblioteca de aprendizaje automático para Python que incluye herramientas para trabajar con modelos de transformers. Torch es conocida por su velocidad y flexibilidad, y es ampliamente utilizada en investigación. Además, ofrece una variedad de características y herramientas para trabajar con modelos de transformers, incluyendo:

Implementaciones de modelos de transformers: Incluye implementaciones de modelos de transformers como BERT o RoBERTa.
Herramientas para la creación de modelos: Ofrece herramientas para la creación de modelos de transformers personalizados.

TensorFlow es una biblioteca de aprendizaje automático para Python que incluye herramientas para trabajar con modelos de transformers. TensorFlow es conocida por su escalabilidad y flexibilidad, y es ampliamente utilizada a nivel industrial.

Keras es una biblioteca de aprendizaje automático para Python que se puede utilizar con TensorFlow como backend. Keras es conocida por su facilidad de uso y su capacidad para crear modelos de aprendizaje automático personalizados.

La combinación de TensorFlow y Keras ofrece una variedad de características y herramientas para trabajar con modelos de transformers, incluyendo:

Implementaciones de modelos de transformers: TensorFlow y Keras incluyen tanto implementaciones de capas tipo transformer sin entrenar como modelos transformers completos preentrenados.
Herramientas para el prototipado de modelos: TensorFlow y Keras ofrecen herramientas para la creación extremadamente rápida de modelos de transformers

Si quieres convertirte en un experto en Tensorflow, Keras y la Inteligencia Artifical te recomendamos nuestra ruta de especialista en Inteligencia Artificial.

Conclusiones

NER es una subtarea del procesamiento del lenguaje natural que representa el pasado, el presente y el futuro del NLP. Ha sido una de las tareas más populares y desafiantes en el campo del procesamiento del lenguaje natural y su importancia no ha disminuido con el tiempo.

De hecho, con el advenimiento de nuevas técnicas y modelos, como los transformers, el NER ha experimentado un renacimiento y ha demostrado ser una tarea fundamental para una variedad de aplicaciones, desde la extracción de información hasta la interacción con asistentes virtuales.

¡Tenemos NER para rato!

Lo que deberías recordar del Named-Entity Recognition (NER)

NER es una de las subtareas más populares del área de procesamiento del lenguaje natural.
Existen múltiples aproximaciones para llevar a cabo NER, pero los transformers son la alternativa que genera mejores resultados.
NER es la subtarea que permite mejorar la precisión y eficiencia de la mayoría de las tareas de NLP.
NER es una de las subtareas de NLP con mayor cantidad de aplicaciones.
NER es una tarea que está en constante evolución, con nuevos enfoques y técnicas que se desarrollan continuamente.

Compartir este post

Técnicas clave para el procesamiento de texto en NLP

Imagina tener la capacidad de transformar grandes cantidades de texto en información útil y procesable. Las técnicas de NLP permiten hacer precisamente...

Pablo Huet

Curso

Aprendizaje Automático y PLN

Intermedio

2 h. y 29 min.

Esta formación busca explorar las posibilidades del Aprendizaje Automático dentro del dominio del Procesamiento de Lenguaje Natural, comenzando...

Arturo Sánchez Palacio

4.4