Visión general
- La visión por computadora es la tecnología que permite que el mundo digital interactúe con el mundo real.
- Explore 5 de las aplicaciones más populares de Computer Vision
- Estimación de pose usando visión artificial
- Transformación de imágenes usando Gans
- Visión por computadora para el desarrollo de herramientas de distanciamiento social
- Conversión de imágenes 2D en modelos 3D
- Análisis de imágenes médicas
Empecé a usar Facebook hace 10 años. Asimismo, si lo usaste hace mucho tiempo debes recordar el etiquetado manual de fotografías. Pero ahora no tenemos que etiquetar estas imágenes manualmente. Facebook reconoce a la mayoría de las personas en la imagen cargada y ofrece sugerencias para etiquetarlas. Del mismo modo, debe haber visto esos filtros divertidos en Snapchat donde la gente usa el filtro de perro y se pone cara de perro. ¿Te has preguntado alguna vez cómo es posible todo esto? ¿Cómo puede nuestro teléfono detectar nuestra cara y agregar filtros sobre ella? Estas son algunas de las aplicaciones de visión artificial.
La visión por computadora es uno de los campos de investigación más candentes en el mundo de la ciencia de datos. Además, se ha convertido en parte de nuestra vida personal. A sabiendas o sin saberlo, todos usamos varias funciones que tienen técnicas de visión por computadora que se ejecutan en el backend. Por ejemplo, usamos el desbloqueo facial en nuestros teléfonos inteligentes. La siguiente imagen explica de manera eficiente cómo funciona la detección de rostros.
Fuente: https://www.pinterest.com
Elijo la detección de rostros para comenzar este artículo, ya que esta es la única aplicación de la visión por computadora que todos hemos visto. Pero créame, la visión por computadora no se limita a esto. En este artículo, explorará aplicaciones más interesantes de la visión por computadora.
Si está buscando dominar la visión por computadora, consulte nuestro curso Visión por computadora usando Deep Learning 2.0
Tabla de contenido
- ¿Qué es la Visión por Computadora?
- Estimación de pose usando visión artificial
- Transformación de imágenes usando Gans
- Visión por computadora para el desarrollo de herramientas de distanciamiento social
- Conversión de imágenes 2D en modelos 3D
- Análisis de imágenes médicas
¿Qué es la Visión por Computadora?
Antes de adentrarnos en el mundo de las aplicaciones de visión por computadora, primero, entendamos qué es la visión por computadora. En resumen, la visión por computadora es una rama multidisciplinaria de la inteligencia artificial que intenta replicar las poderosas capacidades de la visión humana.
Si pasamos por la definición formal,
«La visión por computadora es una utilidad que toma decisiones útiles sobre objetos físicos reales y escenas basadas en imágenes detectadas» (Sockman y Shapiro, 2001)
La visión por computadora funciona a través de técnicas de reconocimiento visual como clasificación de imágenes, detección de objetos, segmentaciónLa segmentación es una técnica clave en marketing que consiste en dividir un mercado amplio en grupos más pequeños y homogéneos. Esta práctica permite a las empresas adaptar sus estrategias y mensajes a las características específicas de cada segmento, mejorando así la eficacia de sus campañas. La segmentación puede basarse en criterios demográficos, psicográficos, geográficos o conductuales, facilitando una comunicación más relevante y personalizada con el público objetivo.... de imágenes, seguimiento de objetos, reconocimiento óptico de caracteres, subtítulos de imágenes, etc. Sé que estos son muchos términos técnicos, pero entenderlos no es difícil. Solo vea la imagen a continuación y comprenderá muchas de estas terminologías.
fuente: https: //www.oreilly.com/library/view/python-advanced-guide
Empecemos por la primera imagen. Si te pregunto, ¿qué hay en la imagen? Tu respuesta será, es un gato. Esta es la clasificación. Eso significa etiquetar la imagen en función de su clasificación. Aquí la clase es ‘Gato’.
Ahora conoces la clase de la imagen. La siguiente pregunta es dónde se encuentra el objeto en la imagen. Cuando identificamos la ubicación del objeto en el marco y creamos un cuadro delimitador a su alrededor, se conoce como localización. En la segunda imagen, identificamos la ubicación del objeto y lo etiquetamos como un gato.
El siguiente término es la detección de objetos. En los dos casos anteriores, tenemos un solo objeto en la imagen, pero ¿qué pasa si hay varios objetos presentes? Aquí identificamos las instancias presentes y su ubicación mediante cuadros delimitadores.
En la detección de objetos, utilizamos un cuadro delimitador de forma cuadrada o rectangular, pero no dice nada sobre la forma de los objetos. La segmentación de instancias crea una máscara de píxeles alrededor de cada objeto. Por lo tanto, la segmentación de instancias brinda una comprensión más profunda de la imagen.
Consulte los siguientes recursos si desea saber más sobre Computer Vision-
Desarrollos recientes
Los desarrollos recientes en los enfoques de aprendizaje profundoEl aprendizaje profundo, una subdisciplina de la inteligencia artificial, se basa en redes neuronales artificiales para analizar y procesar grandes volúmenes de datos. Esta técnica permite a las máquinas aprender patrones y realizar tareas complejas, como el reconocimiento de voz y la visión por computadora. Su capacidad para mejorar continuamente a medida que se le proporcionan más datos la convierte en una herramienta clave en diversas industrias, desde la salud... y los avances en la tecnología han aumentado enormemente las capacidades de los sistemas de reconocimiento visual. Como resultado, las empresas han adoptado rápidamente la visión por computadora. Se pueden ver casos de uso exitosos de visión por computadora en los sectores industriales que conducen a la ampliación de las aplicaciones y al aumento de la demanda de herramientas de visión por computadora.
Ahora, sin perder más tiempo, pasemos a las 5 emocionantes aplicaciones de la visión por computadora.
Estimación de la postura humana
La estimación de la postura humana es una aplicación interesante de la visión por computadora. Debes haber oído hablar de Posenet, que es un modelo de código abierto para la estimación de la pose humana. En resumen, la estimación de pose es una técnica de visión por computadora para inferir la pose de una persona u objeto presente en la imagen / video.
Antes de discutir el funcionamiento de la estimación de pose, primero comprendamos el ‘Esqueleto de pose humana’. Es el conjunto de coordenadas para definir la pose de una persona. Un par de coordenadas se conoce como extremidad. Además, la estimación de la pose se realiza identificando, localizando y rastreando los puntos clave del esqueleto de la pose de los humanos en una imagen o video.
fuente: https: //www.researchgate.net/publication/338905462_The_’DEEP’_Landing_Error_Scoring_System
Las siguientes son algunas de las aplicaciones de la estimación de pose humana:
- Reconocimiento de actividad para análisis deportivo en tiempo real o sistema de vigilancia.
- Para experiencias de realidad aumentada
- En entrenamientoEl entrenamiento es un proceso sistemático diseñado para mejorar habilidades, conocimientos o capacidades físicas. Se aplica en diversas áreas, como el deporte, la educación y el desarrollo profesional. Un programa de entrenamiento efectivo incluye la planificación de objetivos, la práctica regular y la evaluación del progreso. La adaptación a las necesidades individuales y la motivación son factores clave para lograr resultados exitosos y sostenibles en cualquier disciplina.... de Robots
- Animación y juegos
Los siguientes son algunos conjuntos de datos si desea desarrollar un modelo de estimación de pose usted mismo:
encontré DeepPose de Google como un trabajo de investigación muy interesante que utiliza modelos de aprendizaje profundo para la estimación de poses. Para profundizar más, puede visitar varias investigaciones documentos disponible en la estimación de pose
Transformación de imágenes mediante GAN:
Faceapp es una aplicación muy interesante y de moda entre la gente. Es una herramienta de manipulación de imágenes y transforma la imagen de entrada mediante filtros. Los filtros pueden incluir la antigüedad o el filtro de intercambio de un género reciente.
fuente: https: //comicbook.com/marvel/news/marvel-men-faceapp-gender-swap/#18
Mira la imagen de arriba, ¿verdad? Hace unos meses era un tema candente en Internet. La gente estaba compartiendo imágenes después de cambiar su género. Pero, ¿cuál es la tecnología que funciona detrás de estas aplicaciones? Sí, lo adivinó correctamente, es Computer Vision, para ser más específicos, sus redes adversarias generativas de convolución profunda.
Redes generativas antagónicas conocidas popularmente como GAN es una innovación emocionante en el campo de la visión por computadora. Aunque las GAN son un concepto antiguo, en la forma actual fue propuesto por Ian Goodfellow en 2014. Desde entonces ha experimentado muchos desarrollos.
El entrenamiento de GAN involucra dos redes neuronales que se enfrentan entre sí para generar nuevos datos basados en la distribución de los datos de entrenamiento dados. Aunque originalmente se propuso como un mecanismo de aprendizaje no supervisadoEl aprendizaje no supervisado es una técnica de machine learning que permite a los modelos identificar patrones y estructuras en datos sin etiquetas predefinidas. A través de algoritmos como k-means y análisis de componentes principales, este enfoque se utiliza en diversas aplicaciones, como la segmentación de clientes, la detección de anomalías y la compresión de datos. Su capacidad para revelar información oculta lo convierte en una herramienta valiosa en la..., las GAN han demostrado ser un buen candidato para el aprendizaje supervisadoEl aprendizaje supervisado es un enfoque de machine learning donde un modelo se entrena utilizando un conjunto de datos etiquetados. Cada entrada en el conjunto de datos está asociada a una salida conocida, lo que permite al modelo aprender a predecir resultados para nuevas entradas. Este método es ampliamente utilizado en aplicaciones como la clasificación de imágenes, el reconocimiento de voz y la predicción de tendencias, destacando su importancia en... y semi-supervisado.
Para saber más sobre el funcionamiento de Gans, consulte el artículo a continuación.
Los siguientes son algunos artículos de investigación de lectura obligatoria sobre GAN que personalmente recomiendo:
Los siguientes son algunos conjuntos de datos que lo ayudarán a obtener experiencia práctica con las GAN:
Aplicaciones
Cuando se trata de discutir las aplicaciones de Imágenes generadas con Gans, tenemos muchas. Las siguientes son algunas de sus aplicaciones:
- Traducción de imagen a imagen en transferencia de estilo y foto en pintura
- Super resoluciónLa "resolución" se refiere a la capacidad de tomar decisiones firmes y cumplir con los objetivos establecidos. En contextos personales y profesionales, implica definir metas claras y desarrollar un plan de acción para alcanzarlas. La resolución es fundamental para el crecimiento personal y el éxito en diversas áreas de la vida, ya que permite superar obstáculos y mantener el enfoque en lo que realmente importa.... de imagen
- Generación de texto a imagen
- Edición de imagen
- Traducción semántica de imagen a foto
Si encuentra algo más interesante, hágamelo saber en la sección de comentarios.
Visión por computadora para desarrollar herramientas de distanciamiento social
Durante los últimos meses, el mundo sufre la pandemia de COVID-19. Se constata que hasta que no se disponga de la vacuna de la enfermedad, todos debemos tomar las medidas de precaución de utilizar desinfectantes de manos, mascarilla y lo más importante es el seguimiento del distanciamiento social.
La tecnología de visión por computadora puede jugar un papel vital en este escenario crucial. Se puede usar para rastrear a las personas en una premisa o un área en particular para saber si están siguiendo las normas de distanciamiento social o no.
La herramienta de distanciamiento social es una aplicación de detección y seguimiento de objetos en tiempo real. En este caso, para comprobar la violación de distanciamiento social, detectamos a cada persona presente en el video mediante un cuadro delimitador. Posteriormente rastreamos el movimiento de cada caja en el marco y calculamos la distancia entre ellas. Si detecta alguna violación de la norma de distanciamiento social, resalta esos cuadros delimitadores.
Además, para que estas herramientas sean más avanzadas y precisas, puede utilizar técnicas de aprendizaje por transferencia. Varios modelos de detección de objetos previamente entrenados como YOLO o Máscara R-CNN también están ahí.
El siguiente artículo te ayuda a crear una herramienta de distanciamiento social por ti mismo:
Crear un modelo 3D a partir de imágenes 2D
Aquí hay otra aplicación muy interesante de la visión por computadora. Está convirtiendo imágenes bidimensionales en modelos 3D. Por ejemplo, imagina que tienes una fotografía de tu colección anterior y puedes transformarla en un modelo 3D e inspeccionar como si estuvieras allí.
fuente: https: //petapixel.com/2020/02/28/facebook-now-lets-you-turn-any-2d-photo-into-a-3d-image-using-ai
Los investigadores de Deep Mind han creado un sistema de inteligencia artificial que funciona en líneas similares. Es conocido como Red de consulta generativa, Puede percibir imágenes desde diferentes ángulos como los humanos.
Además, Nvidia ha desarrollado una arquitectura de inteligencia artificial que puede predecir propiedades 3D a partir de una imagen. De manera similar, Facebook AI ofrece una herramienta similar conocida como Función de foto 3D.
Los siguientes son algunos conjuntos de datos relevantes disponibles para que experimente con ellos:
Además, compruebe estas artículos interesantes para saber más sobre la aplicación.
Aplicaciones
Ahora debes estar pensando en los casos de uso de esta tecnología. Las siguientes son sus aplicaciones:
- Animación y juegos
- Robótica
- Automóviles autónomos
- Diagnóstico médico y operaciones quirúrgicas.
Visión por computadora en la atención médica: análisis de imágenes médicas
Desde hace mucho tiempo, las imágenes médicas asistidas por computadora se utilizan para un diagnóstico como tomografías computarizadas, rayos X, etc. Además, los desarrollos recientes en las tecnologías de visión por computadora permiten a los médicos comprenderlas mejor al convertirlas en modelos interactivos en 3D y hacer su interpretación fácil.
Si observamos el caso de uso más reciente de la visión por computadora, descubriremos que está detectando casos de COVID-19 mediante una radiografía de tórax. Además, según un estudio del Departamento de Radiología, Wuhan, los métodos de aprendizaje profundo se pueden usar de manera eficiente para distinguir Covid-19 de la neumonía adquirida en la comunidad.
Revisar la Radiografía de tórax COVID -19 conjunto de datos de Kaggle y ensuciarse las manos en la implementación.
Mientras tanto, si desea trabajar en otro conjunto de datos, tiene Imágenes de medical CT también disponible en Kaggle. Además, si desea saber más sobre el procesamiento de imágenes médicas y sus aplicaciones en la atención médica, lea estas trabajos de investigación y sus implementaciones.
Notas finales
En resumen, la visión por computadora es un campo fascinante de la inteligencia artificial. Nombre el campo y obtendrá una solicitud de CV allí. En este artículo, hablé de algunos de ellos que me parecieron interesantes. Pero esto es solo la punta del iceberg.
En caso de que esté interesado en saber cómo tener una carrera en Visión por Computador, lea lo siguiente-
Ahora es su turno de comenzar la implementación de la visión por computadora por su cuenta. No olvide compartir su aplicación de visión artificial favorita en el cuadro de comentarios.
Relacionado
Posts Relacionados:
- Aprenda la visión por computadora | Ruta de aprendizaje de visión artificial
- Visión por computadora con OpenCV y Python
- Aplicaciones de ciencia de datos | Aplicaciones de la ciencia de datos y la inteligencia artificial en el mundo real
- ¿Dónde está la pestaña Aplicaciones en iTunes o cómo acceder a la App Store en iTunes en su computadora? 3 formas