PDF to HTML by MaxAI.co

DISEÑO DE UN MODELO DE APRENDIZAJE
AUTOMÁTICO PARA VIDEOVIGILANCIA
INTELIGENTE PARA LA DETECCIÓN
AUTOMÁTICA DE ARMAS DE FUEGO
ENFOCADO A RESTAURANTES UBICADOS EN
EL CANTÓN QUITO
DESIGN OF A MACHINE LEARNING MODEL FOR
INTELLIGENT VIDEO SURVEILLANCE FOR THE
AUTOMATIC DETECTION OF FIREARMS, FOCUSED ON
RESTAURANTS LOCATED IN THE QUITO CANTON
Raquel Victoria Pacheco Olivo
Universidad Central del Ecuador
Víctor Geovanny Vallejo Villavicencio
Universidad Central del Ecuador
Diego Armando Enríquez Gutiérrez
Universidad Central del Ecuador
Alexander Vladimir Rojas Cevallos
Universidad Central del Ecuador
José Octavio Bonilla Peñaherrera
Universidad Central del Ecuador

pág. 11182
DOI: https://doi.org/10.37811/cl_rcm.v9i5.20463
Diseño de un modelo de aprendizaje automático para videovigilancia
inteligente para la detección automática de armas de fuego enfocado a
restaurantes ubicados en el cantón Quito
Raquel Victoria Pacheco Olivo1
raquelpachecoolivo07@gmail.com
https://orcid.org/0009-0004-4235-7654
Universidad Central del Ecuador
Ecuador
Víctor Geovanny Vallejo Villavicencio
vgvv89@hotmail.com
https://orcid.org/0009-0003-2282-0843
Universidad Central del Ecuador
Ecuador
Diego Armando Enríquez Gutiérrez
diegoenriquez847@gmail.com
https://orcid.org/0009-0008-3986-3520
Universidad Central del Ecuador
Ecuador
Alexander Vladimir Rojas Cevallos
Alexrojas01_@hotmail.com
https://orcid.org/0009-0007-7521-7262
Universidad Central del Ecuador
Ecuador
José Octavio Bonilla Peñaherrera
Bonillajee@hotmail.com
https://orcid.org/0009-0006-1072-8785
Universidad Central del Ecuador
Ecuador
RESUMEN
El presente estudio tuvo como objetivo diseñar e implementar un modelo de aprendizaje automático
para videovigilancia inteligente, orientado a la detección automática de armas de fuego en restaurantes
del cantón Quito, con el propósito de fortalecer la seguridad ciudadana, prevenir incidentes delictivos y
aportar evidencia empírica sobre la aplicabilidad de la inteligencia artificial en contextos urbanos. La
investigación respondió al incremento sostenido de la delincuencia armada en el país, que ha impactado
de manera significativa al sector gastronómico. Frente a la limitada efectividad de los sistemas de
videovigilancia tradicionales, se propuso una solución innovadora basada en redes neuronales
convolucionales (CNN) y aprendizaje profundo, integrando la arquitectura YOLOv8n, una versión
optimizada para detección en tiempo real. El enfoque metodológico fue cuantitativo, aplicativo y
descriptivo, sustentado en la medición estadística del desempeño del modelo. Se utilizaron 1.009
imágenes de armas de fuego provenientes de la plataforma Roboflow, procesadas mediante técnicas de
aumento de datos y aprendizaje por transferencia, y el modelo fue entrenado en Google Colab Pro
aplicando control de sobreajuste (early stopping). Los resultados evidenciaron una precisión del 99,5
%, un recall del 98 % y un mAP@0.5 de 0.987, confirmando su capacidad para identificar armas con
alta exactitud y estabilidad operativa. En conclusión, la implementación del modelo YOLOv8n
demostró ser una herramienta eficaz y de alto impacto para fortalecer la seguridad en restaurantes,
ofreciendo una alternativa tecnológica avanzada que promueve la prevención del delito y la confianza
social mediante el uso responsable de la inteligencia artificial.
Palabras clave: videovigilancia inteligente; detección de armas; aprendizaje profundo; inteligencia
artificial; YOLOv8n.
1 Autor principal
Correspondencia: raquelpachecoolivo07@gmail.com

pág. 11183
Design of a machine learning model for intelligent video surveillance for the
automatic detection of firearms, focused on restaurants located in the Quito
canton
ABSTRACT
The present study aimed to design and implement a machine learning model for intelligent video
surveillance, focused on the automatic detection of firearms in restaurants in the Quito canton, with the
purpose of strengthening public safety, preventing criminal incidents, and providing empirical evidence
on the applicability of artificial intelligence in urban contexts. The research addressed the sustained
increase in armed crime in the country, which has significantly impacted the gastronomic sector. Given
the limited effectiveness of traditional video surveillance systems, an innovative solution based on
convolutional neural networks (CNN) and deep learning was proposed, integrating the YOLOv8n
architecture, an optimized version for real-time detection. The methodological approach was
quantitative, applied, and descriptive, supported by the statistical measurement of the model's
performance. A total of 1,009 firearm images from the Roboflow platform were used, processed through
data augmentation techniques and transfer learning, and the model was trained on Google Colab Pro
with overfitting control (early stopping). The results showed an accuracy of 99.5%, a recall of 98%, and
a mAP@0.5 of 0.987, confirming its ability to identify firearms with high precision and operational
stability. In conclusion, the implementation of the YOLOv8n model proved to be an effective and high-
impact tool for enhancing security in restaurants, offering an advanced technological alternative that
promotes crime prevention and social trust through the responsible use of artificial intelligence.
Keywords: intelligent video surveillance; weapon detection; deep learning; artificial intelligence;
YOLOv8n.
Artículo recibido 05 setiembre 2025
Aceptado para publicación: 09 octubre 2025

pág. 11184
INTRODUCCIÓN
El estudio se centró en el diseño de un modelo de aprendizaje automático para videovigilancia
inteligente, orientado a la detección automática de armas de fuego en restaurantes del cantón Quito. Este
trabajo surgió ante el aumento progresivo de la delincuencia armada en el país, fenómeno que afectó
significativamente la seguridad ciudadana y la estabilidad del sector gastronómico. Según la Fiscalía
General del Estado (2022), hasta agosto de ese año se reportaron 166 robos en restaurantes, mientras
que la Policía Nacional del Ecuador (2022) registró más de 87.000 crímenes cometidos con armas de
fuego entre 2018 y 2022. Estos hechos reflejaron la vulnerabilidad de los establecimientos y la necesidad
de aplicar tecnologías más efectivas para prevenir incidentes.
A pesar de los esfuerzos institucionales para fortalecer la seguridad mediante estrategias tradicionales,
como la presencia policial o la instalación de cámaras convencionales, estas medidas no lograron mitigar
los delitos. Ante ello, se optó por explorar soluciones innovadoras basadas en inteligencia artificial (IA),
capaces de identificar amenazas en tiempo real y generar alertas automáticas. La aplicación de la IA en
la videovigilancia permitió desarrollar sistemas predictivos más eficientes y con alta capacidad de
respuesta frente a comportamientos sospechosos, contribuyendo así a una gestión de la seguridad más
preventiva.
El artículo se sustentó en un enfoque cuantitativo y aplicado, utilizando redes neuronales
convolucionales y aprendizaje por transferencia para entrenar el modelo con un conjunto de 1.009
imágenes de armas de fuego. Se implementó la arquitectura YOLOv8n, una versión optimizada para
tareas de detección en tiempo real, balanceando eficiencia computacional y precisión. Las métricas
obtenidas precisión del 99,5% y recall del 98% demostraron la efectividad del modelo en la
identificación de armas dentro de entornos de videovigilancia. En este sentido, la investigación no solo
validó la aplicabilidad de la IA en la seguridad del sector gastronómico, sino que también evidenció su
potencial para fortalecer la confianza ciudadana y dinamizar la actividad económica local.
Marco Teórico
1. Modelo de videovigilancia inteligente basado en inteligencia artificial (IA)
El modelo de videovigilancia inteligente basado en inteligencia artificial (IA) se conceptualizó como un
sistema tecnológico diseñado para procesar información visual y detectar de manera automática

pág. 11185
comportamientos o elementos que representen una amenaza a la seguridad. En este contexto, la IA
permitió dotar a los sistemas de vigilancia de la capacidad de analizar imágenes en tiempo real,
reconocer patrones y emitir alertas tempranas. Según Gallegos et al. (2014), la inteligencia artificial se
orientó al desarrollo de sistemas capaces de emular funciones cognitivas humanas, como la percepción,
el aprendizaje y la toma de decisiones, transformando significativamente los métodos tradicionales de
monitoreo.
2. Inteligencia Artificial (IA)
La inteligencia artificial se definió como la capacidad de un sistema informático para ejecutar tareas que
normalmente requerirían razonamiento humano, tales como la toma de decisiones, el aprendizaje y el
reconocimiento de patrones. Gallegos et al. (2014) explicaron que la IA posibilitó el análisis
automatizado de grandes volúmenes de datos y la simulación de procesos cognitivos. En el campo de la
seguridad, esta tecnología se aplicó para mejorar la detección de comportamientos anómalos y optimizar
los mecanismos de respuesta ante amenazas, permitiendo una gestión más predictiva y precisa en la
videovigilancia.
3. Aprendizaje Automático (Machine Learning)
El aprendizaje automático se entendió como una subdisciplina de la IA que permitió a los sistemas
aprender de los datos sin necesidad de ser programados explícitamente. Mitchell (1997) lo definió como
un conjunto de algoritmos capaces de reconocer patrones y realizar predicciones a partir de la
experiencia. En la investigación, esta técnica se utilizó para entrenar al modelo en la identificación de
armas de fuego, logrando que el sistema mejorara su rendimiento con cada iteración. Esta capacidad de
autoaprendizaje fue clave para desarrollar un sistema adaptable a distintas condiciones de iluminación,
ángulos y entornos.
4. Aprendizaje Profundo (Deep Learning)
El aprendizaje profundo constituyó una extensión avanzada del aprendizaje automático, basada en redes
neuronales con múltiples capas que imitaron el procesamiento cerebral humano. Zhou et al. (2017)
destacaron que esta técnica permitió el análisis de datos no estructurados, como imágenes o videos,
mejorando la precisión en tareas de clasificación y reconocimiento visual. En este estudio, el aprendizaje

pág. 11186
profundo se aplicó para entrenar el modelo YOLOv8n, que procesó información visual de alta
complejidad con un desempeño sobresaliente en la detección de armas.
4. Redes Neuronales Convolucionales (CNN)
Las redes neuronales convolucionales fueron el eje central del modelo desarrollado, dado que
permitieron procesar imágenes bidimensionales para identificar objetos con alta precisión. Giménez
(2018) explicó que las CNN operaban mediante filtros convolucionales que extraían características
específicas de las imágenes, como bordes o contornos. En la investigación, estas redes facilitaron la
automatización del proceso de reconocimiento de armas, eliminando la necesidad de supervisión
humana y garantizando resultados consistentes en tiempo real.
5. Aprendizaje por Transferencia
El aprendizaje por transferencia se aplicó para aprovechar conocimientos preentrenados de redes
neuronales en nuevas tareas de detección. Pérez-Aguilar et al. (2021) señalaron que esta técnica permitió
reducir el tiempo de entrenamiento y mejorar la precisión del modelo al reutilizar pesos y características
previamente aprendidas. En la investigación, se utilizó este enfoque para ajustar la arquitectura
YOLOv8n a las condiciones visuales específicas de los restaurantes de Quito, logrando un equilibrio
entre rendimiento y eficiencia computacional.
6. Detección automática de armas de fuego en restaurantes del cantón Quito
La detección automática de armas de fuego se definió como el proceso mediante el cual un sistema de
visión computarizada, entrenado mediante técnicas de aprendizaje profundo, identificó la presencia de
armas en imágenes o secuencias de video en tiempo real. Redmon et al. (2015) describieron la
arquitectura YOLO (You Only Look Once) como un modelo de detección que analizó la totalidad de la
imagen en una sola pasada, clasificando y localizando objetos con gran eficiencia. En el presente estudio,
se aplicó la versión YOLOv8n, optimizada para lograr un desempeño superior en entornos con
limitaciones computacionales, como los sistemas de seguridad de restaurantes.
7. Arquitectura YOLOv8 y su Aplicación
El modelo YOLO (You Only Look Once), desarrollado por Redmon et al. (2015), se caracterizó por su
capacidad de detección en tiempo real, procesando una imagen completa en una sola pasada. En la
presente investigación, se empleó la versión YOLOv8n, que ofreció mejoras sustanciales en velocidad

pág. 11187
y precisión, adaptándose a entornos con recursos limitados. Durante el desarrollo del estudio, el modelo
se entrenó con 706 imágenes, validó con 202 y probó con 101, alcanzando métricas destacadas que
confirmaron su idoneidad para entornos de videovigilancia inteligente en restaurantes del cantón Quito.
Dentro de este marco, la investigación tuvo como objetivo general diseñar e implementar un modelo de
aprendizaje automático para la videovigilancia inteligente, orientado a la detección automática de armas
de fuego en restaurantes del cantón Quito, con el propósito de mejorar la seguridad, prevenir incidentes
delictivos y aportar evidencia técnica sobre la aplicabilidad de la inteligencia artificial en la gestión de
la seguridad urbana. La propuesta integró la arquitectura YOLOv8n, una red neuronal convolucional de
última generación, capaz de procesar imágenes en tiempo real con alta precisión y bajo costo
computacional, lo que permitió alcanzar resultados robustos en la identificación de objetos peligrosos.
La construcción del modelo representó un avance significativo dentro de la aplicación práctica del
aprendizaje profundo en contextos sociales, al combinar rigor técnico con impacto comunitario. En
consecuencia, el marco teórico sustentó la investigación desde una doble perspectiva: tecnológica, al
demostrar la eficacia del modelo para la detección automática, y social, al proponer una alternativa de
seguridad proactiva para el sector gastronómico de Quito. Así, el trabajo contribuyó al desarrollo de un
enfoque integral de seguridad basado en inteligencia artificial, promoviendo la innovación, la
prevención y la confianza ciudadana como pilares del bienestar colectivo.
METODOLOGÍA
La investigación se desarrolló bajo un enfoque cuantitativo, dado que se fundamentó en la medición y
análisis numérico de datos derivados del entrenamiento del modelo de aprendizaje automático. De
acuerdo con Hernández Sampieri (2014), los estudios cuantitativos permiten examinar fenómenos a
partir de la recolección y el análisis estadístico de información, con el fin de establecer patrones y
relaciones entre variables. En este sentido, el presente estudio se centró en evaluar la precisión y el
desempeño de un sistema de videovigilancia inteligente basado en inteligencia artificial, diseñado para
la detección automática de armas de fuego.
El tipo de investigación fue aplicativo y descriptivo, puesto que se orientó a la implementación práctica
de un modelo de aprendizaje profundo en un contexto real, describiendo su comportamiento y
efectividad en la detección de amenazas. Según Sampieri (2014), la investigación descriptiva busca

pág. 11188
detallar las características de un fenómeno o población, mientras que el carácter aplicativo se evidencia
cuando el conocimiento científico se utiliza para resolver problemas concretos. En este caso, se aplicaron
técnicas de visión computacional y redes neuronales convolucionales para la identificación
automatizada de armas en entornos de restauración.
En cuanto al diseño metodológico, este fue no experimental y transversal, ya que no se manipularon
variables independientes y la información se obtuvo en un único momento temporal. Arias (2012) señala
que en los estudios no experimentales el investigador observa los fenómenos tal como ocurren en su
contexto natural, sin intervenir en ellos. En consecuencia, el estudio se limitó a observar el desempeño
del modelo frente a distintos escenarios visuales, evaluando su capacidad de detección bajo condiciones
variables de iluminación, ángulo y distancia.
La población de estudio correspondió a un conjunto amplio de imágenes digitales relacionadas con
armas de fuego, y la muestra estuvo compuesta por 1.009 imágenes seleccionadas mediante un muestreo
no probabilístico intencional, considerando aquellas que presentaban mayor nitidez, variedad y
representatividad. Según Hernández Sampieri (2014), este tipo de muestreo es apropiado cuando se
requiere seleccionar unidades que aporten información relevante para el fenómeno en estudio.
Para la recolección de datos, se utilizó un conjunto de 1.009 imágenes de armas de fuego previamente
etiquetadas y disponibles en la plataforma Roboflow, lo cual permitió contar con un dataset confiable y
revisado por expertos, garantizando la precisión y consistencia de los datos desde el inicio del proyecto.
Este enfoque fue seleccionado con el fin de evitar el proceso de etiquetado manual, que, según el
documento base, podría resultar tedioso y propenso a errores al depender de la interpretación individual
del etiquetador. El uso de datos ya estructurados y categorizados redujo significativamente el tiempo de
preparación y mejoró la calidad del entrenamiento del modelo
La muestra total fue dividida en tres subconjuntos: 706 imágenes para el entrenamiento del modelo, 202
para la validación y 101 para las pruebas finales. Esta distribución se fundamentó en las
recomendaciones metodológicas de aprendizaje profundo, que establecen una proporción aproximada
de 70-20-10 para asegurar la correcta generalización del modelo (Bishop, 2006). Cada subconjunto
permitió evaluar de manera diferenciada la capacidad del sistema para aprender, ajustar y predecir con
precisión la presencia de armas de fuego bajo diferentes condiciones visuales.

pág. 11189
Durante el procesamiento, se aplicaron técnicas de aumento de datos (data augmentation), tales como
rotación, escalado, recorte y variaciones de brillo, con el propósito de incrementar la robustez del modelo
ante variaciones reales de cámara y ambiente. Asimismo, el modelo se entrenó mediante aprendizaje
por transferencia, reutilizando los pesos de una red preentrenada para acelerar la convergencia y mejorar
la precisión de la detección (Pérez-Aguilar et al., 2021).
El entrenamiento se llevó a cabo en la plataforma Google Colab Pro, que proporcionó los recursos
computacionales necesarios GPU de alto rendimiento y almacenamiento temporal para procesar
eficientemente los lotes de imágenes. Tal como se describe en el documento original, esta decisión
respondió a las limitaciones de los equipos personales, los cuales resultaron insuficientes para soportar
la carga computacional requerida. El uso de Colab permitió ejecutar ciclos de entrenamiento de hasta
100 épocas con una tasa de aprendizaje adaptativa, controlada mediante técnicas de early stopping para
prevenir el sobreajuste y optimizar la estabilidad del modelo.
Una vez finalizado el entrenamiento, se evaluó el desempeño del modelo a través de métricas como la
precisión (0.995), el recall (0.980) y el mAP (0.987), obteniendo resultados que demostraron la
eficiencia y confiabilidad del sistema en la detección de armas en tiempo real. Además, se validó el
funcionamiento del modelo mediante pruebas de inferencia en imágenes no vistas durante el
entrenamiento, confirmando su capacidad de generalización y su aplicabilidad en entornos de
videovigilancia inteligente.
En suma, la estrategia de recolección y procesamiento de datos combinó rigurosidad técnica, eficiencia
computacional y criterios éticos, lo que permitió el desarrollo de un modelo sólido, replicable y con alto
potencial de implementación práctica en sistemas de seguridad urbana y comercial.
RESULTADOS Y DISCUSIÓN
En esta sección se presentaron los principales hallazgos obtenidos tras el proceso de entrenamiento,
validación y prueba del modelo de aprendizaje automático YOLOv8n, aplicado a la detección
automática de armas de fuego en sistemas de videovigilancia inteligente. Se expusieron las métricas de
desempeño, las configuraciones técnicas empleadas y el análisis de las pruebas realizadas, con el fin de
demostrar la precisión, eficiencia y capacidad de generalización alcanzadas por el modelo. Asimismo,
se incluyeron tablas y figuras que ilustraron el comportamiento del sistema en distintos escenarios, lo

pág. 11190
que permitió evaluar su efectividad y potencial aplicación en el fortalecimiento de la seguridad en
restaurantes del cantón Quito.
El modelo YOLOv8n, desarrollado por Ultralytics, constituye la versión más reciente y optimizada de
la familia YOLO (You Only Look Once), destacándose por su alta precisión y velocidad en la detección
de objetos en tiempo real. Este modelo integra mejoras estructurales de versiones anteriores, logrando
un equilibrio entre rendimiento y eficiencia computacional.
Su versatilidad le permite ejecutar diversas tareas de visión por computadora, como clasificación,
segmentación y detección simultánea, lo que lo convierte en una herramienta fundamental para
aplicaciones que demandan respuesta inmediata, especialmente en sistemas de videovigilancia y
seguridad inteligente. En esta investigación, se seleccionó YOLOv8n por su capacidad para identificar
armas de fuego con elevada exactitud y adaptarse eficazmente a distintos entornos visuales, combinando
precisión, rapidez y bajo consumo de recursos.
Tabla 1. Características de las versiones de YOLOv8
Modelo mAP Pámetros (Millones)
YOLOv8n 37,3 3,2
YOLOv8s 44,9 11,2
YOLOv8m 50,2 25,9
YOLOv8l 52,9 43,7
YOLOv8x 53,9 68,2
Fuente: Ultralytics.
Elaborado por: Autores.
A partir de la tabla 1, se evidenció que, conforme avanzan las versiones de YOLOv8, el modelo
incrementa su complejidad y número de parámetros, lo que se traduce en una mejora del rendimiento y
precisión (mAP) en la detección de objetos. Este comportamiento confirma que una mayor capacidad
del modelo potencia su eficacia en tareas de visión por computadora, aunque también eleva los
requerimientos computacionales y de memoria. En el presente estudio, se optó por la versión YOLOv8n,

pág. 11191
que posee menos parámetros y demanda menor capacidad de procesamiento, sacrificando ligeramente
la precisión, pero manteniendo resultados eficientes y funcionales para los fines de la investigación.
Dataset de imágenes
Para el entrenamiento del modelo, se utilizó un dataset proveniente de la plataforma Roboflow,
compuesto por 1.009 imágenes previamente etiquetadas relacionadas con armas de fuego. Las imágenes
abarcan distintos contextos y perspectivas, incluyendo personas portando armas en diversos entornos y
condiciones de iluminación. Esta diversidad visual permitió fortalecer la capacidad del modelo para
reconocer armas desde diferentes ángulos, aumentando la robustez y generalización del sistema frente
a escenarios reales.
Modelo
El modelo seleccionado para el entrenamiento fue YOLOv8n, debido a su eficiencia y equilibrio entre
rendimiento y consumo de recursos. Su arquitectura, conformada por 365 capas y más de 436 millones
de parámetros, refleja una estructura profunda capaz de aprender características visuales complejas y
abstractas. Esta configuración facilita la detección precisa de objetos específicos como armas de fuego,
lo que lo convierte en una herramienta idónea para aplicaciones de seguridad y videovigilancia.
Configuración de hiperparámetros
La configuración de hiperparámetros desempeñó un papel esencial en la optimización del modelo. Se
estableció un entrenamiento de 500 épocas con una paciencia de 50 (early stopping) para evitar el
sobreajuste, y un tamaño de lote de 16 imágenes con una resolución de 800 píxeles. Esta configuración
equilibró la precisión, el uso de memoria y la estabilidad del gradiente, garantizando un aprendizaje
eficiente.
Durante la fase de entrenamiento, el modelo analizó lotes de imágenes con variaciones en entornos
interiores y exteriores, niveles de iluminación y calidad visual, lo que reforzó su capacidad de detección
en tiempo real y en condiciones variables. La resolución seleccionada permitió capturar detalles finos
sin comprometer la eficiencia computacional, optimizando así el desempeño global del sistema.
Configuración de hiperparámetros (síntesis final)
La configuración de hiperparámetros reflejó no solo una optimización técnica, sino una estrategia
práctica orientada a maximizar la efectividad del modelo YOLOv8n en escenarios reales de detección.

pág. 11192
Este enfoque equilibró la capacidad de aprendizaje con las limitaciones computacionales, garantizando
un modelo robusto, generalizable y confiable. En consecuencia, el sistema demostró un desempeño
estable y adaptable a diversas condiciones operativas, requisito fundamental para aplicaciones de
seguridad y vigilancia que demandan respuestas oportunas y precisas.
Fuente: Dataset de armas de fuego.
Elaborado por: Autores.
Entrenamiento y validación del modelo YOLOv8n
El entrenamiento y validación constituyeron etapas esenciales para garantizar la eficacia del modelo en
la detección de armas de fuego. Durante estas fases, se monitorearon métricas clave como pérdida de
entrenamiento, precisión y recall mediante gráficos generados en tiempo real por la librería de
aprendizaje utilizada. Aunque se definieron 500 épocas, el proceso se detuvo en la época 142 gracias a
la aplicación del mecanismo de early stopping, tras aproximadamente 7 horas de entrenamiento, al no
observarse mejoras significativas después de 50 iteraciones consecutivas.

pág. 11193
Las curvas de pérdida de entrenamiento (train/box_loss, train/cls_loss, train/dfl_loss) mostraron una
tendencia descendente y estable, lo que evidenció que el modelo aprendía a delimitar con precisión,
clasificar correctamente y asignar niveles adecuados de confianza a sus predicciones. Este patrón de
convergencia indicó un aprendizaje sólido y progresivo.
De manera similar, las pérdidas de validación (val/box_loss, val/cls_loss, val/dfl_loss) reflejaron una
disminución sostenida, aunque con ligeras variaciones al final del proceso, propias de la complejidad
del conjunto de datos y de la generalización ante imágenes no vistas. La estabilización de estas métricas
en valores bajos confirmó que el modelo mantenía su rendimiento sin sobreajustarse.
Finalmente, las métricas de precisión, recall y mAP (mAP50 y mAP50-95) alcanzaron niveles altos y
consistentes, consolidando el rendimiento del modelo. Estos resultados demuestran que YOLOv8n logró
un equilibrio óptimo entre exactitud, velocidad y capacidad de generalización, requisitos esenciales para
su implementación en sistemas de videovigilancia inteligente y detección automática de amenazas.
Figura 13. Proceso de Entrenamiento y validación de la arquitectura Yolov8n
Fuente: Dataset de armas de fuego.
Elaborado por: Autores.
4.2 Resultados del modelo YOLOv8n
Las métricas obtenidas evidenciaron un desempeño sobresaliente del modelo YOLOv8n en la detección
de armas de fuego. Los valores elevados de precisión (0.995) y recall (0.980) confirmaron su eficacia
tanto para identificar correctamente las armas como para minimizar los falsos positivos y falsos
negativos, garantizando un equilibrio óptimo entre exactitud y cobertura.

pág. 11194
El mAP (Mean Average Precision) alcanzó valores particularmente altos: mAP@0.5 = 0.987 y
mAP@0.5–0.95 con una mejora sostenida, lo que demostró la capacidad del modelo para mantener un
rendimiento sólido ante diferentes niveles de tolerancia de solapamiento (IoU). Estos resultados reflejan
un sistema altamente confiable y adaptable, capaz de operar eficazmente en entornos reales de seguridad
y videovigilancia, contribuyendo a la prevención de incidentes y al fortalecimiento de la seguridad
pública.
Métricas de evaluación utilizadas
Para una evaluación integral del modelo se consideraron múltiples indicadores de desempeño. Entre las
pérdidas de entrenamiento, los valores obtenidos train/box_loss = 1.1036, train/cls_loss = 0.5516, y
train/dfl_loss = 1.1601 reflejaron una mejoría progresiva en la precisión espacial, la clasificación de
objetos y la asignación de confianza en las detecciones. De igual forma, las pérdidas de validación
(val/box_loss, val/cls_loss, val/dfl_loss) mostraron una reducción sostenida, lo que confirmó la
capacidad del modelo para generalizar adecuadamente ante datos no vistos.
Asimismo, se evaluaron métricas complementarias de eficiencia operativa, como la velocidad de
inferencia, preprocesamiento y posprocesamiento, evidenciando que el modelo mantiene un rendimiento
ágil sin comprometer la precisión. La combinación de estos resultados demuestra que YOLOv8n ofrece
un desempeño equilibrado entre rapidez, exactitud y estabilidad, posicionándose como una herramienta
viable para aplicaciones reales de detección automática de armas de fuego.
Tabla 2. Análisis de Métricas de Entrenamiento para YOLOv8n
Métrica Valor Análisis
Train/box_loss 1,1036 Indica mejora en la localización de
cajas delimitadoras
Train/cls_loss 0,5516 Indica mejora en la identificación de
categorías de objetos
Train/dfl_loss) 1,1601 Indica mejora en la asignación de
confianza a predicciones
Fuente: Modelo Yolov8n.
Elaborado por: Autores.

pág. 11195
La Tabla 3 presenta los resultados obtenidos en el conjunto de validación, donde se observaron valores
uniformes de 0.008 en las métricas val/box_loss, val/cls_loss y val/dfl_loss. Estos valores
excepcionalmente bajos evidencian un alto nivel de precisión y estabilidad del modelo YOLOv8n en la
detección de objetos. En términos prácticos, pérdidas cercanas a cero indican una mínima discrepancia
entre las predicciones y las anotaciones reales, lo que refleja una capacidad sobresaliente para delimitar,
clasificar y asignar confianza a las detecciones.
La uniformidad en los valores confirma la robustez del modelo ante la variabilidad del conjunto de
validación, sugiriendo que el YOLOv8n mantiene un rendimiento consistente y confiable incluso frente
a escenarios complejos o cambiantes. Este comportamiento reafirma su potencial para aplicaciones
reales en sistemas de videovigilancia y seguridad automatizada.
Tabla 3. Análisis de Métricas de Validación para YOLOv8n
Métrica Valor Análisis
Val/box_loss 0,008 Refleja complejidad del conjunto de
datos de validación
val/cls_loss 0,008 Refleja complejidad del conjunto de
datos de validación
val/dfl_loss) 0,008 Refleja complejidad del conjunto de
datos de validación
Fuente: Modelo Yolov8n.
Elaborado por: Autores.
La Tabla 4 muestra los resultados de validación y eficiencia del modelo YOLOv8n en la detección de
armas de fuego. La validación se realizó sobre un conjunto de 202 imágenes que contenían 205
instancias de armas, evidenciando que algunas incluían múltiples objetos de interés. En este proceso, el
modelo alcanzó una precisión (Box Precision) de 0.995 y un recall de 0.98, valores que confirman su
alta exactitud y sensibilidad.
La precisión casi perfecta indica que el modelo delimita correctamente los objetos de interés, mientras
que el alto recall demuestra su capacidad para detectar la mayoría de las instancias relevantes.

pág. 11196
Asimismo, el mAP@0.5 = 0.987 refleja un rendimiento excepcional en la detección de objetos con un
solapamiento del 50 %, consolidando la eficacia del YOLOv8n como herramienta fiable para la
identificación automática de armas de fuego en contextos de seguridad y vigilancia.
Tabla 4. Resultados de Validación y Eficiencia de YOLOv8n
Métrica Valo
r
Análisis
Box Precisión 0.995 Casi perfecta en la delimitación de objetos de interés
Recall 0.980 Captura la mayoría de las instancias relevantes en el conjunto
de datos
mAP (IoU=0.5) 0.987 Excelente en la detección de objetos con umbral de 50%
mAP (IoU=0.5-0.95) 0.705 Buena precisión en un espectro más amplio de criterios de
solapamiento
F1-score 0,987
4
Indicando un rendimiento sobresaliente del modelo.
Velocidad de inferencia 37.1 Apto para aplicaciones de tiempo real o cerca del tiempo real
Velocidad de pre
procesamiento
0.8 Contribuye a la velocidad general de procesamiento de
imágenes
Velocidad de post
procesamiento
0.5 Contribuye a la velocidad general de procesamiento de
imágenes
Fuente: Modelo Yolov8n.
Elaborado por: Autores.
El modelo alcanzó un mAP@0.5–0.95 de 0.705, valor que refleja una alta precisión bajo criterios más
exigentes de solapamiento, demostrando su capacidad para mantener un rendimiento consistente. El F1-
score confirmó su equilibrio entre detección efectiva y reducción de falsas alarmas. En cuanto a la
eficiencia, registró una velocidad de inferencia de 37.1 ms por imagen, con tiempos de preprocesamiento
de 0.8 ms y posprocesamiento de 0.5 ms, lo que evidencia su viabilidad para aplicaciones en tiempo
real.

pág. 11197
Predicción con las imágenes de test
En la fase de prueba, el modelo fue evaluado con 101 imágenes no vistas que representaban distintos
escenarios y condiciones. En una de ellas (Figura 14), correspondiente al interior de un restaurante,
YOLOv8n detectó un arma de fuego con una confianza del 80 %, demostrando su capacidad práctica
para identificar amenazas en contextos reales. Estos resultados consolidan al modelo como una solución
eficiente y precisa para la detección automática de armas en sistemas de videovigilancia inteligente.
Figura 14. Imagen de test
Fuente: Dataset de armas de fuego.
Elaborado por: Autores.
La Figura 15 muestra la interfaz de un sistema de videovigilancia donde el modelo YOLOv8n detecta
un objeto con una confianza del 83 %, representado por una caja delimitadora roja y una etiqueta de
categoría. La escena corresponde a un entorno comercial con interacción entre cliente y empleado,
simulando condiciones reales de observación. El nivel de confianza alcanzado, evidencia la precisión y
estabilidad del modelo en la identificación de objetos, confirmando su eficacia operativa en contextos
prácticos de vigilancia y seguridad.

pág. 11198
Figura 15. Imagen de test
Fuente: Dataset de armas de fuego.
Elaborado por: Autores.
La Figura 16 ilustra la capacidad del modelo YOLOv8n para detectar y clasificar objetos con precisión
en entornos reales. En esta imagen de prueba, el sistema identificó un arma de fuego con una confianza
del 81 %, reflejando un alto nivel de certeza y fiabilidad en su predicción. La escena corresponde a un
establecimiento comercial, donde el modelo logró mantener un desempeño estable pese a la presencia
de múltiples elementos visuales y posibles distracciones. Este resultado confirma la efectividad del
modelo en escenarios complejos del mundo real, donde la rapidez y exactitud en la detección resultan
esenciales para la seguridad y la toma de decisiones.
Figura 16. Imagen de test
Fuente: Dataset de armas de fuego.
Elaborado por: Autores.

pág. 11199
Los resultados obtenidos en las figuras 14, 15 y 16 confirman la estabilidad y eficacia del modelo
YOLOv8n, capaz de detectar armas de fuego con altos niveles de confianza en distintos escenarios.
Estas pruebas demostraron su robustez y capacidad de generalización, validando su desempeño en
condiciones reales y evidenciando su potencial para aplicaciones de seguridad. Además, los casos
analizados permitieron identificar posibles ajustes y mejoras para futuras iteraciones del modelo.
Implementación del modelo en restaurantes de Quito
La implementación del modelo en restaurantes del cantón Quito tiene como propósito fortalecer la
seguridad mediante sistemas de videovigilancia inteligente. El proceso inicia con la evaluación de la
infraestructura existente, asegurando cámaras de alta resolución (1080p, 30 fps, WDR) y una red estable.
Luego, se instala un servidor con GPU de alto rendimiento para ejecutar el modelo en tiempo real,
integrándolo con un sistema de alarmas que genere alertas visuales y sonoras ante posibles amenazas.
El personal será capacitado en protocolos de actuación y respuesta rápida, garantizando la correcta
interpretación de las alertas y la coordinación con las autoridades. Finalmente, se implementará un
monitoreo continuo del sistema para mantener su eficacia y actualización tecnológica.
La Figura 17 sintetiza este proceso, mostrando la conexión entre videovigilancia, detección automática
y respuesta inmediata como un modelo integral de seguridad preventiva para los restaurantes de Quito.
Figura 17. Esquema para implementar el modelo de aprendizaje automático
Fuente: Autores.
Elaborado por: Autores.
Evaluación y Preparación de Infraestructura
Integración del Modelo de Aprendizaje Automático
Vinculación con Sistemas de Alarma
Capacitación y Protocolos de Actuación
Monitoreo y Mantenimiento Continuos

pág. 11200
Los resultados obtenidos con el modelo YOLOv8n demostraron un rendimiento significativamente
superior frente a investigaciones previas sobre detección de armas de fuego en videovigilancia. En
comparación con el estudio de Aguilar (2018), que empleó clasificadores tradicionales (HAAR, HOG-
SVM y LBP) alcanzando una precisión máxima del 78.26 %, el presente modelo logró una precisión del
99.5 %, recall del 98 % y mAP@0.5 de 98.7 %, evidenciando el salto tecnológico que representan las
redes neuronales profundas en tareas de detección en tiempo real.
De forma similar, frente a la investigación de Gutiérrez (2022), basada en arquitecturas VGG Net y ZF
Net, cuyos valores de precisión y recall se situaron alrededor del 0.90, el modelo YOLOv8n mostró
mejoras sustanciales en todas las métricas, incluyendo un mAP@0.5–0.95 de 0.705, lo que demuestra
una mayor capacidad de generalización y exactitud en la detección. Además, los bajos valores de pérdida
en entrenamiento y validación confirman un ajuste óptimo y una notable estabilidad del modelo.
En comparación con el uso de SSD-MobileNet V2 en entornos vehiculares (Gutiérrez, 2022), que
alcanzó una precisión del 72 %, YOLOv8n sobresalió tanto en exactitud como en rendimiento,
manteniendo detecciones precisas bajo diversas condiciones de iluminación y escenarios complejos.
En conjunto, estos resultados evidencian la superioridad de YOLOv8n respecto a los enfoques clásicos
y a otras arquitecturas de aprendizaje profundo, reafirmando su potencial como una herramienta eficaz,
confiable y adaptable para aplicaciones críticas de seguridad y vigilancia, donde la rapidez y la precisión
son factores determinantes para la prevención de incidentes.
CONCLUSIONES
El desarrollo del modelo de aprendizaje automático basado en la arquitectura YOLOv8n permitió
demostrar la eficacia del uso de la inteligencia artificial en la videovigilancia inteligente, orientada a la
detección automática de armas de fuego en restaurantes del cantón Quito. Los resultados obtenidos
evidenciaron que las redes neuronales convolucionales y las técnicas de aprendizaje por transferencia
constituyeron herramientas de alto valor para el fortalecimiento de la seguridad ciudadana, al posibilitar
la identificación de amenazas con precisión y velocidad superiores a los métodos tradicionales. Esta
capacidad técnica se tradujo en una alternativa viable para prevenir incidentes delictivos y optimizar la
gestión de la seguridad en espacios públicos y comerciales.

pág. 11201
Desde una perspectiva aplicada, la investigación aportó evidencia empírica sobre el impacto positivo de
la inteligencia artificial en la reducción del riesgo operativo en entornos urbanos. El modelo alcanzó
métricas que superaron ampliamente los estándares de estudios previos, confirmando que el enfoque
basado en YOLOv8n ofrece un equilibrio óptimo entre rendimiento, eficiencia computacional y
capacidad de generalización. Con ello, se validó su potencial implementación en sistemas de seguridad
reales, abriendo nuevas posibilidades para la automatización de la vigilancia y la respuesta temprana
ante eventos críticos.
No obstante, el estudio dejó abiertas líneas de investigación futuras, especialmente en lo referente a la
detección en entornos con mayor complejidad visual, la incorporación de sistemas multisensoriales y la
integración con plataformas de análisis predictivo. Estas perspectivas invitan a otros investigadores a
continuar perfeccionando modelos más robustos y adaptativos que contribuyan a una seguridad urbana
sostenible e inteligente.
REFERENCIAS BIBLIOGRÁFICAS
Alonso, D. G. (2020). Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras
de profundidad. RIDAA Tesis Unicen. Https://doi.org/10.52278/2415
Alvear-Puertas, V., Rosero-Montalvo, P., Peluffo-Ordóñez, D., & Pijal-Rojas, J. (2017). Internet de las
Cosas y Visión Artificial, Funcionamiento y Aplicaciones: Revisión de Literatura. Enfoque
UTE, 8(1), 244-256. Https://doi.org/10.29019/enfoqueute.v8n1.121
Alzubaidi, L., Zhang, J., Humaidi, A. J., Al-Dujaili, A., Duan, Y., Al-Shamma, O., Santamaría, J.,
Fadhel, M. A., Al-Amidie, M., & Farhan, L. (2021). Review of deep learning: Concepts, CNN
architectures, challenges, applications, future directions. Journal of Big Data, 8(1), Article 1.
Https://doi.org/10.1186/s40537-021-00444-8
Amaya Balaguera, Y. D. (2015). Metodologías ágiles en el desarrollo de aplicaciones para dispositivos
móviles. Estado actual. Revista de Tecnología, 12(2). Https://doi.org/10.18270/rt.v12i2.1291
Amnistía Internacional. (2021). VIOLENCIA CON ARMAS DE FUEGO.
Https://www.amnesty.org/es/what-we-do/arms-control/gun-violence/
Ana González Marcos, Francisco Javier Martínez de Pisón Ascacíbar, Alpha Verónica Pernía Espinoza,
Fernando Alba Elías, Manuel Castejón Limas, Joaquín Bienvenido Ordieres Meré, & Eliseo

pág. 11202
Pablo Vergara González. (2006). Técnicas y Algoritmos Básicos de Visión Artificial.
Universidad de La Rioja.
Https://investigacion.unirioja.es/documentos/5c13b22ac8914b6ed3778a6a
Ávila, J. F., Mayer, M. A., & Quesada, V. J. (2020). La inteligencia artificial y sus aplicaciones en
medicina I: Introducción antecedentes a la IA y robótica. Atención Primaria, 52(10), 778-784.
Https://doi.org/10.1016/j.aprim.2020.04.013
Baquero, R., & Enrique, P. (2018). - Avances en inteligencia artificial y su impacto en la sociedad.
Barona Vilar, S. (2019). Cuarta revolución industrial (4.0.) O ciberindustria en el proceso penal:
Revolución digital, inteligencia artificial y el camino hacia la robotización de la justicia. Revista
Jurídica Digital UANDES, 3(1), 1. Https://doi.org/10.24822/rjduandes.0301.1
Bhatti, M. T., Khan, M. G., Aslam, M., & Fiaz, M. J. (2021). Weapon Detection in Real-Time CCTV
Videos Using Deep Learning. IEEE Access, 9, 34366-34382. Scopus.
Https://doi.org/10.1109/ACCESS.2021.3059170
Binti Mat Kasim, N. A., Binti Abd Rahman, N. H., Ibrahim, Z., & Abu Mangshor, N. N. (2018).
Celebrity Face Recognition using Deep Learning. Indonesian Journal of Electrical Engineering
and Computer Science, 12(2), 476. Https://doi.org/10.11591/ijeecs.v12.i2.pp476-481
Control de Mando Integral. (2022). Más de 70 delitos diarios con arma de fuego se dieron en el 2022.
Https://www.planv.com.ec/historias/crimen-organizado/mas-70-delitos-diarios-con-arma-
fuego-se-dieron-el-2022
Corvalán, J. G. (2018). Inteligencia artificial: Retos, desafíos y oportunidades – Prometea: la primera
inteligencia artificial de Latinoamérica al servicio de la Justicia. Revista de Investigações
Constitucionais, 5(1), 295. Https://doi.org/10.5380/rinc.v5i1.55334
De Azevedo, K., & De Almeida, N. (2019). Firearm Detection using Convolutional Neural Networks.
2, 707-714. Scopus. Https://doi.org/10.5220/0007397707070714
Fiscalía General del Estado. (2022). Pichincha encabeza las estadísticas de asaltos a empresas y
negocios. Https://www.primicias.ec/noticias/economia/inseguridad-costo-produccion-
pichincha-provincias-

pág. 11203
ecuador/#:~:text=Unas%201.250%20denuncias%20de%20robos,Organizaci%C3%b3n%20del
%20Trabajo%20(OIT).
Gallegos, J. C. P., Soto, A. T., Aguilera, F. S. Q., Sprock, A. S., Ember Ubeimar Martínez Flor, Casali,
A., Scheihing, E., Yván Jesús Túpac Valdivia, Soto, D. T., Zapata, F. J. O., José Alberto
Hernández, A., Crizpín Zavala, D., Nodari Vakhnia, & Pedreño, O. (2014). Inteligencia
Artificial. Iniciativa Latinoamericana de Libros de Texto Abiertos (latín).
Https://doi.org/10.13140/2.1.3720.0960
García García Pedro Pablo. (2012). RECONOCIMIENTO DE IMÁGENES UTILIZANDO REDES
NEURONALES ARTIFICIALES [UNIVERSIDAD COMPLUTENSE DE MADRID].
Https://eprints.ucm.es/id/eprint/23444/1/proyectofinmasterpedropablo.pdf
Glenn, J. (2023). Ultralytics yolov8: El modelo YOLO de última generación.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. The MIT Press.
Guerra Londono, M., Castano Londono, L. F., Alzate Anzola, C. C., Marquez Viloria, D. A., &
Velasquez Velez, R. A. (2020). Analisis de desempeño de capas de CNN para arquitecturas
heterog´eneas basadas en fpgas usando HLS. Ingeniería, 26(1), 62-76.
Https://doi.org/10.14483/23448393.15634
Gutiérrez Valverde, Jorge Sebastián. (2022). Desarrollo de un sistema para el envío automático de
información de alerta en eventos de asalto en el interior de automóviles de transporte público.
Universidad de las Fuerzas Armadas (ESPE.
Kaya, V., Tuncer, S., & Baran, A. (2021). Detection and Classification of Different Weapon Types
Using Deep Learning. Applied Sciences, 11(16), 7535. Https://doi.org/10.3390/app11167535
Lisa Torrey & Jude Shavlik. (2021). Transfer Learning. En Manual de investigación sobre aplicaciones
y tendencias de aprendizaje automático: Algoritmos, métodos y técnicas (pp. 242-264).
University of Wisconsin - Madison IGI mundial. Https://ftp.cs.wisc.edu/machine-
learning/shavlik-group/torrey.handbook09.pdf
Mario Giménez Arnal. (2018). Estudio y aplicación de las redes neuronales convolucionales 3D
[Universitat Politécnica de Catalunya].

pág. 11204
Https://upcommons.upc.edu/bitstream/handle/2117/124877/Estudio+y+aplicaci%C3%b3n+de
+las+redes+neuronales+convolucionales+3D.pdf?Sequence=1
Mayorga, P., Valdez, J. A., Druzgalski, C., Zeljkovic, V., & Quintero López, L. A. (2022). CNN
Networks to Classify Cardiopulmonary Signals Redes CNN en Clasificación de Señales
Cardiopulmonares. 2022 Global Medical Engineering Physics Exchanges/ Pan American
Health Care Exchanges (GMEPE/PAHCE), 1-4.
Https://doi.org/10.1109/GMEPE/PAHCE55115.2022.9757779
Mitchell, T. M. (1997). Machine Learning. Mcgraw-Hill.
NATALIA CASADO BEINAT. (2022). Redes Neuronales Convolucionales Y Aplicaciones [Tesis,
Universidad Complutense De Madrid]. Https://eprints.ucm.es/id/eprint/74259/1/natalia-casado-
redes-neuronales-tfg.pdf
Pérez-Aguilar, D. A., Risco-Ramos, R. H., & Casaverde-Pacherrez, L. (2021). Transfer learning en la
clasificación binaria de imágenes térmicas. Ingenius, 26, 71-86.
Https://doi.org/10.17163/ings.n26.2021.07
Policía Nacional del Ecuador. (2022). El 79% de víctimas de asesinato en Ecuador no tenía
antecedentes. Https://www.primicias.ec/noticias/en-exclusiva/muertes-violentas-asesinatos-
ecuador-narcotrafico/
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2015). You Only Look Once: Unified, Real-Time
Object Detection. Https://doi.org/10.48550/ARXIV.1506.02640
Rodríguez Villar Izaskun. (2022). Evaluación de distintas arquitecturas de redes neuronales aplicadas
a la clasificación de datos tabulares [Universidad Pública de Navarra (UPNA)].
Https://academica-
e.unavarra.es/bitstream/handle/2454/44289/Memoria%20TFM%20Izaskun%20Rodr%C3%ad
guez%20Villar.pdf?Sequence=1&isallowed=y
Romero. (2018). Desarrollo de un sistema de detección de armas de fuego cortas en el monitoreo de
videos de cámaras de seguridad. Universidad Politécnica Salesiana Sede Cuenca. Obtenido de:
https://dspace.ups.edu.ec/handle/123456789/16793

pág. 11205
Rouhiainen, L. (2020). Inteligencia artificial: 101 cosas que debes saber hoy sobre nuestro futuro (3a
ed). Alienta.
Santos, D., Dallos, L., & Gaona-García, P. A. (2020). Algoritmos de rastreo de movimiento utilizando
técnicas de inteligencia artificial y machine learning. Información Tecnológica, 31(3), 23-38.
Https://doi.org/10.4067/S0718-07642020000300023
Secretaría General Organización de los Estados. (2019). Actividades Del Sistema De La Organización
De Las Naciones Unidas En Materia De Lucha Contra El Crimen Y Prevención De La
Delincuencia. Http://www.oas.org/juridico/Spanish/crimen7.htm
Seijas, C., Villazana, S., Montilla, G., Pérez, E., & Montilla, R. (2021). Detector de Neuropatologías en
EEG usando Estadísticas de Orden Superior y Aprendizaje Profundo. Revista Ingeniería UC,
28(1), 141-151. Https://doi.org/10.54139/revinguc.v28i1.14
Thalagala, S., & Walgampaya, C. (2021). Application of alexnet convolutional neural network
architecture-based transfer learning for automated recognition of casting surface defects. 2021
International Research Conference on Smart Computing and Systems Engineering (SCSE), 129-
136. Https://doi.org/10.1109/SCSE53661.2021.9568315
Ultralytics. (2023). Ultralytics yolov8. Https://docs.ultralytics.com/
Zhou, X., Gong, W., Fu, W., & Du, F. (2017). Application of deep learning in object detection. 631-
634. Scopus. Https://doi.org/10.1109/ICIS.2017.7960069