¿Tienes alguna duda del Módulo 2? La puedes dejar acá
-
AutorEntradas
-
05/11/2021 a las 11:58 AM #28176Ligdi GonzálezSuperadministrador
Acá puedes dejar todas las dudas correspondientes al Módulo 2: ¿Qué es Machine Learning?
08/12/2021 a las 1:02 PM #28301FRANCISCO OVIEDO FERNANDEZParticipanteHola Ligdi,
en el apartado de los «pasos para un proyecto de ML» comentas la fase de recolectar los datos. Cuando te escuchaba me venía a la cabeza una hoja de excel con los datos correspondientes. Mi pregunta es relativa para hacerme una idea de «volumen» de datos necesarios como mínimo (si se puede decir así) para realizar un proyecto de estas características, 200 filas por ejemplo o qué cantidad de datos debes seleccionar como mínimo para este tipo de proyectos.
Muchas gracias de antemano :)).
Un saludo, Fran.08/12/2021 a las 1:08 PM #28302FRANCISCO OVIEDO FERNANDEZParticipanteHola Ligdi,
hablas en el video de “pasos para un proyecto de ML» que debemos tener cuidado con las suposiciones implícitas. Te quería preguntar si esto tiene relación con los sesgos que se habla cuando se trabaja con datos y en concreto esto si es relativo a dar por hecho ciertos resultados que van a ocurrir cuando no es así. Me ha quedado eso en duda y no acabé de entenderlo bien.
Muchas gracias de antemano,
Un saludo, Fran.08/12/2021 a las 1:59 PM #28303Ligdi GonzálezSuperadministradorHola Fran,
Es cuanto a tu duda no hay un número mínimo de datos que debes tener para realizar un proyecto de IA o ML, todo va a depender del proyecto que estes desarrollando. Te pongo varios ejemplos para explicar esto:
1. Si estás prediciendo el fraude electrónico, debes tener una base de datos en donde se vea reflejado el fraude. En casos normales la mayor cantidad de datos será el de «no fraude» y solamente unos pocos será «fraude», pero si tienes un conjunto de datos de 1000 datos en donde 995 es «no fraude» y solamente 5 datos son «fraude» no podrás tener una buena representación de datos por lo que se aconseja recolecar más datos.
2. Si quieres recomendar productos a las personas, debes tener una base de datos grande, ya que acá se evalua muchas factores y al final las personas somos distintas unas con otros, por lo que para tener una mejor recomendación debemos tener el mayor número de datos.
3. Para predecir la temperatura de una habitación, en el caso de que sea algo constante y muy poco cambiante, no se debería necesitar muchas datos ya que con pocos datos se puede hacer una predicción.Adicionalmente a todo esto, también va a depender el tipo de algoritmo que vayas a utilizar, para el caso de los algoritmos de Machine Learning se puede tener pocos datos, unos cientos o miles. Pero cuando trabajamos con Deep Learning si es recomendable tener el mayor número de datos ya que acá se puede hacer un procesamiento más complejo.
Espero que te haya aclarado tu duda.
Saludos,
Ligdi González08/12/2021 a las 2:05 PM #28304Ligdi GonzálezSuperadministradorHola Fran,
Si, las «suposiciones implicitas» se refieren a los sesgos, de esto hablo un poco más en el módulo 4 de este curso. Los sesgos se pueden presentar de distintas formas y podrías ser un curso completo solamente a ese tema, porque hay sesgo desde la recolección de los datos hasta los propios del desarrollador, entonces es algo que hay que tener mucho cuidado al momento de desarrollar un proyecto.
Saludos,
Ligdi González08/12/2021 a las 2:25 PM #28306FRANCISCO OVIEDO FERNANDEZParticipanteHola,
muchas gracias por ambas respuestas a las dudas planteadas. Lo he entendido y es lógico el volumen de datos en función del proyecto y de la definición del objetivo del mismo.
Un saludo,
Fran. -
AutorEntradas
- Debes estar registrado para responder a este debate.