A menudo existe la confusión entre el rol que ejerce un científico de datos (Data Scientist) y un ingeniero de aprendizaje automático (ML Engineer). Aunque ciertamente trabajan juntos de forma complementaria y disfrutan de cierta superposición en cuanto a conocimientos y experiencia, los dos roles tienen propósitos bastante diferentes.
Esencialmente, estamos diferenciando entre los científicos de datos que buscan comprender la ciencia detrás de su trabajo e ingenieros que buscan construir algo a lo que otros puedan acceder. Ambos roles son extremadamente importantes y, en algunas empresas, son intercambiables; por ejemplo, los científicos de datos de ciertas organizaciones pueden realizar el trabajo de un ingeniero de aprendizaje automático y viceversa.
Para aclarar a cada uno de ellos, hay 3 categorías:
Responsabilidades
Los científicos de datos siguen el proceso de la ciencia de datos conocido también como el flujo de Blitzstein & Pfister, el marco creado inicialmente para enseñar a los estudiantes del curso Harvard CS 109, de cómo abordar los problemas de la ciencia de datos.
El proceso consta de 5 faces:
- Understanding the business problem (entendimiento del negocio y sus posibles resoluciones)
- Data Colletion (Recopilación de datos)
- Data Cleaning & Exploration (Depuración y exploración de datos)
- Model building (Construcción de modelos)
- Communicate and vizualize insights (Comunicación y visualización de conocimientos)
La mayor parte del trabajo realizado por los científicos de datos se encuentra en el entorno de la investigación. Estos realizan tareas matemáticas de comprensión y profundización de la Data, de modo que puedan construir modelos que capturen patrones inherentes a dicha información.
Una vez que han construido un modelo, el siguiente paso es evaluar si cumple con el resultado deseado del proyecto. Si no es así, el proceso se repite hasta que el modelo alcance el resultado esperado, antes de entregar el proceso, a los ingenieros de aprendizaje automático.
Los ingenieros de aprendizaje automático son responsables de crear y mantener la infraestructura de aprendizaje automático que les permite implementar los modelos creados por científicos de datos en un entorno de producción. Por lo tanto, los ingenieros de aprendizaje automático suelen trabajar en el entorno de desarrollo, que es donde se preocupan por reproducir la canalización de aprendizaje automático construida por los científicos de datos en el entorno de investigación. Y trabajan en el entorno de producción, que es donde el modelo se hace accesible a otros sistemas de software y / o clientes.
Esencialmente, los ingenieros de aprendizaje automático son responsables del mantenimiento de la infraestructura de aprendizaje automático que les permite implementar y escalar los modelos creados por los científicos de datos. Y los científicos de datos son usuarios de la infraestructura de aprendizaje automático que crea el ingeniero de aprendizaje automático.
Pericia
La razón por la que la gente está confundida acerca de las diferencias entre los 2 roles es que hay muchos lugares donde sus habilidades se superponen. Por ejemplo, se espera que tanto los científicos de datos como los ingenieros de aprendizaje automático tengan un buen conocimiento de:
- Aprendizaje supervisado y no supervisado
- Aprendizaje automático y modelado predictivo
- Matemáticas y Estadística
- Python (o R)
Las principales superposiciones entre los roles han dado como resultado que algunas organizaciones, en particular organizaciones más pequeñas y nuevas empresas, fusionen los roles en uno solo. Por lo tanto, algunas organizaciones tienen científicos de datos que hacen el trabajo de ingenieros de aprendizaje automático y algunas tienen ingenieros de aprendizaje automático que hacen el trabajo de científicos de datos. Solo conduce a más confusión entre los practicantes.
Sin embargo, existen algunas diferencias clave entre la experiencia necesaria para cada función.
Los científicos de datos suelen ser narradores de datos extremadamente buenos. Algunos dirían que este rasgo los hace mucho más creativos que los ingenieros de Machine Learning. Otra diferencia es que los científicos de datos pueden usar herramientas como PowerBI y Tableau para compartir información con la empresa, y no necesariamente necesitan usar el aprendizaje automático.
Las parejas que compensan las deficiencias de su pareja son generalmente más fuertes. Cuando lo piensa así, la experiencia antes mencionada puede ser puntos débiles para el ingeniero de aprendizaje automático, que se espera que tenga una base sólida en informática e ingeniería de software. Se espera que los ingenieros de aprendizaje automático conozcan las estructuras de datos y los algoritmos y comprendan los componentes fundamentales que intervienen en la creación de software entregable.
Dicho esto, no es inusual que un ingeniero de aprendizaje automático tenga un buen conocimiento de otro lenguaje de programación como Java, C ++ o Julia.
Expectativas Salariales
Es difícil precisar las expectativas salariales exactas. Los salarios en ambos roles varían según diversos factores, como la cantidad de experiencia que se tenga, calificaciones que se posee, la ubicación en la que se encuentra y el sector en el que trabaja.
También se espera que las empresas del rubro, ofrezcan diversos beneficios y prestaciones. Independientemente del puesto, puede esperar recibir una invitación para unirse al plan de pensiones de la empresa, trabajo flexible o remoto, bonificaciones por desempeño y seguro médico privado.
En general, es justo decir que, en promedio, a los ingenieros de aprendizaje automático se les paga más que a los científicos de datos en general.
- Un científico de datos junior puede comenzar en un rango salarial de £ 25,000 – £ 30,000 (puede aumentar a £ 40,000 dependiendo de la experiencia). [Fuente: Perspectivas].
- Un ingeniero de aprendizaje automático de nivel 3, puede esperar un salario inicial de £ 35,000 – £ 40,000. [Fuente: prospectos]
- Según Glassdoor, el salario promedio de un científico de datos en el Reino Unido es de £ 46,818. Prospects afirman que el salario promedio de un ingeniero de aprendizaje automático en el Reino Unido es de £ 52,000.
- Según Prospects, los científicos de datos senior, pueden ganar algo más de £ 60,000 (superando las £ 100,000 en algunos casos). Por el contrario, los ingenieros de aprendizaje automático con más experiencia pueden esperar ganar hasta 170.000 libras esterlinas (especialmente si trabajan para una empresa multinacional como Google o Facebook) [Fuente: Prospects]
Conclusión
A pesar de las similitudes de roles, entre los científicos de datos y los ingenieros de aprendizaje automático, son bastante diferentes en cuanto a sus responsabilidades, experiencia y ganancias.
De la mayoría de las entrevistas que he escuchado sobre el tema, muchos dicen que la transición de Data Scientists a Machine Learning Engineer, es mucho más difícil que la transición de Machine Learning Engineer a Data Scientists. Esto se debe a que los científicos de datos no suelen ser competentes en la ingeniería de software y los fundamentos de la informática, lo que supone una gran curva de aprendizaje.
Fuente:
Artículo original de Kurtis Pykes de Kdnuggets.com