-
Últimas publicaciones
La división de investigación de Microsoft ha agregado una nueva e importante capacidad a uno de sus modelos de lenguaje más pequeños, un gran paso que muestra que la tecnología de IA más accesible puede tener algunas de las mismas características que el GPT-4 de OpenAI. En una entrevista exclusiva, los investigadores de Microsoft compartieron que el modelo, Phi 1.5, ahora es "multimodal", lo que significa que puede ver e interpretar imágenes. La nueva habilidad añadió sólo una cantidad insignificante de peso al ya diminuto tamaño del modelo, dijeron, ofreciendo una hoja de ruta que podría ayudar a democratizar el acceso a la tecnología de IA y ayudar a aliviar la escasez de procesadores gráficos utilizados para ejecutar software como ChatGPT. GPT-4, que impulsa ChatGPT, también se volvió multimodal recientemente, pero requiere exponencialmente más energía y potencia de procesamiento. Phi 1.5 es de código abierto, lo que significa que cualquiera puede ejecutarlo de forma gratuita. "Esta es una de las grandes actualizaciones que OpenAI realizó en ChatGPT", dijo Sebastien Bubeck, quien dirige el grupo Machine Learning Foundations en Microsoft Research. “Cuando vimos eso, surgió la pregunta: ¿Es esta una capacidad sólo de los modelos más grandes o podríamos hacer algo así con nuestro pequeño Phi 1.5? Y, para nuestro asombro, sí, podemos hacerlo”. GPT-4 tiene alrededor de 1,7 billones de parámetros, o perillas y diales de software que se utilizan para hacer predicciones. Más parámetros significan más cálculos que se deben realizar para cada token (o conjunto de letras) producido por el modelo. A modo de comparación, Phi 1.5 tiene 1.300 millones de parámetros. Si los parámetros se expresaran en distancia, GPT-4 sería del tamaño del edificio Empire State y Phi 1.5 sería un sándwich largo. La búsqueda de pequeños modelos de IA dotados de las potencias de otros mucho más grandes es más que un simple ejercicio académico. Si bien el GPT-4 de OpenAI y otros modelos básicos masivos son impresionantes, su funcionamiento también es costoso. "El impacto de los stickers es definitivamente una posibilidad", dijo Jed Dougherty, vicepresidente de estrategia de plataforma de Dataiku, que presta servicios a empresas que utilizan tecnología de inteligencia artificial. Los modelos más pequeños requieren menos cálculos para funcionar, por lo que requieren procesadores menos potentes y menos tiempo para completar las respuestas. Al mismo tiempo, los modelos más pequeños y ligeramente menos capaces pueden manejar muchas de las tareas que les imponen las empresas y los individuos. Los modelos que consumen menos energía tienen el beneficio adicional de menos emisiones de gases de efecto invernadero y posibles alucinaciones. "Estamos pensando en cómo construir estos sistemas de manera responsable para que funcionen bien en el mundo real", dijo Ece Kamar, quien supervisa la IA centrada en el ser humano en Microsoft Research. "Todo el trabajo que estamos haciendo en modelos pequeños nos está brindando piezas interesantes del rompecabezas para poder construir ese ecosistema". Los investigadores dicen que estos modelos pequeños, por muy capaces que sean, nunca reemplazarán a los modelos básicos más grandes como el GPT-4, que siempre estarán por delante. Más bien, los dos modelos son complementarios. Para algunas aplicaciones, serán necesarios modelos grandes. Para tareas muy específicas, los modelos más pequeños pueden resultar más económicos. Ahmed Awadallah, investigador principal de Microsoft Research, dice que el futuro podría ser el uso simultáneo de modelos pequeños y grandes para manejar tareas. “También se podría imaginar que el modelo pequeño se implemente en un régimen diferente. Y entonces tal vez, cuando no tenga suficiente confianza en la actuación, pueda volver al gran modelo”, dijo. Los investigadores de Microsoft también han estado experimentando con una forma de utilizar múltiples modelos pequeños juntos como "agentes", cada uno de los cuales maneja un aspecto diferente de una tarea. Por ejemplo, un modelo puede escribir software mientras otro modelo lo comprueba en busca de errores. El GPT-4 de OpenAI supuso un gran avance en el campo de la IA, tanto en su escala como en su capacidad. Y aunque ciertamente hay más hitos como ese en el horizonte, los avances más impactantes en IA desde entonces han sido modelos más pequeños y de código abierto. Meta's Llama 2, por ejemplo, está ganando rápidamente popularidad. No se acerca a superar al GPT-4 en rendimiento general, pero su pequeño tamaño y su capacidad de personalización lo convierten en una buena opción para una gran cantidad de personas en el campo de la IA. Esto es especialmente relevante en el ámbito empresarial, donde los costos y los márgenes son cruciales. El ingenio necesario para crear estos modelos no recibe suficiente atención. Podrían pasar años antes de que la infraestructura necesaria para ejecutar los modelos de IA más grandes alcance la demanda. La intersección de eficiencia y capacidad realmente determinará el ritmo al que la IA cambie y transforme cada industria. Las capacidades de los modelos pequeños también significan que será difícil mantener esta tecnología contenida dentro de las grandes empresas tecnológicas. Cuando técnicas como las utilizadas por la investigación de Microsoft comiencen a extenderse por toda la comunidad de investigación de IA, veremos una proliferación de modelos pequeños y altamente capaces. Fuente: y!news por Reed Albergotti Vea la siguiente nota para saber más sobre los avances en IA de Microsoft haciendo click aquíLa primicia de Microsoft
Saber más
La vista de Reed
Compartir:
¡Si está buscando asesoramiento en soluciones tecnológicas
en videoconferencias por favor escribenos!
"*" señala los campos obligatorios
© 2024 Todos los derechos reservados | newtechgroup.com