Las palabras fluyen como una lluvia interminable: resumen de una semana ocupada en las noticias de LLM

Acercarse / Retrato de un niño asombrado por las letras voladoras.

Algunas semanas en las noticias sobre IA son inquietantemente tranquilas, pero durante otras, controlar los eventos de la semana parece intentar detener la marea. Esta semana se produjeron tres lanzamientos notables de Large Language Model (LLM): Google Gemini Pro 1.5 Disponibilidad general Con el nivel gratuito, OpenAI cobra un nueva copia GPT-4 Turbo y Mistral ha lanzado un nuevo LLM con licencia abierta, Mixtral 8x22B. Los tres lanzamientos se realizaron en un plazo de 24 horas a partir del martes.

Con la ayuda del ingeniero de software e investigador independiente de IA Simon Willison (quien también… Libros sobre (The Frantic LLM se lanza esta semana en su propio blog), cubriremos brevemente cada uno de los tres eventos principales en orden aproximadamente cronológico y luego profundizaremos en algunos eventos adicionales de IA esta semana.

Lanzamiento general de Géminis Pro 1.5

El martes por la mañana, hora del Pacífico, Google Anunciar El modelo Gemini 1.5 Pro (que cubrimos por primera vez en febrero) ahora está disponible en más de 180 países, excluyendo Europa, a través de la API Gemini en versión preliminar pública. Este es el certificado LLM general más poderoso que Google ha ofrecido hasta la fecha y está disponible en un nivel gratuito que permite hasta 50 solicitudes por día.

Admite hasta 1 millón de tokens de contexto de entrada. Como señala Willison en su blogel precio API para Gemini 1.5 Pro es de $7/M de códigos de entrada y $21/M de códigos de salida cuesta un poco menos que GPT-4 Turbo (precios razonables A $10/millón de entrada y $30/millón de salida) y más Claude 3 Sonnet (MBA de nivel medio en Anthropic, precios razonables A 3 dólares/millón de entrada y 15 dólares/millón de salida).

READ  Google confirma que los documentos de búsqueda filtrados son reales

Vale la pena señalar que Gemini 1.5 Pro incluye procesamiento de entrada de voz (voz) nativo que permite a los usuarios cargar mensajes de audio o video, una nueva API de archivos para manejar archivos, la capacidad de agregar instrucciones personalizadas del sistema (mensajes del sistema) para dirigir las respuestas del formulario, y un modo JSON Extracción de datos estructurados.

Lanzamiento del GPT-4 Turbo “significativamente mejorado”.

Gráfico de rendimiento de GPT-4 Turbo proporcionado por OpenAI.
Acercarse / Gráfico de rendimiento de GPT-4 Turbo proporcionado por OpenAI.

Poco después de que Google lanzara 1.5 Pro el martes, OpenAI anunció que estaba lanzando una versión “significativamente mejorada” de GPT-4 Turbo (una familia de modelos lanzada originalmente en noviembre) llamada “gpt-4-turbo-2024-04”-09. “Integra el procesamiento de visión multimodal GPT-4 (reconocimiento de contenidos de imágenes) directamente en el modelo y se lanza inicialmente únicamente mediante acceso API.

Luego, el jueves, OpenAI anunció que el nuevo modelo GPT-4 Turbo estaría disponible para los usuarios pagos de ChatGPT. OpenAI dijo que el nuevo modelo mejora “las habilidades de escritura, matemáticas, pensamiento lógico y codificación”. Gráfico compartido Esto no es particularmente útil para juzgar las habilidades (lo que luego hicieron). Actualizado). la empresa tambien Proporcioné un ejemplo de la supuesta mejora, diciendo que al escribir con ChatGPT, el asistente de IA será “más directo, menos detallado y utilizará un lenguaje más conversacional”.

La naturaleza vaga de los anuncios GPT-4 Turbo de OpenAI atrajo a algunos confusión Y críticas en línea. El día 10, Willison libros“¿Quién será el primer proveedor de LLM en publicar notas de la versión realmente útiles?” En cierto modo, este es nuevamente un caso de “sentimiento de IA”, como comentamos en nuestro lamento sobre el mal estado de los estándares LLM durante el debut de Cloud 3. “En realidad, no detecté ninguna diferencia específica en la calidad [related to GPT-4 Turbo]”, nos dijo Willison directamente en una entrevista.

READ  Por eso un multimillonario japonés canceló su viaje a la luna a bordo de una nave espacial

La actualización también amplió el límite de conocimiento de GPT-4 hasta abril de 2024, aunque algunas personas informaron que lo logra al… Búsquedas web ocultas Al fondo, otros están en las redes sociales. Problemas reportados Con confusiones relacionadas con la historia.

Mistral Edición Misterio Mixtral 8x22B

Ilustración de un robot sosteniendo una bandera francesa, que refleja metafóricamente el auge de la inteligencia artificial en Francia debido a Mistral.  Es difícil dibujar el retrato de un Maestro en Derecho, por lo que tendrá que hacerlo un robot.
Acercarse / Ilustración de un robot sosteniendo una bandera francesa, que refleja metafóricamente el auge de la inteligencia artificial en Francia debido a Mistral. Es difícil dibujar el retrato de un Maestro en Derecho, por lo que tendrá que hacerlo un robot.

Para no quedarse atrás, la empresa francesa de inteligencia artificial Mistral lanzó el martes por la noche su último modelo con licencia abierta, el Mixtral 8x22B, a través… Tweet con un enlace de torrent Está desprovisto de documentación o comentarios, como ocurría con las versiones anteriores.

La nueva Edición Híbrida de Expertos (MoE) presenta una mayor cantidad de parámetros que su modelo abierto anteriormente más capaz. Mixtral 8x7B, que cubrimos en diciembre. Se rumorea que es potencialmente tan capaz como GPT-4 (¿de qué manera? Vibes). Pero esto aún no se ha visto.

“Las evaluaciones aún están en curso, pero la mayor pregunta abierta ahora es qué tan bien está formado el Mixtral 22x8B”, dijo Willison a Ars. “Si está en la misma clase de calidad que GPT-4 y Claude 3 Opus, finalmente tendremos un modelo con licencia abierta que no se quedará muy por detrás de los mejores modelos propietarios”.

Este lanzamiento entusiasmó mucho a Willison y dijo: “Si esto es realmente GPT-4, es una locura, porque puedes ejecutarlo en una computadora portátil (cara). Creo que necesitas una MacBook de 128 GB de RAM para eso, que es “el doble que Lo necesitaba.” Posee.”

READ  Advertencia: actualice su iPhone 15 a iOS 17.0.2 antes de transferir datos desde otro iPhone

Willison señaló que el nuevo software Mixtral aún no se ha incluido en Chatbot Arena, porque Mistral aún no ha lanzado un modelo de chat exacto. Este sigue siendo un programa prototipo para predecir el próximo token LLM. “Ahora existe al menos una versión controlada de la instrucción comunitaria”, dice Willison.

Cambios en la tabla de clasificación en Chatbot Arena

Captura de pantalla de la tabla de clasificación de Chatbot Arena tomada el 12 de abril de 2024.
Acercarse / Captura de pantalla de la tabla de clasificación de Chatbot Arena tomada el 12 de abril de 2024.

Bing Edwards

Las noticias sobre LLM de esta semana no se tratan solo de los grandes nombres en el campo. También ha habido rumores en las redes sociales sobre el mayor rendimiento de los modelos de código abierto como el modelo Cohere. comando R+cualquier Posición alcanzada 6 En la tabla de clasificación de LMSYS Chatbot Arena: la clasificación más alta jamás obtenida para el modelo Open Weights.

Y para mayor emoción en Chatbot Arena, parece que la nueva versión de GPT-4 Turbo ha demostrado ser competitiva con Claude 3 Opus. Los dos todavía están empatados estadísticamente, pero GPT-4 Turbo recientemente tirado hacia adelante numéricamente. (En marzo, informamos cuando Claude 3 lideró digitalmente por primera vez en GPT-4 Turbo, que fue la primera vez que otro modelo de IA venció a un modelo de la familia GPT-4 en la clasificación).

Con respecto a esta feroz competencia entre LLM, que la mayor parte del mundo del contrabando desconoce y probablemente nunca conocerá, Wilson dijo a Ars: “Los últimos meses han sido un torbellino: finalmente tenemos no solo uno, sino varios modelos capaces de competir. con GPT-4.” Veremos si el rumoreado lanzamiento de GPT-5 por parte de OpenAI a finales de este año restaurará el liderazgo tecnológico de la compañía, que alguna vez pareció insuperable. Pero por ahora, dice Willison, “OpenAI ya no es el líder indiscutible en MBA”.

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio