Explicación exclusiva del fundador de DeepSeek: IA de China: es hora de liderar, no de seguir

Generado por agente de IAWord on the Street
domingo, 26 de enero de 2025, 1:09 am ET25 min de lectura

DeepSeek se ha vuelto una vez más un tema candente debido al lanzamiento de su modelo de código abierto V3, y esta vez se ha vuelto viral no solo en China sino también en Internet global.

El costo estimado de entrenamiento es tan solo uno, el undécimo del modelo Llama 3.1 405B, y el desempeño de este último no es tan bueno como el de DeepSeek V3.

En múltiples evaluaciones, DeepSeek V3 ha alcanzado el estado de la tecnología más avanzada en el campo de código abierto, superando al modelo Llama 3.1 405B, y es capaz de competir directamente con modelos superiores como GPT-4o y Claude 3.5 Sonnet. Además, su precio es inferior al de Claude 3.5 Haiku, siendo solo el 9% del precio de Claude 3.5 Sonnet. Ocupa el séptimo lugar en la tabla de clasificación de modelos grandes de Chatbot Arena. Entre los diez primeros, es el único modelo de código abierto y tiene la licencia MIT menos restrictiva.

En mayo de 2024, DeepSeek logró una popularidad enorme. El motivo fue el lanzamiento de un modelo de código abierto, llamado DeepSeek V2, que proporcionó una relación costo-rendimiento sin precedentes e inició una guerra de precios entre los modelos chinos de gran tamaño.

Como la única empresa que no es una de las grandes empresas chinas que tiene una reserva de 10.000 chips A100, DeepSeek ha tomado muchas decisiones únicas. Se desprendió de la ruta de "quiere todo" y, hasta ahora, se ha concentrado en la investigación y la tecnología. Es una empresa que no ha desarrollado ninguna aplicación a C; la única que no se ha planteado completamente la comercialización, ha elegido firmemente la ruta del código abierto e incluso no ha recaudado fondos.

¿Cómo se forjó realmente DeepSeek? El equipo de 36Kr, una empresa que cotiza en la bolsa de valores de EE. UU., entrevistó a Liang Wenfeng, el fundador de DeepSeek que rara vez se ve, en mayo de 2023 y julio de 2024, respectivamente.

Este idealista tecnológico ofrece una voz que hoy en día es especialmente escasa en la comunidad tecnológica de China:Él es uno de los pocos que anteponen el "sentido del bien y del mal" al "sentido de las ganancias y las pérdidas", y recuerda a los chinos que vean la inercia de los tiempos y pongan en agenda la "innovación original".

¿Cómo se disparó el primer tiro de la guerra de precios?

Anfitrión: Después del lanzamiento del modelo DeepSeek V2, rápidamente desencadenó una feroz guerra de precios para los modelos grandes. Algunas personas dicen que eres un "bagre" en la industria.

Liang Wenfeng: No teníamos la intención de ser un adormidero, pero accidentalmente nos convertimos en uno.

¿Se sorprendió por este resultado?

Liang Wenfeng: Muchísimo. No esperaba que todo el mundo fuera tan sensible al precio. Simplemente hacemos las cosas de acuerdo a nuestro propio ritmo y calculamos el costo y fijamos el precio. Nuestro principio es no perder dinero y no obtener grandes ganancias. Este precio también tiene una pequeña ganancia más allá del costo.

Anfitrión: Cinco días después, ZhipuAI hizo lo mismo y luego grandes empresas como ByteDance, Alibaba, Baidu y Tencent siguieron el ejemplo.

Liang Wenfeng: ZhipuAI redujo el precio de un producto de nivel introductorio, y sus modelos al mismo nivel que los nuestros siguen siendo muy caros. ByteDance fue la primera en seguirlo realmente. Su modelo estrella se redujo al mismo precio que el nuestro, lo que provocó que otras grandes empresas redujeran los precios una tras otra. Dado que los costos del modelo de las grandes empresas son mucho más altos que los nuestros, no esperábamos que nadie hiciera esto con pérdidas. Finalmente, se convirtió en la lógica de quemar dinero y dar subsidios en la era de Internet.

Anfitrión: Desde el exterior, la reducción de precios parece tener que ver con captar usuarios, lo que suele ser el caso en las guerras de precios en la era de Internet.

Liang Wenfeng: Captar usuarios no es nuestro objetivo principal. Por un lado, redujimos el precio porque, al explorar la estructura del modelo de próxima generación, el costo cayó en primer lugar. Por otro lado, también pensamos que ya sea una API o IA, debería ser inclusiva y asequible para todos.

Anfitrión: Antes de esto, la mayoría de las empresas chinas copiaban directamente la estructura Llama de esta generación para hacer aplicaciones. ¿Por qué empezaste desde la estructura modelo?

Liang Wenfeng: Si se busca crear aplicaciones, también es razonable seguir la estructura de Llama y lanzar productos rápidamente de una manera corta, plana y rápida. Pero nuestro destino es la IA general, lo que significa que necesitamos estudiar nuevas estructuras de modelos y lograr capacidades de modelos más sólidas con recursos limitados. Esta es una de las tareas básicas de investigación necesarias para hacer escalas a modelos más grandes.

Además de la estructura del modelo, también hemos realizado muchas otras investigaciones, incluyendo la forma de construir datos y cómo hacer que el modelo sea más humano, etc., que se reflejan en los modelos que lanzamos. Además, en términos de eficiencia de la capacitación y costo de la inferencia,Estimamos que la estructura Llama se encuentra a aproximadamente dos generaciones por debajo del nivel avanzado extranjero.

Anfitrión: ¿De dónde viene principalmente esta brecha generacional?

Liang Wenfeng: En primer lugar, hay una brecha en la eficiencia del entrenamiento. Estimamos que, en comparación con los mejores de su clase en el extranjero, los mejores en China tienen una brecha de aproximadamente una vez en la estructura del modelo y la dinámica de capacitación. Solo este punto significa que necesitamos consumir el doble de potencia de cómputo para lograr el mismo efecto. Además, también puede haber una brecha de aproximadamente una vez en la eficiencia de los datos, es decir, necesitamos consumir el doble de datos de entrenamiento y potencia informática para lograr el mismo efecto. En total, necesitamos consumir cuatro veces más potencia de cómputo. Lo que tenemos que hacer es reducir constantemente estas brechas.

Anfitriona: La mayoría de las empresas chinas optan por buscar tanto modelos como aplicaciones. ¿Por qué, en este momento, DeepSeek ha elegido solo hacer investigación y exploración?

Liang Wenfeng: Porque creemos que lo más importante ahora es participar en la ola de innovación global. En los últimos años, las empresas chinas han acostumbrado a que otros hagan la innovación tecnológica y nosotros nos hacemos cargo de la aplicación y la monetización, pero esto no es algo habitual. En esta ola, nuestro punto de partida no es aprovechar para ganar dinero, sino ir a la vanguardia de la tecnología e impulsar el desarrollo de todo el ecosistema.

Anfitrión: La percepción inercial que dejan las era de Internet y de Internet móvil de la mayoría de la gente es que Estados Unidos es bueno en tecnología innovadora, mientras que China es más experta en hacer aplicaciones.

Liang Wenfeng: Pensamos que con el desarrollo económico,China también debería convertirse gradualmente en un contribuyente en vez de ser simplemente un pasajero gratis todo el tiempoEn la ola de TI de los últimos 30 o más años, básicamente nunca fuimos parte en la innovación tecnológica real.Hemos estado acostumbrados a que la Ley de Moore caiga del cielo y el hardware y el software mejoran a cada 18 meses mientras estamos en casa. La Ley de Escalamiento también se está tratando de esta manera.

Pero, de hecho, este es el resultado de la incansable creación de generaciones en la comunidad tecnológica dominada por Occidente. Solo porque no participamos en este proceso antes, hemos ignorado su existencia.

La verdadera brecha radica entre la originalidad y la imitación

Anfitrión: ¿Por qué sorprendió a mucha gente en Silicon Valley DeepSeek V2?

Liang Wenfeng: De la gran cantidad de innovaciones que ocurren todos los días en los Estados Unidos, esta es muy común.La razón por la que se sorprenden es que se trata de una empresa china que se une a su juego como colaborador innovador.Después de todo, la mayoría de las empresas chinas están acostumbradas a seguir en vez de innovar.

Anfitrión: Pero esta elección también es demasiado extravagante en el contexto chino. Los modelos grandes son un juego de grandes inversiones. No todas las empresas tienen el capital para enfocarse solo en la investigación y la innovación en lugar de considerar primero la comercialización.

Liang Wenfeng: El costo de la innovación definitivamente no es bajo y la inercia pasada del enfoque de "tomar lo que está disponible" también está relacionada con las condiciones nacionales en el pasado. Pero ahora, ya sea la magnitud económica de China o las ganancias de grandes empresas como ByteDance y Tencent, no son bajas a nivel mundial. Lo que nos falta para la innovación definitivamente no es el capital sino la confianza y el conocimiento de cómo organizar talentos de alta densidad para lograr una innovación efectiva.

Moderador: ¿Por qué las empresas chinas, incluyendo las grandes empresas que no carecen de dinero, consideran tan fácilmente la comercialización rápida como la principal prioridad?

Liang Wenfeng: Durante los últimos treinta años, solo hemos enfatizado ganar dinero y no hemos prestado atención a la innovación. La innovación no está impulsa totalmente por los negocios; también requiere curiosidad y creatividad. Estamos simplemente atados por la inercia del pasado, pero también es un fenómeno específico de la etapa.

Anfitrión: Pero usted es una organización comercial, no una institución de investigación científica de bienestar público. Al elegir la innovación y compartirla a través del código abierto, ¿dónde va a formar un abismo? Por ejemplo, la innovación de la arquitectura MLA (Multi-Head Latent Attention) en mayo de 2024 también será copiada rápidamente por otros, ¿verdad?

Liang Wenfeng:Frente a las tecnologías disruptivas, el fosso formado por cerrado - fuente es de corta duración.Incluso si OpenAI es de código cerrado, no puede evitar ser superado por otros. Por lo que precipitamos el valor en el equipo. Nuestros colegas crecen en este proceso, acumulan mucha información y forman una organización y una cultura innovadoras, que es nuestro foso.

Desarrollar abiertamente y publicar documentos no implica que se pierda nada. Para el personal técnico, ser seguido es algo muy satisfactorio. De hecho, el desarrollo abierto responde más a un comportamiento cultural que a un comportamiento comercial. Dar es un honor adicional. Una empresa que haga esto también tendrá un atractivo cultural.

Anfitrión: ¿Qué piensa de las opiniones orientadas al mercado, la fe, tal como la de Zhu Xiaohu?

Liang Wenfeng: Zhu Xiaohu (uno de los inversores chinos famosos) es coherente, pero su enfoque es más adecuado para las empresas que desean ganar dinero rápidamente. No obstante, si observa las empresas más rentables de los Estados Unidos, todas son empresas de tecnología de alto nivel que han alcanzado éxito a través de la acumulación a largo plazo.

Anfitrión: Pero en el terreno de los grandes modelos, simplemente estar tecnológicamente por delante también es difícil para formar una ventaja absoluta. ¿Cuál es la cosa más grande en la que apuesta?

Liang Wenfeng:Vemos que la IA de China no siempre puede estar en una posición siguiente.A menudo decimos que hay una brecha de un o dos años entre la IA de China y la de EE. UU., pero la brecha real es entre la originalidad y la imitación. Si esto no cambia, China siempre será un seguidor. Por lo tanto, algunas exploraciones son inevitables.

El liderazgo de NVIDIA no es solo el esfuerzo de una empresa, sino el esfuerzo conjunto de toda la comunidad tecnológica y la industria occidental. Pueden ver las tendencias tecnológicas de próxima generación y tener hojas de ruta en sus manos. El desarrollo de IA de China también requiere un ecosistema de este tipo. Muchos chips no pueden desarrollarse debido a la falta de una comunidad tecnológica de apoyo y solo poseen información de segunda mano. Por lo tanto,Alguien en China debe estar en vanguardia de la tecnología.

03 Fuertes vientos El grande, el modelo Endeavour, se utiliza para la investigación y exploración.

Anfitrión: viajero de alto vuelo (Fundada por Liang Wenfeng, una empresa de fondos de cobertura y una empresa de tecnología que se basan en la tecnología de inteligencia artificial para la inversión cuantitativa¿Por qué un fondo cuantitativo haría tal cosa?

Liang Wenfeng: Nuestro trabajo con modelos grandes no tiene una relación directa con el comercio cuantitativo y las finanzas. Establecimos una nueva empresa llamada DeepSeek para hacer esto. Entre los miembros principales del equipo de High-Flyer, muchos se dedican a la inteligencia artificial. En ese momento, probamos muchos escenarios y finalmente entramos en el complejo campo de las finanzas. La inteligencia artificial general puede ser una de las siguientes cosas más difíciles, por lo que para nosotros, es una cuestión de cómo hacerlo en vez de por qué.

Anfitrión: ¿Entrenará un modelo grande por usted mismo, o un modelo grande relacionado con una industria vertical, como las finanzas?

Liang Wenfeng: Queremos hacer inteligencia artificial general, o sea, IA general. Los modelos grandes de lenguaje pueden ser el camino inevitable hacia la IA general y, en un primer momento, tienen las características de la IA general, por lo que empezaremos desde aquí; además, habrá aspectos relacionados con la visión más adelante.

Anfitrión: Por la entrada de grandes empresas, muchas empresas emergentes han dejado de ser líderes en hacer solo modelos grandes de propósito general.

Liang Wenfeng: No diseñaremos algunas aplicaciones basadas en el modelo demasiado pronto y nos enfocaremos en modelos grandes.

Moderador: Mucha gente piensa que no es un buen momento para que empresas emergentes entren en el campo después de que las grandes empresas hayan llegado a un consenso y hayan entrado.

Liang Wenfeng: Actualmente, parece que ni las grandes empresas ni las empresas emergentes pueden establecer fácilmente una tremenda ventaja tecnológica en poco tiempo. Dado que OpenAI está a la vanguardia y todos se basan en documentos y códigos públicos, a más tardar en el próximo año, tanto las grandes empresas como las empresas emergentes desarrollarán sus propios modelos de lenguaje de gran tamaño. Tanto las grandes empresas como las empresas emergentes tienen sus propias oportunidades. Los escenarios verticales existentes no están en manos de las empresas de nueva creación y esta etapa no es muy amigable para ellas. Sin embargo, dado que estos escenarios son, en última instancia, pequeñas demandas dispersas y fragmentadas, son más adecuadas para organizaciones de nueva creación ágiles.

A largo plazo, el umbral de aplicación de los modelos grandes será cada vez más bajo, y las empresas de nueva creación tendrán oportunidades de ingresar en cualquier momento en los próximos 20 años.Y nuestro objetivo también es muy claro, es decir, no hacer cosas verticales y relacionadas a la aplicación, sino hacer investigación y exploración.

Anfitrión: ¿Por qué lo define así, "hacer investigación y exploración"?

Liang Wenfeng: Está impulsado por la curiosidad. A largo plazo, queremos verificar algunas conjeturas. Por ejemplo, entendemos que la esencia de la inteligencia humana puede ser el lenguaje y que el pensamiento humano puede ser un proceso del lenguaje. Piensa que estás pensando, pero de hecho, podrías estar creando lenguaje en tu mente. Esto significa que la inteligencia artificial similar a la humana (AGI) puede nacer en modelos de gran tamaño de lenguaje. A corto plazo, todavía hay muchos misterios sin resolver en GPT4. Al replicarlo, también haremos investigaciones para descubrir los misterios.

Anfitriona: Pero la investigación implica mayores costos.

Liang Wenfeng: Si solo realiza la replicación, puede, según los documentos públicos o los códigos fuente abiertos, entrenar solo algunas veces o incluso solo finetune, y el costo es muy bajo. Sin embargo, para la investigación, se requieren varios experimentos y comparaciones, se necesita más potencia computacional y también se elevan los requisitos de personal, por lo que el costo es mayor.

Anfitriona: ¿De dónde proviene la financiación de la investigación?

Liang Wenfeng: Como uno de nuestros financiadores, High-Flyer tiene presupuestos de I+D suficientes. Además, tiene un presupuesto de donación de varios cientos de millones de yuanes cada año. En el pasado, todo se le dio a las instituciones públicas de bienestar. Si es necesario, también se pueden hacer ajustes.

Anfitrión: Pero para hacer modelos básicos, capas grandes, sin 200 a 300 millones de dólares estadounidenses, ni siquiera puede ingresar al juego. ¿Cómo podemos apoyar su inversión continua?

Liang Wenfeng: También estamos hablando con diferentes proveedores de financiamiento. Después de contactarlos, sentimos que muchos inversores de capital privado tienen dudas acerca de la investigación. Tienen requisitos de salida y esperan comercializar productos lo antes posible. Conforme con nuestra idea de dar prioridad a la investigación, es difícil obtener financiamiento de los capitalistas de riesgo. Pero tenemos potencia informática y un equipo de ingenieros, lo que equivale a tener la mitad de los chips.

Anfitriona: ¿Qué deducciones y suposiciones hemos hecho acerca del modelo de negocios?

Liang Wenfeng: Lo que estamos pensando ahora es que podemos hacer que la mayoría de nuestros resultados de capacitación estén disponibles al público en general en un futuro cercano, de modo que puedan combinarse con la comercialización. Esperamos que más personas, incluso una pequeña aplicación, puedan usar modelos grandes a bajo costo, en vez de que la tecnología sea monopolizada por unas pocas personas y empresas.

Anfitriona: Algunas grandes empresas también brindarán algunos servicios más adelante. ¿Cuál es nuestro diferenciador?

Liang Wenfeng: Los modelos de las grandes empresas pueden estar vinculados a sus plataformas o ecosistemas, mientras que nosotros somos completamente libres.

Anfitriona: En todo caso, parece una locura que una empresa comercial haga una exploración orientada a la investigación con una inversión ilimitada.

Liang Wenfeng: Si debe encontrar una razón comercial, es posible que no la encuentre porque no es rentable. Desde una perspectiva comercial, la investigación básica tiene una relación de entrada a retorno muy baja. Al invertir dinero, los primeros inversores de OpenAI definitivamente no pensaron en el retorno que obtendrían, pero realmente querían hacer esto. Lo que estamos relativamente seguros ahora es que, dado que queremos hacer esto y tener la capacidad, en este momento somos uno de los candidatos más adecuados.

La reserva de 10 000 cartas es en realidad impulsada por la curiosidad

Anfitrion: Las GPUs son escasas en este boom de inicio de ChatGPT. ¿Tuve la previsión de reservar 10.000 de ellos en 2021? ¿Por qué?

Liang Wenfeng: De hecho, desde la primera tarjeta al principio, hasta 100 tarjetas en 2015, 1000 tarjetas en 2019 y luego hasta 10000 tarjetas, este proceso ocurrió de forma gradual. Antes de que hubiera cientos de tarjetas, las alojábamos en el IDC (Centro de datos de Internet). Cuando la escala se hizo más grande, el alojamiento ya no podía cumplir con los requisitos, por lo que comenzamos a construir nuestras propias salas de computadoras. Muchas personas pueden pensar que hay una lógica empresarial desconocida detrás de esto, pero en realidad, está impulsada principalmente por la curiosidad.

Anfitriona: ¿Qué tipo de curiosidad?

Liang Wenfeng:Una curiosidad sobre los límites de las capacidades de la IA.Para muchos extranjeros, el impacto de la ola ChatGPT es particularmente grande; pero para los de adentro, el impacto traído por AlexNet en 2012 ya ha liderado una nueva era. La tasa de error de AlexNet era mucho más baja que la de otros modelos en ese momento, lo que revivió la investigación de redes neuronales que había estado inactiva durante décadas. Aunque la dirección técnica específica ha evolucionado, la combinación de modelos, datos y potencia de cómputo sigue siendo la misma. Especialmente después de que OpenAI lanzara GPT3 en 2020, la dirección era clara y se requería una gran cantidad de potencia informática. Sin embargo, incluso en 2021, cuando invertimos en la construcción de Yinghuo - 2, la mayoría de la gente todavía no podía entender.

Anfitrión: Entonces, desde 2012, ¿ha empezado a prestar atención a la reserva de poder de computación?

Liang Wenfeng: Para los investigadores, la sed de poder de cómputo es infinita. Después de realizar experimentos a pequeña escala, siempre quieren hacer experimentos a una mayor escala. Después de eso, también desplegaremos conscientemente la mayor potencia de cómputo posible.

Anfitrión: ¿Mucha gente piensa que esta construcción de computadoras es que las empresas de capital privado cuantitativo usen el aprendizaje automático para la predicción de precios?

Liang Wenfeng: Si solo se hace una inversión cuantitativa, muy pocas tarjetas pueden lograr el objetivo. Hemos investigado mucho más allá de la inversión y estamos más interesados en averiguar qué tipo de paradigma puede describir completamente todo el mercado financiero, si existe una expresión más concisa, dónde están los límites de las capacidades de los diferentes paradigmas y si estos paradigmas tienen una aplicación más amplia, etc.

Anfitrión: Pero este proceso también es un comportamiento de quemar dinero.

Liang Wenfeng: Una cosa emocionante no se puede medir simplemente por el dinero. Es como comprar un piano en casa. Primero podemos pagarlo y, segundo, hay un grupo de personas ansiosas por tocar música en él.

Moderador: Normalmente, las tarjetas gráficas se deprecian a un 20%.

Liang Wenfeng: Aún no lo hemos calculado con precisión, pero debería ser menos que eso. Las tarjetas gráficas de NVIDIA son de mucho valor. Incluso las tarjetas viejas de hace muchos años todavía están en uso por muchas personas. Las tarjetas viejas que retiramos antes eran bastante valiosas cuando se vendían de segunda mano y no perdíamos mucho.

Anfitrión: construir un grupo de computadoras, el mantenimiento, el costo de la mano de obra e incluso las cuentas de electricidad, son gastos considerables.

Liang Wenfeng: De hecho, los costos de electricidad y mantenimiento son muy bajos y representan solo alrededor del 1% del costo del hardware por año. El costo laboral no es bajo, pero también es una inversión para el futuro y el mayor activo de la empresa. Las personas que elegimos están bien emparentadas, son curiosas y tienen la oportunidad de investigar aquí.

Anfitriona: En 2021, High-Flyer estuvo entre el primer lote de empresas en la región de Asia y el Pacífico en obtener tarjetas gráficas A100. ¿Por qué fue antes que algunos proveedores de servicios en la nube?

Liang Wenfeng: Realizamos investigaciones previas, pruebas y planificación de nuevas tarjetas muy temprano. En cuanto a algunos proveedores de servicios en la nube, que yo sepa, sus demandas previas estaban dispersas. No fue hasta 2022, cuando hubo una demanda de maquinaria de alquiler para capacitarse en el campo de la conducción autónoma y tenían capacidad de pago, que algunos proveedores de servicios en la nube comenzaron a construir la infraestructura. Es difícil para grandes empresas simplemente hacer investigación y capacitación. Está más impulsado por las necesidades comerciales.

Anfitrión: ¿Cómo ve el panorama de competencia de los grandes modelos?

Liang Wenfeng: Las grandes empresas definitivamente tienen ventajas, pero si no pueden aplicarlas rápidamente, es posible que no puedan perseverar. Debido a que necesitan ver más los resultados. Algunas empresas emergentes líderes también tienen tecnologías sólidas, pero al igual que la ola anterior de empresas emergentes de IA, todas enfrentan el problema de la comercialización.

Anfitrión: Algunas personas piensan que un fondo cuantitativo que enfatiza su trabajo en IA está promoviendo otros negocios.

Liang Wenfeng: De hecho, nuestro fondo cuantitativo básicamente dejó de recaudar fondos externamente.

Anfitrión: ¿Cómo diferenciar a quienes creen en la IA y a quienes especulan?

Liang Wenfeng: Los fieles han estado aquí antes y seguirán estando aquí en el futuro. Es más probable que compren tarjetas en bloque o que firmen acuerdos a largo plazo con proveedores de servicios en la nube, en vez de que los alquilen a corto plazo.

05 I + D del modelo V2 All by China Talents

Moderador: Jack Clark, ex director de políticas de OpenAI y cofundador de Anthropic, cree que DeepSeek ha contratado a "un grupo de talentos brillantes y misteriosos". ¿Qué tipo de personas hicieron el DeepSeek V2?

Liang Wenfeng: No existen talentos misteriosos y brillantes. Todos son recién graduados de las mejores universidades, estudiantes de doctorado de cuarto y quinto año que no se han graduado y algunos jóvenes que acabaron de graduarse hace algunos años.

Anfitrión: Muchas grandes empresas modelo continúan reclutando talentos de otros países fuera de China. Muchos piensan que los 50 mejores talentos en este campo pueden no estar en empresas chinas. ¿De dónde obtiene sus empleados?

Liang Wenfeng: No hay personas que hayan regresado del extranjero en el modelo V2.Son todos chinos.Los 50 mejores talentos puede que no estén en China, pero tal vez podamos cultivar a esas personas nosotros mismos.

Anfitriona: ¿Cómo se produjo esta innovación de MLA? Escuché que la idea surgió originalmente del interés personal de un joven investigador.

High-Flyer propuso una nueva arquitectura MLA (un nuevo mecanismo latente de atención múltiple de cabezales) que redujo el consumo de la memoria de vídeo al 5 %–13 % de la arquitectura MHA más común que se utilizaba en el pasado.

Liang Wenfeng: Después de resumir algunas de las principales leyes de cambio de la arquitectura de la atención, tuvo un capricho repentino de diseñar una solución alternativa. Sin embargo, fue un proceso largo desde la idea hasta la implementación. Formamos un equipo para esto y tardamos varios meses en ponerlo en marcha.

Anfitrión: El nacimiento de esta diversa inspiración está estrechamente relacionado con su estructura organizativa completamente innovadora. Durante la era High-Flyer (Vuelos Altos), rara vez asignaba objetivos o tareas de arriba a abajo. Pero para la exploración fronteriza de AGI lleno de incertidumbre, ¿ha habido más acciones de gestión?

Liang Wenfeng: En DeepSeek todo es de abajo hacia arriba. Generalmente, no preasignamos la división del trabajo, pero sí tenemos una división del trabajo natural. Cada uno tiene su propia experiencia única de crecimiento y viene con sus propias ideas, y no hay necesidad de empujarlos. Durante el proceso de exploración, cuando se encuentran con problemas, invitarán espontáneamente a otros a discutir. Sin embargo, cuando una idea tenga potencial, asignaremos recursos de arriba a abajo.

Anfitrión: Escuché que el DeepSeek es muy flexible para la movilización de tarjetas y de personal.

Liang Wenfeng: No hay límite máximo para que cada uno de nosotros movilice tarjetas y personal. Si tiene una idea, puede llamar a las tarjetas del grupo de capacitación en cualquier momento sin necesidad de aprobación. Al mismo tiempo, dado que no hay jerarquías y barreras interdepartamentales, también podemos llamar de manera flexible a todos siempre que la otra parte esté interesada.

Moderador: Un método de gestión tan flexible también depende del hecho de que hayas seleccionado un grupo de personas impulsadas por una potente pasión. Escuché que es muy bueno para reclutar personas a partir de los detalles, de modo que se pueda seleccionar a algunas personas que sean excelentes en indicadores de evaluación no tradicionales.

Liang Wenfeng: Nuestros criterios de reclutamiento siempre han sido la pasión y la curiosidad. Mucha gente tiene algunos fenómenos extraños que son muy interesantes. Muchas personas desean investigar mucho más que les importa el dinero.

Anfitrión: Transformer nació en el Laboratorio de IA de Google y ChatGPT nació en OpenAI. ¿Cuáles cree que son las diferencias en el valor de la innovación entre los laboratorios de IA de las grandes empresas y una empresa nueva?

Liang Wenfeng: Sea el laboratorio de Google, OpenAI o incluso los laboratorios de IA de grandes empresas chinas, todos son muy valiosos. Que OpenAI lo haya hecho también tiene una contingencia histórica.

Las rutinas son productos de la generación anterior y esa puede que no se mantenga en el futuro

Anfitrión: ¿La innovación es en gran medida una cuestión de azar? Veo que hay puertas que pueden abrirse a voluntad en ambos lados de la fila de salas de reuniones justo en el medio del área de su oficina. Sus colegas dijeron que esto es para dejar espacio para el azar. En el nacimiento del Transformer, hubo una historia en la que alguien que pasaba por allí se entero y se unió, y al final lo convirtió en un marco general.

Liang Wenfeng: Creo que la innovación es, ante todo, una cuestión de creencias. ¿Por qué Silicon Valley es tan innovador? En primer lugar, el coraje. Cuando ChatGPT salió, toda la industria en China no tenía confianza para hacer innovación a nivel de fronteras. Desde los inversores hasta las grandes empresas, todos pensaron que la brecha era demasiado grande y que era mejor enfocarse en las aplicaciones. Pero la innovación requiere, ante todo, confianza en sí mismo. Este tipo de confianza suele ser más evidente entre los jóvenes.

Anfitrión: Pero no usted participa en la financiación y rara vez habla de manera externa. Sus redes sociales son seguramente inferiores a aquellas de las empresas que están activas en la financiación. ¿Cómo se asegura de que DeepSeek sea la primera opción para las personas que quieren trabajar en modelos grandes?

Liang Wenfeng: Porque estamos haciendo las cosas más difíciles. WWLo que más atrae a los mejores talentos es definitivamente resolver los problemas más difíciles del mundo.De hecho, los mejores talentos en China están subestimados. Debido a que hay muy pocas innovaciones sociales duras, no tienen oportunidad de ser reconocidos. Hacemos las cosas más difíciles, lo cual es atractivo para ellos.

Moderador: En el lanzamiento anterior de OpenAI, GPT5 no funcionó como se esperaba. Mucha gente piensa que la curva tecnológica obviamente se está desacelerando, y mucha gente ha comenzado a cuestionar la Ley de Escalación. ¿Qué opinan?

Liang Wenfeng: Somos bastante optimistas. Toda la industria parece estar de acuerdo con las expectativas. OpenAI no es un dios y no siempre puede estar en el primer plano.

Anfitrión: ¿Cuánto tiempo cree que le llevará alcanzar una IA general? Antes del lanzamiento de DeepSeek V2, lanzó modelos de generación de código y matemáticas, y también cambió de modelos densos a MOE. ¿Cuáles son las coordenadas de su hoja de ruta para la IA general?

Liang Wenfeng: Puede ser de 2 años, puede ser de 5 años o de 10 años. En resumen, se logrará en nuestra vida. En cuanto a la hoja de ruta, no hay una opinión unificada ni siquiera dentro de nuestra empresa. Pero apostamos en tres direcciones.Uno es la matemática y el código, el segundo es la multimodalidad y el tercero es el lenguaje natural en sí.Las matemáticas y el código son campos naturales de prueba para la IA general. Es un poco como el Go, un sistema cerrado y verificable, y se puede lograr una inteligencia muy alta mediante el autoaprendizaje. Por otro lado, la multimodalidad y el aprendizaje en el mundo humano real también puede ser necesarias para la IA general. Estamos abiertos a todas las posibilidades.

Anfitrión: ¿Cuál cree que será el final, el estado de los modelos grandes?

Liang Wenfeng: Habrá mercados especializados que ofrecerán modelos básicos y servicios básicos, y habrá una larga cadena de división del trabajo. Muchas personas satisfarán las diversas necesidades de toda la sociedad sobre esta base.

Anfitrión: En el último año, hubo muchos cambios en las grandes empresas emergentes de modelos de China. Por ejemplo, Wang Huiwen, que era muy activo a principios del año pasado, se retiró en el medio, y aquellas compañías que se unieron más tarde también comenzaron a mostrar una distinción.

Liang Wenfeng: Wang Huiwen asumió él mismo todas las pérdidas y dejó que los demás se salieran sin problemas. Hizo una elección más desfavorable para él pero buena para todos, es muy honesto y lo admiro por eso.

Anfitriona: ¿Dónde pones mayor parte de tu energía ahora?

Liang Wenfeng: La mayoría de mi tiempo se lo dedico a investigar modelos de gran escala de nueva generación. Todavía hay muchos problemas sin resolver.

Anfitrión: Otras grandes empresas de puesta en marcha de modelos insisten en "querer ambas cosas". Después de todo, la tecnología no traerá un liderazgo permanente, y también es importante aprovechar la ventana de tiempo para convertir las ventajas tecnológicas en productos. ¿Se atreve DeepSeek a centrarse en la investigación de modelos porque sus capacidades de modelo no son lo suficientemente sólidas?

Liang Wenfeng:"Las rutinas son productos de la generación anterior y no es probable que sigan existiendo en el futuro".Discutir los futuros modelos de ganancias de IA con la lógica comercial de Internet es como discutir sobre General Electric y Coca-Cola cuando Ma Huateng comenzó su negocio. Es probable que sea un acto de "marcar el barco para encontrar la espada" (una metáfora para adherirse a reglas rígidas sin considerar las circunstancias cambiantes).

Anfitrión: En el pasado, High-Flyer tenía un fuerte gen tecnológico e innovador y creció sin problemas relativos. ¿Es esta la razón por la que eres optimista?

Liang Wenfeng: En cierto sentido, High-Flyer ha mejorado nuestra confianza en la innovación impulsada por la tecnología, pero no todo ha sido fácil. Hemos vivido un largo proceso de acumulación. Lo que el mundo exterior ve es la parte de High-Flyer después de 2015, pero de hecho, hemos estado trabajando en ello durante 16 años.

Anfitrión: Volviendo al tema de la innovación original. Ahora que la economía se está entrando en una tendencia a la baja y el capital está entrando en un ciclo frío, ¿traerá más restricciones a la innovación original?

Liang Wenfeng: No creo. El ajuste de la estructura industrial de China se basará más en la innovación tecnológica en serio. Cuando muchas personas descubran que ganar dinero rápido en el pasado probablemente se debió a la suerte de los tiempos, estarán más dispuestas a inclinarse y hacer una innovación real.

Anfitrión: ¿Entonces, también está optimista acerca de esto?

Liang Wenfeng: Hice mi formación en una ciudad de quinto nivel en Guangdong en la década de 1980. Mi padre era maestro de escuela primaria. En la década de 1990, había muchas oportunidades de ganar dinero en Guangdong. En ese entonces, muchos padres venían a mi casa, en buena parte por la creencia de que estudiar no servía de nada. Ahora que me miro hacia atrás, el concepto ha cambiado. Porque no es fácil ganar dinero y tal vez ni siquiera tenga la oportunidad de conducir un taxi. Ha cambiado en una sola generación.

Estará cada vez más innovación en el futuro. Quizá no sea algo que se entienda fácilmente ahora, porque toda la comunidad social tiene que ser educada por los hechos. Cuando esta sociedad permita que los innovadores incondicionales logren el éxito y la fama, la mentalidad del grupo cambiará.Solo necesitamos más hechos y un proceso.

Más inversión no conduce necesariamente a más innovación

Anfitrión: DeepSeek tiene actualmente el temperamento idealista de los primeros días de OpenAI y también es de código abierto. ¿Elegirás cerrar la fuente en el futuro? Tanto OpenAI como Mistral han pasado por el proceso de cambio de código abierto a código cerrado.

Liang Wenfeng: No cerraremos, fuente. Pensamos que es más importante establecer primero un poderoso ecosistema tecnológico.

Anfitrión: ¿Cuál es su plan de financiamiento? Según algunos informes, High-Flyer tiene un plan para separar a DeepSeek y cotizar independientemente. Las empresas emergentes de IA en Silicon Valley eventualmente estarán vinculadas a grandes corporaciones.

Liang Wenfeng: No tenemos ningún plan de financiación a corto plazo. El problema con el que nos enfrentamos nunca ha sido el dinero, sino la congelación de las tarjetas de alta gama.

Anfitrión: Mucha gente piensa que trabajar en IA general y hacer trading cuantitativo son cosas completamente diferentes. El trading cuantitativo se puede llevar a cabo sin problemas, pero la IA general puede requerir más fanfarria y la formación de alianzas, lo que puede aumentar su inversión.

Liang Wenfeng: La inversión extra no necesariamente genera más innovación. De lo contrario, las grandes empresas podrían monopolizar toda la innovación.

Moderador: No está desarrollando apps, ¿no es porque no tiene los genes de la operación?

Liang Wenfeng: Creemos que la etapa actual es un período de explosión de la tecnología en innovación, en vez de un período de explosión de desarrollo de aplicaciones. A largo plazo, esperamos crear un ecosistema en el que la industria pueda utilizar directamente nuestra tecnología y producción. Solo seremos responsables del desarrollo del modelo básico y de la innovación fronteriza, y otras empresas podrán construir negocios B y C sobre la base de DeepSeek. Si se puede formar una industria completa aluvial y marina, no habrá necesidad de que desarrollemos aplicaciones nosotros mismos. Por supuesto, si es necesario, no tenemos obstáculos para desarrollar aplicaciones, pero la investigación y la innovación tecnológica siempre serán nuestra prioridad principal.

Anfitrion: Pero si alguien elige una API, por qué debería elegir a DeepSeek en vez de una gran empresa?

Liang Wenfeng: Es probable que el mundo futuro se caracterice por la división profesional del trabajo. Los grandes modelos básicos requieren una innovación continua, y las grandes empresas tienen sus propias limitaciones de capacidad, por lo que pueden no ser necesariamente adecuadas.

Anfitriona: ¿Pero la tecnología puede realmente crear una brecha significativa? También dijo que no hay secretos tecnológicos absolutos.

Liang Wenfeng:No hay secretos tecnológicos, pero restablecer la tecnología requiere tiempo y coste.Técnicamente, las tarjetas gráficas de NVIDIA no tienen secretos tecnológicos y pueden reproducirse fácilmente. No obstante, organizar el equipo y mantenerse al día con la tecnología de próxima generación lleva tiempo, por lo que el abismo real sigue siendo bastante grande.

Anfitriona: Después de reducir el precio, ByteDance fue la primera empresa que siguió su ejemplo, lo que indica que todavía se siente una cierta amenaza. ¿Qué opina acerca de las nuevas soluciones para que las empresas de nueva creación compitan con las grandes?

Liang Wenfeng: Para ser honesto, realmente no nos importa esto. Simplemente lo hicimos como una cuestión secundaria. Proporcionar servicios en la nube no es nuestro objetivo principal. Nuestro objetivo sigue siendo lograr IA general.

Actualmente, no hemos visto ninguna nueva solución, y las grandes empresas tampoco tienen una ventaja obvia. Estas empresas tienen usuarios existentes, pero sus negocios de flujo de efectivo también son una carga, lo que las hace vulnerables a ser subvertidas en cualquier momento.

Anfitrión: ¿Qué piensa del resultado final de las seis grandes empresas de puesta en marcha modelo que no sean DeepSeek?

Liang Wenfeng:Posiblemente dos o tres de ellos sobrevivirán.Todos se encuentran todavía en la etapa de quemar dinero. Por lo tanto, aquellos que se autoposicionan claramente y realizan operaciones más sofisticadas tienen más posibilidades de sobrevivir. Otras compañías pueden sufrir una transformación completa. Las cosas valiosas no desaparecerán completamente, pero existirán en una forma diferente.

Anfitriona: Durante la era del alto viajero, su actitud hacia la competencia se describía como "seguir su propio camino" y rara vez le importaban las comparaciones horizontales. ¿Cuál es el punto de partida de su pensamiento sobre la competencia?

Liang Wenfeng: Muchas veces pienso si algo puede mejorar la eficiencia operativa de la sociedad y si puede encontrar una posición en su cadena de división industrial del trabajo que le permita ser bueno. Si el resultado final es el de hacer la sociedad más eficiente, vale la pena. Muchas cosas intermedias son solo etapas, específicas. Centrarse en ellas definitivamente conducirá a la confusión.

La innovación es autogenerada; no se organiza deliberadamente y, desde luego, no se enseña.

Anfitriona: ¿Cómo está el progreso de reclutamiento del equipo de DeepSeek?

Liang Wenfeng: El equipo original se reunió. En la etapa inicial, debido a la escasez de mano de obra, apoyaremos temporalmente a algunas personas de High-Flyer. Iniciamos el proceso de reclutamiento a fines del año pasado cuando ChatGPT3.5 se hizo popular. Sin embargo, todavía necesitamos que más personas se unan.

Anfitrión: El talento para los modelos de grandes empresas emergentes también es limitado. Algunos inversores dicen que muchos talentos adecuados solo podrían estar en los laboratorios de IA de gigantes como OpenAI y FacebookAI Research. ¿Recogerá esos talentos del exterior?

Liang Wenfeng: Si se persiguen objetivos a corto plazo, es razonable buscar personas con experiencia preparada. Pero si se mira a largo plazo, la experiencia no es tan importante. Las capacidades básicas, la creatividad y la pasión son más cruciales. Desde esta perspectiva, hay muchos candidatos adecuados en China.

Moderador: ¿Por qué la experiencia no es tan importante?

Liang Wenfeng: No es necesario que la persona que realizará este trabajo sea la única que haya hecho este trabajo antes. Uno de los principios de reclutamiento de High-Flyer es centrarse en las capacidades en vez de la experiencia. Nuestros puestos técnicos principales están ocupados principalmente por graduados recién egresados y aquellos que se han graduado durante uno o dos años.

Anfitrión: ¿En los negocios innovadores cree que la experiencia es un obstáculo?

Liang Wenfeng: Cuando alguien que tenga experiencia en hacer algo le dirá sin dudar cómo debe hacerse. Pero alguien sin experiencia va a errar repetidamente, reflexionará cuidadosamente cómo hacerlo y luego encontrará una solución que se adapte a la situación actual.

Anfitriona: High-Flyer entró a la industria como un extraño sin genes financieros absolutos y se convirtió en un jugador líder en pocos años. ¿Es esta regla de reclutamiento uno de los secretos de su éxito?

Liang Wenfeng: Nuestro equipo central, incluyéndome a mí, no tenía experiencia comercial cuantitativa al principio. Esto es bastante especial. No se puede decir que sea el secreto del éxito, pero es una de las culturas de High-Flyer. No evitamos deliberadamente a las personas con experiencia, pero nos enfocamos más en sus capacidades.

Tomemos la posición de ventas como ejemplo. Nuestros dos vendedores principales son recién llegados a esta industria. Uno solía dedicarse al comercio exterior de productos mecánicos alemanes, y el otro solía escribir código en la oficina de back-office de una firma de valores. Cuando ingresaron a esta industria, no tenían experiencia, recursos ni acumulación.

Ahora podemos ser la única gran firma de capital privado que depende principalmente de las ventas directas. Hacer ventas directas significa no tener que compartir tarifas con intermediarios. Con la misma escala y rendimiento, el margen de beneficio es mayor. Muchas empresas han intentado imitarlo pero no lo han conseguido.

Anfitrión: ¿Por qué muchas empresas no logran imitarlo?

Liang Wenfeng: Porque confiar solo en esto no es suficiente para que se desarrollen las innovaciones. Debe coincidir con la cultura y la gestión de la empresa. De hecho, no pudieron lograr nada en el primer año y empezaron a lograr algunos resultados en el segundo año. Pero nuestros criterios de evaluación son bastante diferentes a los de las empresas ordinarias. No tenemos KPI, ni tenemos las llamadas tareas.

Anfitrión: ¿Entonces, cuáles son sus criterios de evaluación?

Liang Wenfeng: a diferencia de las empresas comunes que se centran en la cantidad de pedidos de los clientes, no determinamos de antemano cuánto venden nuestros vendedores y cuánta comisión obtienen. En cambio, alentamos a los vendedores a expandir sus propios círculos, conocer a más personas y tener una mayor influencia. Porque creemos que un vendedor honesto que gana la confianza de los clientes puede no ser capaz de conseguir que los clientes hagan pedidos en poco tiempo, pero puede hacer que te sientas como si fuera una persona confiable.

Anfitrión: Una vez que hayas escogido la persona adecuada, ¿cómo la ayudarás a entrar en el estado correcto?

Liang Wenfeng: Dale tareas importantes y no interfieras con él. Deja que él descubra las soluciones y aproveche al máximo sus habilidades. De hecho, es muy difícil copiar los genes de una empresa. Por ejemplo, al reclutar personas sin experiencia, no es fácil imitar directamente cómo juzgar su potencial y cómo ayudarlos a crecer después de ser reclutadas.

Anfitrión: ¿Cuáles son, a su juicio, las condiciones necesarias para construir una organización innovadora?

Liang Wenfeng:Nuestra conclusión es que la innovación requiere la menor intervención y gestión posible.Darle a todos el espacio para expresarse libremente y la oportunidad de cometer errores. La innovación a menudo se produce espontáneamente, no por arreglos deliberados y, ciertamente, no por la enseñanza.

Anfitrión: Este es un método de gestión no convencional. En este caso, ¿cómo te aseguras de que una persona trabaje de manera eficiente y en la dirección que deseas?

Liang Wenfeng: Asegúrese de que los valores sean coherentes al contratar personas y luego asegúrese de que todos estén al día con la cultura corporativa. Por supuesto, no tenemos una cultura corporativa escrita porque todas las cosas escritas obstaculizarán la innovación. Frequentemente, los gerentes son quienes son el ejemplo. La forma en que tomas decisiones cuando enfrentas algo se convertirá en una especie de criterio.

Anfitrión: ¿Cree que en esta oleada de competencia en el desarrollo de modelos grandes, una estructura organizativa más innovadora para las empresas emergentes será el punto de inflexión para competir con las grandes empresas?

Liang Wenfeng: De acuerdo con los principios metodológicos de los libros de texto, las cosas que hacen ahora las empresas emergentes parecen no poder sobrevivir. Pero el mercado cambia. La verdadera fuerza decisiva a menudo no son algunas reglas y condiciones existentes, sino la capacidad de adaptarse y ajustarse a los cambios. Las estructuras organizativas de muchas grandes empresas ya no pueden responder rápidamente ni actuar con celeridad. Además, están fácilmente atados por la experiencia previa y la inercia. Bajo esta nueva ola de IA, definitivamente surgirá un grupo de nuevas empresas.

Anfitriona: ¿Qué es lo que más te emociona de hacer esto?

Liang Wenfeng: Para ver si nuestras conjeturas son ciertas. Si lo son, estaremos muy emocionados.

Anfitrión: ¿Cuáles son las condiciones imprescindibles para reclutar personas para desarrollar modelos grandes esta vez?

Liang Wenfeng: Pasión y capacidades básicas sólidas. Otras cosas no son tan importantes.

Anfitriona: ¿Es fácil encontrar esas personas?

Liang Wenfeng: Se nota su pasión. Debido a que realmente quieren hacerlo, estas personas a menudo te buscan al mismo tiempo.

Anfitriona: Trabajar en modelos grandes puede ser una inversión interminable. ¿Se preocupa por el costo que conlleva?

Liang Wenfeng: La innovación es cara e ineficiente y, a veces, conduce al desperdicio. Por lo tanto, la innovación solo puede darse cuando la economía se ha desarrollado hasta cierto punto. Cuando es muy pobre o en una industria que no se impulsa mediante la innovación, el costo y la eficiencia son extremadamente cruciales. Mire OpenAI, que también gastó una gran cantidad de dinero antes de lograr resultados.

Anfitriona: ¿Crees que haces algo loco?

Liang Wenfeng: No estoy seguro de si es una locura, pero hay muchas cosas en este mundo que no se pueden explicar racionalmente. Al igual que muchos desarrolladores, que son contribuyentes locos de la comunidad de código abierto. Incluso cuando están muy cansados después de un día de trabajo, todavía contribuyen con código.

Anfitriona: Hay un tipo de recompensa espiritual en eso.

Liang Wenfeng: Es como cuando caminas 50 kilómetros. Tal vez tu cuerpo se sienta agotado, pero te sientes muy contento de manera espiritual.

Anfitriona: ¿piensa que la locura impulsada por la curiosidad puede durar para siempre?

Liang Wenfeng: No todos los pueden estar locos toda la vida, pero para la mayoría de las personas, cuando son jóvenes, se pueden dedicar a hacer algo completamente sin propósitos útiles.

author avatar
Word on the Street

Comentarios



Add a public comment...
Sin comentarios

Aún no hay comentarios