Sim, a inteligência artificial parece ser um conceito emergente. Antes de 2017, os modelos de IA tinham um desempenho medíocre. Mas, ao aumentar suficientemente a escala dos modelos (dados de treinamento e número de parâmetros), ocorreu uma transição de fase. Surgiram, então, interações mais complexas entre os neurônios artificiais, dando origem a capacidades cognitivas sofisticadas que agora qualificamos como "inteligentes", e tudo isso a partir de componentes matemáticos muito simples.
Os parâmetros das redes neurais são as variáveis internas de um modelo de IA. Esses parâmetros são ajustados automaticamente durante o aprendizado a partir dos dados de entrada.
Por exemplo, o modelo GPT-3 da OpenAI tem 175 bilhões de parâmetros. O modelo DALL-E da OpenAI tem 12 bilhões de parâmetros. Diz-se que o modelo Gemini Ultra do Google tem 540 bilhões de parâmetros.
O número de parâmetros depende da estrutura da rede, ou seja, do número de camadas, do número de neurônios por camada e do tipo de conexão entre as camadas.
O número de parâmetros é dado pela seguinte fórmula: P = (d+1)h + (h+1)o, onde d é o número de neurônios de entrada, h é o número de neurônios ocultos e o é o número de neurônios de saída. O termo +1 corresponde ao viés, que é um parâmetro adicional adicionado a cada camada para evitar a tendência humana natural de favorecer certos resultados.
O número de parâmetros influencia a capacidade de aprendizado de uma rede neural e, portanto, o desempenho e o comportamento do modelo. Quanto mais parâmetros houver, mais o sistema terá a capacidade de produzir resultados corretos e coerentes. No entanto, há um limite!
Um fenômeno chamado "overfitting" penaliza o sistema quando o número de parâmetros é muito grande em relação à quantidade de dados disponíveis.
Se você quiser aumentar o número de parâmetros em uma rede neural, também deve aumentar os dados de treinamento.
Isso explica por que o apetite dos operadores por nossos dados é insaciável.
Nas redes neurais artificiais (RNAs), cada neurônio realiza um cálculo que é uma soma ponderada de suas entradas e, em seguida, aplica uma função de ativação com limiar para determinar sua saída, que fornece à camada seguinte.
A partir desse simples processo matemático, uma singularidade aparece.
A rede apenas prevê a próxima palavra ou o próximo "token" (pedaço de palavra) que virá na frase. E, no entanto, uma frase ordenada, racional e coerente emerge, mesmo que venha de um processo probabilístico.
Para este mágico da linguagem que manipula palavras sem se importar com seu significado, a noção de verdade não é relevante. O sistema não busca fornecer respostas exatas, mas sim frases prováveis.
Em outras palavras, um sistema que não tem nenhuma conexão com nossa realidade, desprovido de sentido e conhecimento, e que não distingue entre "verdadeiro" e "falso", pode fornecer uma resposta "inteligente".
É graças ao seu imenso corpus de treinamento que a IA dá a impressão de entender o contexto da frase, a intenção do autor e as nuances da linguagem.
Há algo profundamente perturbador nessa manifestação!
Como um fenômeno tão complexo e sofisticado como a inteligência pode emergir em um ambiente virtual?
Exemplos de conceitos emergentes
- Logo após o Big Bang, o universo era extremamente quente e denso. Nesse ambiente extremo, a matéria emergiu da energia pura, de acordo com a equação de Einstein, E=mc². Assim, partículas elementares como quarks, elétrons e neutrinos, que não existiam antes, emergiram do universo primordial.
- A vida é um fenômeno emergente; resulta da interação de componentes mais simples, como as moléculas químicas que a constituem. No entanto, ela apresenta propriedades novas e irredutíveis a esses componentes. A partir de uma certa organização molecular, ela aparece em um ambiente onde não existia antes.
Um conceito emergente decorre de um conceito mais fundamental, permanecendo novo e irredutível a este. Em outras palavras, novas propriedades aparecem com o conceito emergente a partir de um ambiente onde não estava presente anteriormente. Essas novas propriedades parecem ser uma resposta natural às condições físicas específicas de um ambiente.
Os modelos de IA antes de 2017 eram treinados com conjuntos de dados muito menores do que os usados hoje. Eles estavam longe de ser perfeitos; as IAs generativas não funcionavam muito bem.
À medida que os dados disponíveis para o aprendizado aumentavam, os cientistas de dados aumentaram intuitivamente o número de parâmetros. A partir de um limiar milagroso, eles observaram uma melhora significativa nos resultados.
Esse fenômeno ocorreu em 2017 com o modelo GPT-2 (Generative Pre-trained Transformer 2), que marcou um ponto de virada no campo da geração de texto, demonstrando sua capacidade de produzir textos de qualidade humana.
O que aconteceu?
Antes de 2017, a escala dos modelos (dados de treinamento e arquiteturas neurais) aumentava, mas nada acontecia; os desempenhos eram medíocres e estagnavam. Então, de repente, quando a escala atingiu um limiar, houve uma transição de fase. Em outras palavras, uma mudança de estado físico do sistema, causada pela diversidade de dados e parâmetros.
De repente, interações mais ricas, mais profundas e mais complexas entre os neurônios apareceram.
O fato notável nesta evolução milagrosa é a emergência de capacidades cognitivas mais sofisticadas que agora nos parecem "inteligentes".
Os cientistas têm muita dificuldade em explicar essa transição de fase. No entanto, uma "inteligência" realmente emergiu matematicamente da interação de componentes muito simples, como dados, algoritmos, modelos e parâmetros!
O que essa emergência, proveniente de uma máquina, nos diz sobre a natureza da inteligência em si?
O aprendizado de máquina é um processo não linear, o que significa que pequenas mudanças podem causar mudanças significativas no comportamento do modelo. Por enquanto, não entendemos como os modelos tomam suas decisões, o que dificulta prever seus comportamentos futuros.
O campo da IA está evoluindo muito rapidamente, com novas tecnologias e arquiteturas aparecendo constantemente. A partir da crescente complexidade dos modelos, outras propriedades inesperadas podem emergir, como criatividade, arte, compreensão da realidade e até mesmo consciência.
A IA foi originalmente projetada para imitar as capacidades do cérebro humano. Para isso, ela se inspirou em modelos de neurônios biológicos para criar redes neurais artificiais.
É provável que, no futuro, a IA e a pesquisa sobre o cérebro se enriqueçam mutuamente.
Ao usar a IA e deixá-la evoluir sozinha, é possível que ela nos forneça as chaves para desvendar os mistérios do cérebro humano.
"O acaso é o deus dos inventores." - Pierre Dac (1893-1975), humorista francês.
Os parâmetros são as variáveis internas de um modelo de IA, ajustadas automaticamente durante o aprendizado. Eles incluem os pesos sinápticos e os viéses. Seu número depende da estrutura da rede (número de camadas e neurônios). Por exemplo, o GPT-3 tem 175 bilhões de parâmetros. Quanto mais parâmetros houver (com dados suficientes), mais o sistema terá a capacidade de produzir resultados corretos e coerentes.
Uma rede neural apenas prevê a próxima palavra (ou "token") mais provável de acordo com um processo estatístico. Ela não busca fornecer respostas "verdadeiras", mas frases prováveis, sem nenhuma conexão com nossa realidade ou distinção entre verdadeiro e falso. É graças ao seu imenso corpus de treinamento que ela dá a impressão de entender o contexto, a intenção e as nuances, mesmo que esteja desprovida de sentido e conhecimento.
Antes de 2017, aumentar a escala dos modelos (dados e parâmetros) melhorava apenas pobremente o desempenho. De repente, com o modelo GPT-2, um limiar crítico foi atingido, provocando uma transição de fase (uma mudança de estado físico do sistema). Surgiram interações mais ricas e complexas entre os neurônios, dando origem a capacidades cognitivas sofisticadas. Os cientistas ainda têm dificuldade para explicar plenamente esse fenômeno.