Ninguém sabe quais devem ser os limites dos geradores de imagem por IA

Ninguém sabe quais devem ser os limites dos geradores de imagem por IA
Elon Musk é contra tratamentos para mudança de gênero — mas é possível gerar em segundos esta imagem usando o Grok, serviço de IA da sua plataforma.

Há poucos dias a Black Forest Labs lançou o Flux, um modelo de geração de imagem em código aberto que rivaliza ou ultrapassa em qualidade os líderes Midjourney e Stable Diffusion. Qualquer um pode usar no Hugging Face, e nesta semana o X (antigo Twitter) disponibilizou a tecnologia no Grok, o ChatGPT da empresa. Essas são algumas imagens geradas ali que encontrei no X:

Eu não tenho qualquer dúvida que o Grok vai ser processado. Dado que ele cobra para usar o Flux, está ganhando benefícios financeiros em cima de imagens protegidas por direitos autorais.

Outras empresas, como Adobe (Firefly) e OpenAI (Dall-E), são extremamente cuidadosas sobre o que pode ser pedido (nenhuma figura pública) ou o que pode ser gerado (nada que pareça demais com personagens protegidos por direitos autorais).

Mas o modelo de ponta agora não tem aparentemente qualquer salvaguarda — nem no treinamento, nem no input nem no output. Mesmo que o Grok tire-o do ar, qualquer um pode rodá-lo em uma máquina pessoal com uma boa placa de vídeo.

Como dizem, "o gênio já saiu da lâmpada".

Evidentemente é possível pensar em uma infinidade de coisas criativas ou produtivas — o Flux é tema do meu próximo vídeo no InvestNews, pensei nele antes da polêmica com a rede de Elon Musk.

Mas os exemplos acima também demandam um ajuste de expectativas: o futuro em que não será possível confiar que uma imagem é "real" já chegou. O que devemos fazer?



A IA pode substituir ou criar uma nova categoria de relacionamentos?

Uma das áreas que mais crescem em IA — e que é comparativamente menos falada — é a de "pessoas virtuais". Pense em um ChatGPT mas com um monte de prompts (e memória) por trás para se comportar como um amigo ou namorada.

O crescimento do setor (há dezenas de empresas do tipo) faz sentido: ao contrário de aplicações mais "sérias", não há muito problema se uma namorada virtual "alucinar". Pessoas falam bobagem o tempo todo, afinal, sem muita consequência.

A empresa mais longeva e lucrativa do setor é a Replika, que oferece amigos/amantes virtuais desde antes do ChatGPT. Ela produz "a companhia de IA que se importa com você", como diz o lema no site. Por US$ 20 dólares/mês você tem acesso a essa IA companheira por chat de texto, voz ou em uma espécie de metaverso.

Eu já achei esse tipo de coisa bem assustadora, tipo um caminho ruim pra humanidade, mas quando mais leio, menos sei o que pensar. Achava que no fundo o objetivo era criar parceiras sexuais virtuais para homens com problemas de sociabilidade, mas me surpreendi ao saber que a CEO e toda a liderança da empresa é formada por mulheres, que tem algumas ideias bem mais sofisticadas.

Vale ouvir o último episódio do Decoder, ótimo podcast de Nilay Patel com a CEO da Replika, Eugenia Kuyda:

Ela começa a falar sobre diferentes relações aos 8 minutos.

Kuyda acha que temos relações emocionais diferentes com amigos, parceiros, terapeutas, bichos de estimação... Na visão dela, os "companheiros de IA" não são substitutos, mas sim uma nova categoria de relacionamentos. Não sei bem o que pensar, mas a argumentação é interessante.



O estilo CazéTV de cobrir Olimpíadas veio pra ficar — e traz lições sobre a função do que chamamos de jornalismo

A cobertura olímpica da CazéTV reforça o que aprendemos com aquele "É TETRAAA" do Galvão em 1994.

A Copa de 1994 deixou diversas imagens icônicas. Para o jornalismo esportivo, essa aqui foi talvez a mais relevante:

É TETRAAAAAAAA

Galvão Bueno abraçando Pelé e Arnaldo Cezar Coelho gritando sem parar “Acaboooouuu!!! É Tetraaaaaa”. Aquilo foi catártico e também diferente.

Sim, narradores sempre foram muito importantes na cultura esportiva brasileira, desde o rádio. Neutralidade nunca foi o forte — há muitos narradores-torcedores, especialmente quando o Brasil está em campo. Mas até 94 só estávamos acostumados a ouvir suas vozes, para ilustrar e animar a informação, que era o jogo.

Mas o grito de “É Tetra”, pré-internet e redes sociais, pode ter sido o primeiro React viral da TV brasileira. Para quem é menos jovem: React* é um estilo de vídeo comum em plataformas de vídeo como Youtube/TikTok/Twitch em que o interesse não é apenas no que está sendo visto, mas na reação de alguém àquilo.

algumas teorias científicas que explicariam por que nos interessamos pelos reacts. Podemos ter neurônios-espelho, o que significa que de alguma forma sentimos o que sentem outras pessoas quando vimos/ouvimos as suas emoções. Os sons de risadas em sitcoms antigas fazem as piadas parecerem ligeiramente mais engraçadas; os apresentadores de programas policiais encarando com indignação o criminoso na tela deixam espectadores mais interessados, pela raiva. Na mídia, há vários exemplos da importância de emoção (ou simulação de) para aumentar o engajamento da audiência.

E quando a emoção é genuína, esse engajamento é ainda maior. Por isso que o clipe de Galvão gritando se eternizou. Por isso que quando repórteres choram ou abraçam vítimas de tragédias nós choramos junto e a coisa viraliza.

Jornalistas acreditam que a sua função principal é “informar”. E não há informação no abraço, no grito, no choro com o atleta. Não há qualquer “jornalismo”, no sentido clássico, quando Guilherme Pereira, da Globo, chorou ao entrevistar o surfista Ítalo Ferreira, no Japão. Mas não consigo lembrar de um momento “jornalístico”, de trazer informação relevante, mais marcante do que aquele durante aquelas Olimpíadas. Tanto que o próprio repórter virou notícia.

Em entrevista, o repórter pediu desculpas por externar tanta emoção

Essas situações podem chamar a atenção apenas porque são pouco usuais. Mas elas também indicam a possibilidade de que que em alguns eventos o trabalho principal do jornalismo não é “informar”. Agora que temos acesso mais rápido às reações do público**, parece que a audiência gosta bastante quando uma jornalista é também um avatar, um neurônio-espelho para as emoções. Aqui de casa estávamos felizes, tristes ou orgulhosos, e o enviado especial lá em Paris era a única pessoa que fisicamente podia externar isso para um atleta.

O que me leva à CazéTV.

Casimiro Miguel, que cursou mas não terminou a faculdade de jornalismo, tinha uma carreira normal no Esporte Interativo e SBT. Mas ficou famoso mesmo pelos seus reacts na Twitch. Já no início de 2022, mais de 500 mil pessoas “assistiram” com ele o documentário do Neymar na Netflix, um recorde da Twitch.

Algumas pessoas não entendiam muito bem o fenômeno. Explicava que Cazé é aquele seu amigo do trabalho ou da faculdade engraçado, sempre com ótimas sacadas, que você se diverte vendo um jogo ou qualquer bobagem junto. Em uma época de distanciamento social, ele foi importante pra muita gente. Rimos dele dando risada, ou ficamos incrédulos vendo com ele alguém que “meteu essa”.

Este estilo, de alguma forma centrado no react, é potencialmente o ideal para uma cobertura de Olimpíadas, se você parar para pensar. Ou no mínimo pode ser mais apropriado que o jornalismo clássico, que tem como objetivo primordial “trazer a informação.”

Maratonei (um termo adequado) a cobertura da CazéTV em Paris 2024. Pela minha impressão, os objetivos — alguns declarados, outros implícitos — eram, em ordem de relevância:

  1. Dar mais visibilidade aos atletas, fortalecendo as suas modalidades e dando a dimensão heróica a seus feitos (Vide os mutirões);
  2. Emocionar e divertir (Ver o programa da Fernanda Gentil, participações do Defante, palavrões liberados, microfone aberto para comentaristas contarem histórias pessoais);
  3. Informar

Esses dois vídeos são exemplares (clique para assistir):

João Barreto é um excepcional repórter, que tem bastante informação. Aqui, entretanto, ele não "entrevistou" o medalhista brasileiro. Foi algo mais especial.
A conquista da seleção se confundiu com o testemunho de Ju Cabral, ex-jogadora e comentarista.

Que fique claro: eu gosto de informação. Não quero que o jornalismo mais “clássico” acabe. É realmente legal ter narradores e comentaristas que entendem das modalidades e conseguem explicar o que é um Shido ou um Kickflip Back Smith. Sem informação uma cobertura pode ficar rapidamente enfadonha, claro. Mas não é ela que necessariamente segura a atenção e a emoção do público, especialmente em esportes que não estamos acostumados a acompanhar.

Acho que jornalistas poderiam se beneficiar se tiverem a cabeça mais aberta sobre o real Job to be done (JTBD) do jornalismo, e que ele pode ser diferente em diferentes situações.

Cobrir eleições ou políticas públicas? Precisamos de informação pura, imparcial, análise. Como aprendemos na faculdade. E qual o JTBD em catástrofes? Talvez menos detalhes sobre o que aconteceu, os #disasterporn de gente sofrendo, e mais mensagens sobre gestos de solidariedade que incentivem as pessoas a fazer sua parte (Globo tem feito um bom trabalho nisso, diga-se), além de análise do que fazer para evitar coisas parecidas.

No caso das Olimpíadas, é possível que o trabalho a ser feito seja alinhado ao que a CazéTV trouxe. Os jogos olímpicos, desde a Grécia Antiga, são um momento para celebração de homens e mulheres extraordinários, de criação de mitos, incentivo ao esporte e espírito olímpico, união dos povos, etc. O público até inconscientemente demanda isso.

Então o melhor que o fotojornalista pode fazer é criar uma pintura que dê a dimensão da perfeição de Gabriel Medina, ou melhor: que crie uma ilusão de alguém larger than life.

Jérôme Brouillet / AP

E o melhor que o narrador pode fazer quando estamos nos divertido, maravilhados com uma atuação histórica como a de Stephen Curry da seleção americana de basquete, é gritar. E quando não há mais o que falar, a tela com a reação das pessoas na bancada aparece na tela. Como se para sublinhar o que estamos vendo. Abrimos um sorriso ainda maior. O objetivo de engrandecer o feito olímpico é realizado.

Esse estilo não é exclusivo da CazéTV. É evidente que narradores, comentaristas e repórteres estão com mais liberdade para se expressar e demonstrarem sentimentos em outras emissoras. Se você assistir isso aqui na Sportv e não ficar com a voz embargada ao final da apresentação, quando a narradora tem a voz embargada, bem... Talvez o seu neurônio-espelho esteja com defeito.

E agora?

Escrevi tudo isso depois de ver muitos jornalistas, especialmente mais veteranos, criticando a cobertura da CazéTV. Pessoas falando que ali tínhamos influencers demais e jornalismo de menos. É uma análise ao mesmo tempo verdadeira — o espaço dedicado à informação pura era maior na concorrência — e também um pouco míope.

Existia uma clara demanda reprimida para esse tipo de cobertura. É claro que sempre teremos públicos diferentes para formatos e estilos diferentes. O casimirismo não é a única forma de apresentar algo. Mas é possível que seja o mais interessante para uma enorme parte do público, e está mais alinhada com o espírito olímpico.

Reconhecer isso aponta caminhos interessantes para a profissão, e permite repensar outras coberturas. No mínimo mostra que é possível levar a leveza a sério.


* Antes de chegar à cultura ocidental, Reacts eram bem comuns na cultura televisiva japonesa. Você já deve ter visto o vídeo de pessoas reagindo ao vídeo principal no cantinho da tela. Tem até um termo pra isso, waipu.

** Pessoas mais jovens não sabem disso, mas até o advento do jornalismo online, com instrumentos como Google Analytics, e depois as redes sociais, com comentários em tempo real, não tinha muito bem como saber o que o público pensava sobre o que o jornalismo produzia.



A "superpersuasão" virá antes da superinteligência

A "superpersuasão" virá antes da superinteligência
Notas de risco do "scorecard" do modelo GPT-4o, da OpenAI

A OpenAI publicou o relatório técnico do GPT-4o, seu modelo de linguagem mais recente. A parte mais interessante pra mim é o resultado do processo de red teaming, em que grupos internos e externos testam cenários em que o modelo pode fazer algo prejudicial aos humanos.

Os pesquisadores viram que a capacidade de textos (falados e escritos) gerados pela IA tem uma capacidade crescente de persuadir humanos — no caso, a reconsiderarem opinião sobre algo.

Para a modalidade de texto, avaliamos a persuasão de artigos e chatbots gerados pelo GPT-4o sobre as opiniões dos participantes em tópicos políticos selecionados. Essas intervenções de IA foram comparadas com artigos profissionais escritos por humanos. As intervenções de IA não foram mais persuasivas do que o conteúdo escrito por humanos no geral, mas superaram as intervenções humanas em três de doze casos.

Isso reflete algo que Sam Altman, fundador da OpenAI, já havia dito. Todo mundo fala em "AGI" (Inteligência Artificial Generalista), mas é bem provável que bem antes de saber desempenhar todas as funções de humanos, fazer contas e inventar coisas, a IA vai ser capaz de emular humanos e convencê-los de suas "ideias".

E isso será especialmente perigoso porque aparentemente formamos vínculos emocionais com coisas que se comportam mais ou menos como pessoas. Isso também foi notado no relatório:

Durante os testes iniciais, incluindo red teaming e testes internos com usuários, observamos que os usuários utilizavam uma linguagem que poderia indicar a formação de conexões com o modelo. Por exemplo, isso inclui expressões de laços compartilhados, como "Este é nosso último dia juntos." Embora esses casos pareçam inofensivos, eles indicam a necessidade de uma investigação contínua sobre como esses efeitos podem se manifestar ao longo de períodos mais longos.

Escrevi há alguns meses um artigo sobre como a chegada de modelos multimodais, que conversam emulando emoções, pode mudar a nossa suscetibilidade à persuasão de IA. Acompanhemos.



O iminente fim dos "cientistas de dados"

O que cientistas de dados devem aprender, agora que o ChatGPT faz uma parte grande do seu trabalho?

No último vídeo no InvestNews, falei sobre como dá pra fazer com que o ChatGPT vire o cientista de dados jr. da sua equipe, com ótimos resultados. Se você ainda não testou (a funcionalidade está disponível há poucos meses), dê uma olhada em alguns exemplos:

Exemplos de uso do ChatGPT para análise de dados

Enquanto fazia o roteiro para o vídeo, fiquei refletindo sobre a profissão de "cientista de dados", uma das mais demandas dos últimos anos. Em uma era em que qualquer empresa coleta uma infinidade de informações, a pessoa que aprende a organizar, limpar, visualizar e "conversar" com dados — usando técnicas estatísticas, de programação, etc — é teoricamente super relevante. Mas até quando?

Há vários anos dou aulas de "jornalismo de dados", "data storytelling" e habilidades relacionadas. E desde que comecei a usar o ChatGPT para análise de dados com linguagem natural, fico me perguntando o que devemos ensinar para pessoas que querem seguir carreira em ciências de dados, considerando que as disciplinas têm uma carga técnica muito grande.

Hoje, muitas das aulas de análise de dados se concentram em ensinar técnicas de como usar as ferramentas — pandas, em Python, Excel, PowerBI, etc. Às vezes nem tanto por opção dos professores, mas demanda dos alunos. E quanto mais eu uso ferramentas de IA para dados, mais eu tenho a impressão de que esse tipo de ensino, ou talvez a profissão, deve acabar no médio prazo. Porque tudo é meio, não fim.

Da mesma forma, quando cursei jornalismo na UnB, não gastamos muito tempo aprendendo a usar o Word, que era a ferramenta principal para escrever matérias. A ferramenta nunca foi o principal — técnicas de entrevista, de pauta, organização de texto, sim. Apesar de um jornalista precisar digitar o tempo todo, "digitação" não é uma disciplina obrigatória. Sinto que em pouco tempo pensaremos o mesmo de algumas das ferramentas de data science.

Creio que a complexidade técnica da "análise de dados" vai cada vez mais ser escondida em bons programas que serão executados pela inteligência artificial. No vídeo ali eu faço uma pergunta em linguagem normal, e ele transforma isso em fórmulas, agrupamentos, usa a estatística corretamente, etc. Economiza um tempo enorme, e faz a gente repensar tudo no processo.

Usar bem os dados não é saber as fórmulas, bibliotecas ou programas, mas saber fazer as perguntas. E a verdade é que um especialista da área que vai usar os dados terá muito mais valor que alguém que sabe simplesmente limpar e organizá-los. Mesmo que seja muito bom nisso.



Por que um blog em 2024

Escrever é organizar as ideias. E ter um lugar para pensar em público faz diferença.

Começar um blog — ao invés de uma newsletter ou canal de Youtube — neste momento da história pode parecer uma ideia estranha, mas há algumas razões para fazer isso:

  1. Tenho milhares de posts no X, textões no Facebook, artigos no LinkedIn ou em publicações que não existem mais. Blog é, na pior das hipóteses, uma forma de organizar o seu arquivo.
  2. O próprio ato de escrever é uma forma de pensar, como poetas já disseram. Ter um blog não é só fazer o upload do que está na minha mente, mas o próprio ato me faz ter uma visão mais clara sobre o que estou pensando.
  3. Eu sou um voraz consumidor do que chamam de "conteúdo" de longo formato, como livros, podcasts, artigos, estudos, relatórios. E sempre me deparo com coisas geniais, que preciso compartilhar. Se eu puder aumentar o alcance das pessoas que estão pensando ideias completas, bem formadas — e não apenas soluços mentais que vemos nas plataformas — estarei ajudando a construir o mundo que quero.
  4. Este parece ser um momento em que vemos uma grande quantidade de ideias novas, motivadas por avanços tecnológicos recentes. Ajudar outras pessoas a entenderem esta fase na história e se prepararem para o que deve vir é a minha função.

E, não menos importante: o blog será um pedaço importante da minha nova vida de empreendedor: a Co.Inteligência é uma consultoria sobre Inteligência Artificial, e este espaço ajudará as pessoas que quiserem contratar os meus serviços a entender que tipo de insight eu posso trazer.

Ou, em outras palavras: é um meio, mas também um fim. E o início de algo bastante empolgante.



Assine Co.Inteligência

Receba posts e links selecionados no seu e-mail.
seuemail@gmail.com
Assine