Risorse

OpenAI vs Perplexity vs Google Deep Research: Confronto Benchmark Completo [2025]

Team di Ricerca PUNKU.AI

28 novembre 2025

9 min di lettura

OpenAI vs Perplexity vs Google Deep Research: Confronto Benchmark Completo [2025]

Punti chiave

La ricerca suggerisce che gli strumenti Deep Research, come quelli di OpenAI, Perplexity, Google e xAI, variano negli approcci tecnici, con OpenAI che utilizza il modello o3 e Perplexity che utilizza DeepSeek R1 (DataCamp, 2025; ZDNET, 2025).

Sembra probabile che questi strumenti si siano evoluti dai primi workflow basati su Directed Acyclic Graph (DAG) verso modelli più dinamici basati su Finite State Machine (FSM) e modelli completamente addestrati (Siddhardha, 2024; Hopsworks, 2024).
Le evidenze propendono verso l'utilizzo dei punteggi Humanity's Last Exam (HLE), come il 26,6% di OpenAI, per valutare la qualità, considerando anche velocità e profondità dei report (Center for AI Safety, 2025; Scale AI, 2025).
I metodi di addestramento includono probabilmente il reinforcement learning per o3 di OpenAI e il fine-tuning per Perplexity, anche se i dettagli variano (The Decoder, 2024; US AI Institute, 2025).
Deep Research si differenzia dalla Retrieval Augmented Generation (RAG) offrendo ricerche multi-step, e dai sistemi agentici concentrandosi sulle attività di ricerca, con un certo dibattito su se si tratti di innovazione o rebranding (Berkeley Artificial Intelligence Research, 2024; McKinsey, 2024).
Le limitazioni pratiche includono errori fattuali e problemi di credibilità delle fonti, con diversi livelli di autonomia che influenzano la supervisione umana (ScienceAlert, 2025; Nature, 2025).
I cicli di ricerca iterativi migliorano la profondità della ricerca, con applicazioni nelle revisioni della letteratura e nell'analisi di argomenti complessi, supportati dai benchmark HLE (arXiv, 2025; InfoQ, 2024).

Distinzioni Tecniche

Gli strumenti Deep Research dei principali laboratori di AI mostrano approcci tecnici distinti:

Deep Research di OpenAI utilizza il modello o3, gestendo testo, immagini e PDF, con future capacità di visualizzazione, ottenendo il 26,6% su HLE (DataCamp, 2025).
Deep Research di Perplexity si basa su un DeepSeek R1 personalizzato con espansione Test Time Compute (TTC), ottenendo il 21,1% su HLE (ZDNET, 2025).
Deep Research di Google, parte di Gemini 2.0 Pro, si integra con il loro assistente AI per report completi (Google, 2025).
DeepSearch di xAI, basato su Grok 3, si concentra su ragionamento e ricerca, con dati sulle prestazioni meno specifici disponibili (Business Insider, 2025).

Evoluzione e Metriche

Questi strumenti si sono probabilmente evoluti dai primi approcci basati su DAG, dove le attività erano predefinite, verso modelli dinamici FSM e completamente addestrati che si adattano durante la ricerca (Siddhardha, 2024). Le metriche di valutazione includono i punteggi HLE, con OpenAI in testa al 26,6%, e il tempo di completamento, con Perplexity più veloce (sotto i 3 minuti) rispetto a OpenAI (5-30 minuti) (Creator Economy, 2025; The Indian Express, 2025).

Analisi Completa delle Implementazioni Deep Research

Questa nota fornisce un esame dettagliato di Deep Research nei principali laboratori di AI, inclusi OpenAI, Perplexity, Google e xAI, affrontando distinzioni tecniche, percorsi evolutivi, metriche di valutazione, metodologie di addestramento, differenze rispetto alle tecnologie precedenti, limitazioni pratiche, cicli di ricerca iterativi, applicazioni nel mondo reale, evidenze empiriche e l'equilibrio tra autonomia e supervisione umana. L'analisi si basa sui risultati più recenti al 7 marzo 2025 e mira a offrire una panoramica professionale e approfondita.

Distinzioni Tecniche tra le Implementazioni

Gli strumenti Deep Research sono agenti AI progettati per la ricerca autonoma e approfondita, con ogni laboratorio che adotta approcci tecnici unici:

Deep Research di OpenAI: Basato sul modello o3, un modello linguistico di grandi dimensioni (LLM) orientato al ragionamento, introdotto a dicembre 2024. Può interpretare e analizzare testo, immagini e PDF, con piani per produrre visualizzazioni e incorporare immagini nei report. Ha ottenuto il 26,6% su Humanity's Last Exam (HLE), superando rivali come R1 di DeepSeek (9,4%) e GPT-4o (3,3%) (DataCamp, 2025). Le limitazioni includono allucinazioni fattuali e difficoltà nel distinguere fonti autorevoli.
Deep Research di Perplexity: Utilizza una versione personalizzata di DeepSeek R1, un modello open-source, con un framework proprietario chiamato Test Time Compute (TTC) expansion. Questo consente un'esplorazione sistematica imitando i processi cognitivi umani attraverso cicli di analisi iterativi, eseguendo dozzine di ricerche e leggendo centinaia di fonti. Ha ottenuto il 21,1% su HLE, con un focus sulla velocità, completando la maggior parte delle attività in meno di 3 minuti (ZDNET, 2025).
Deep Research di Google: Integrato in Gemini Advanced, utilizzando il modello Gemini 2.0 Pro, annunciato a dicembre 2024. Conduce ricerche creando piani multi-step, navigando centinaia di siti e fornendo report completi con fonti collegate, enfatizzando l'integrazione con gli ecosistemi di produttività (Google, 2025).
DeepSearch di xAI: Parte di Grok 3, lanciato a febbraio 2025, con capacità di ragionamento e un focus sulla ricerca multi-step. Utilizza uno strumento per tracciare le ricerche su internet, insegnando al modello capacità naturali di ricerca e ragionamento, disponibile per gli utenti X Premium e Premium+. Non sono stati trovati punteggi HLE specifici, ma compete con OpenAI e Google (Business Insider, 2025).

Queste distinzioni evidenziano le differenze nei modelli sottostanti, nelle capacità di gestione dei dati e nelle metriche di prestazione, con OpenAI e Perplexity che forniscono punteggi benchmark per il confronto.

Evoluzione dagli Approcci DAG Iniziali a Modelli Sofisticati

L'evoluzione di Deep Research è probabilmente progredita dai primi approcci basati su Directed Acyclic Graph (DAG), dove le attività di ricerca erano rappresentate come nodi con dipendenze (ad esempio, orchestrazione di workflow in Apache Airflow), verso modelli più sofisticati basati su Finite State Machine (FSM) e completamente addestrati. I DAG erano utilizzati per definire sequenze statiche di passaggi di ricerca, limitando l'adattabilità. Le implementazioni attuali, come quelle che utilizzano FSM, consentono transizioni di stato dinamiche basate sui risultati della ricerca, mentre i modelli completamente addestrati (ad esempio, o3, Grok 3) imparano a pianificare e perfezionare autonomamente i processi di ricerca, migliorando flessibilità e profondità (Siddhardha, 2024; Hopsworks, 2024).

Questo cambiamento riflette un movimento verso sistemi AI che possono imitare i processi di ricerca umani, con apprendimento iterativo e adattamento, piuttosto che workflow rigidi e predefiniti.

Metriche Quantificabili e Confronti

Le metriche di valutazione per la qualità di Deep Research includono:

Humanity's Last Exam (HLE): Un benchmark con 3.000 domande a livello esperto in matematica, discipline umanistiche e scienze naturali, progettato per testare il ragionamento oltre il semplice recupero di informazioni. I punteggi includono:
- OpenAI Deep Research: 26,6%
- Perplexity Deep Research: 21,1%
- Gemini di Google e DeepSearch di xAI non hanno punteggi HLE specifici nei dati recenti (Wikipedia, 2025a).
Tempo di Completamento: Perplexity completa le attività in meno di 3 minuti, mentre OpenAI impiega 5-30 minuti, influenzando l'esperienza utente e l'efficienza (The Indian Express, 2025).
Completezza: Misurata dalla profondità del report, dalla qualità delle citazioni e dalla capacità di gestire query complesse, con OpenAI noto per la profondità analitica e Perplexity per velocità e accessibilità.

I confronti mostrano OpenAI in testa nelle prestazioni HLE, ma Perplexity offre un accesso più rapido e conveniente, evidenziando i compromessi tra accuratezza ed efficienza.

Metodologie di Addestramento Specifiche

Le metodologie di addestramento variano, personalizzate per migliorare le capacità di ricerca:

o3 di OpenAI: Utilizza il reinforcement learning con ragionamento simulato e tecniche di chain-of-thought privato, consentendo al modello di fermarsi e riflettere, migliorando l'accuratezza su attività complesse come la programmazione e la matematica (The Decoder, 2024).
Deep Research di Perplexity: Probabilmente prevede il fine-tuning di DeepSeek R1, un modello open-source noto per il ragionamento, con espansione TTC per analisi iterativa, anche se i dettagli specifici sono proprietari (US AI Institute, 2025).
Gemini 2.0 Pro di Google: Addestrato su grandi dataset utilizzando apprendimento supervisionato e reinforcement learning, concentrandosi su attività complesse e ragionamento, con integrazione in Gemini Advanced per la ricerca (Google Gemini, 2025).
Grok 3 di xAI: Addestrato su dataset estesi con focus sul ragionamento, utilizzando 200.000 GPU Nvidia H100, enfatizzando capacità multimodali e funzionalità DeepSearch (PCWorld, 2025).

Queste metodologie evidenziano una tendenza verso l'addestramento specializzato per attività di ricerca, con reinforcement learning e fine-tuning come pratiche comuni.

Differenze rispetto a RAG e Sistemi Agentici

Deep Research si differenzia dalle tecnologie precedenti come segue:

Retrieval Augmented Generation (RAG): RAG potenzia gli LLM con meccanismi di recupero per informazioni aggiornate, concentrandosi sulla generazione single-step. Deep Research estende questo eseguendo ricerche iterative multi-step, pianificazione e sintesi di report, andando oltre il recupero (Berkeley Artificial Intelligence Research, 2024).
Sistemi Agentici: Questi sono sistemi AI più ampi che agiscono autonomamente, mentre Deep Research è un sottoinsieme specifico focalizzato sulle attività di ricerca, con capacità avanzate di pianificazione e ragionamento. L'innovazione risiede nella profondità e nell'autonomia, anche se alcuni sostengono che sia un rebranding di sistemi agentici avanzati, alimentando il dibattito sulla novità rispetto al marketing (McKinsey, 2024).

Limitazioni Pratiche

Le attuali implementazioni di Deep Research affrontano diverse limitazioni:

Errori Fattuali: Tutti i sistemi possono produrre allucinazioni, con OpenAI che segnala problemi nel distinguere fonti autorevoli (ScienceAlert, 2025).
Credibilità delle Fonti: Difficoltà nell'identificare fonti affidabili, potenzialmente includendo voci, influenzando l'accuratezza dei report.
Comunicazione dell'Incertezza: Potrebbe non riflettere accuratamente l'incertezza, influenzando la fiducia.
Tempo e Costo: Il piano Pro di OpenAI a $200/mese limita l'accesso, mentre Perplexity offre livelli gratuiti ma con limiti sulle query (Creator Economy, 2025).
Supervisione Umana: Richiede intervento per attività complesse, evidenziando la necessità di guida da parte dell'utente.

Implementazione dei Cicli di Ricerca Iterativi

I cicli di ricerca iterativi coinvolgono più round di ricerca, analisi e perfezionamento, influenzando la profondità della ricerca:

OpenAI: Utilizza il ragionamento simulato, con o3 che si ferma per riflettere, potenzialmente eseguendo più iterazioni, impiegando 5-30 minuti, migliorando la profondità ma aumentando la latenza.
Perplexity: Impiega l'espansione TTC per il perfezionamento iterativo, completando le attività rapidamente (sotto i 3 minuti), bilanciando profondità e velocità.
Google: Crea piani multi-step per l'approvazione dell'utente, consentendo navigazione e analisi iterative, con report che riflettono approfondimenti completi.
xAI: DeepSearch traccia le ricerche su internet, insegnando capacità di ragionamento, con processi iterativi probabilmente incorporati nelle modalità di ragionamento di Grok 3 (Think, Big Brain), influenzando la profondità in base alla selezione della modalità.

Questa variabilità influenza la profondità della ricerca, con cicli più lunghi che potenzialmente producono risultati più completi ma a un costo computazionale maggiore.

Applicazioni nel Mondo Reale e Casi d'Uso

Gli strumenti Deep Research dimostrano benefici significativi in:

Revisioni della Letteratura: Lo strumento di OpenAI produce report citati di più pagine, utili per gli scienziati (Nature, 2025).
Ricerca su Argomenti Complessi: Perplexity eccelle in finanza, marketing e tecnologia, fornendo analisi a livello esperto in pochi minuti (InfoQ, 2025).
Report Educativi e Aziendali: Deep Research di Google aiuta nelle tendenze di settore, analisi competitiva e ricerca sui clienti, migliorando la produttività (Google Workspace Updates, 2025).

Queste applicazioni evidenziano il potenziale trasformativo per i lavoratori della conoscenza e i ricercatori.

Articoli di Ricerca ed Evidenze Empiriche

Le evidenze empiriche includono:

Prestazioni HLE: Fornisce punteggi per il confronto, con OpenAI al 26,6% e Perplexity al 21,1%, indicando capacità di ragionamento (arXiv, 2025).
Altri Benchmark: Punteggi GPQA, Codeforces e SWE-Bench Verified per modelli come o3, che mostrano prestazioni nella programmazione e matematica, supportando l'efficacia della ricerca (InfoQ, 2024).

Questi articoli offrono dati robusti per valutare gli strumenti Deep Research.

Bilanciamento tra Ricerca Autonoma e Supervisione Umana

I diversi sistemi bilanciano autonomia e supervisione in modo variabile:

OpenAI: Consente l'interazione dell'utente per approvare i piani di ricerca, con trasparenza nei passaggi di ragionamento, ma richiede l'abbonamento Pro per l'accesso completo, limitando l'autonomia per gli utenti gratuiti.
Perplexity: Offre accesso gratuito con limiti, abilitando le query degli utenti ma con perfezionamento iterativo in gran parte autonomo, bilanciando velocità e profondità.
Google: Gli utenti possono rivedere i piani multi-step, migliorando la supervisione, con l'integrazione negli strumenti di produttività che facilita l'intervento umano.
xAI: DeepSearch opera all'interno di Grok 3, con modalità come Think e Big Brain che mostrano i processi di pensiero, consentendo la supervisione dell'utente, ma le specifiche sull'intervento sono meno chiare.

Questo equilibrio garantisce che gli utenti possano guidare la ricerca sfruttando l'autonomia dell'AI, con diversi livelli di trasparenza e controllo.

Tabella Riepilogativa: Prestazioni HLE e Metriche Chiave

Implementazione	Punteggio HLE	Tempo di Completamento	Gestione Dati
OpenAI Deep Research	26,6%	5-30 minuti	Testo, Immagini, PDF
Perplexity Deep Research	21,1%	Sotto i 3 minuti	Testo (presunto)
Google Deep Research	Non specificato	Non specificato	Testo, Fonti Web
xAI DeepSearch	Non specificato	Non specificato	Testo, Web, X

Questa tabella riassume le metriche chiave, evidenziando le differenze nelle prestazioni e nelle operazioni.

In conclusione, Deep Research rappresenta un avanzamento significativo nella ricerca guidata dall'AI, con implementazioni distinte che offrono punti di forza e limitazioni unici, supportate da benchmark empirici e applicazioni nel mondo reale, bilanciando l'autonomia con la necessaria supervisione umana.

Riferimenti

arXiv. (2025). Humanity's Last Exam. arXiv:2501.14249.
Berkeley Artificial Intelligence Research. (2024, February 18). The shift from models to compound AI systems. https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/
Business Insider. (2025, February). Elon Musk's xAI has been working on a 'DeepSearch' feature, employees say, and it could compete with Google and OpenAI. https://www.businessinsider.com/xai-deepsearch-google-gemini-openai-2025-2
Center for AI Safety. (2025). Humanity's Last Exam. GitHub. https://github.com/centerforaisafety/hle
Creator Economy. (2025). Deep Research: The best AI product from OpenAI since ChatGPT. https://creatoreconomy.so/p/deep-research-the-best-ai-agent-since-chatgpt-product
DataCamp. (2025). OpenAI's Deep Research: A guide with practical examples. https://www.datacamp.com/blog/deep-research-openai
Google. (2025). Try Deep Research and our new experimental model in Gemini, your AI assistant. https://blog.google/products/gemini/google-gemini-deep-research/
Google Gemini. (2025). Gemini Advanced - get access to Google's most capable AI models with Gemini 2.0. https://gemini.google/advanced/?hl=en
Google Workspace Updates. (2025, February). Gemini Deep Research and experimental models now available to Google Workspace users in Gemini Advanced. https://workspaceupdates.googleblog.com/2025/02/deep-research-available-for-google-workspace-in-gemini-advanced.html
Hopsworks. (2024). What is a DAG Processing Model? https://www.hopsworks.ai/dictionary/dag-processing-model
InfoQ. (2024, December). OpenAI announces 'o3' reasoning model. https://www.infoq.com/news/2024/12/openai-announces-o3/
InfoQ. (2025, February). Perplexity unveils Deep Research: AI-powered tool for advanced analysis. https://www.infoq.com/news/2025/02/perplexity-deep-research/
McKinsey. (2024). Why AI agents are the next frontier of generative AI. https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/why-agents-are-the-next-frontier-of-generative-ai
Nature. (2025). OpenAI's 'deep research' tool: Is it useful for scientists? https://www.nature.com/articles/d41586-025-00377-9
PCWorld. (2025). xAI launches new Grok-3 AI model with DeepSearch reasoning. https://www.pcworld.com/article/2611838/xai-launches-new-grok-3-ai-model-with-deepsearch-researching.html
Scale AI. (2025). Humanity's Last Exam - Scale AI and CAIS unveil results. https://scale.com/blog/humanitys-last-exam-results
ScienceAlert. (2025). ChatGPT's Deep Research is here. But can it really replace a human expert? https://www.sciencealert.com/chatgpts-deep-research-is-here-but-can-it-really-replace-a-human-expert
Siddhardha. (2024). Agentic AI workflows in Directed Acyclic Graphs (DAGs), Intro. Medium. https://medium.com/@siddhardha/agentic-ai-workflows-in-directed-acyclic-graphs-dags-intro-5d00444124dd
The Decoder. (2024). OpenAI's o3 model shows major gains through reinforcement learning scaling. https://the-decoder.com/openais-o3-model-shows-major-gains-through-reinforcement-learning-scaling/
The Indian Express. (2025). Perplexity AI's Deep Research tool is free to use: Here's how it works. https://indianexpress.com/article/technology/artificial-intelligence/perplexity-ais-deep-research-tool-is-free-to-use-heres-how-it-works-9837369/
US AI Institute. (2025). What is Perplexity Deep Research, A detailed overview. https://www.usaii.org/ai-insights/what-is-perplexity-deep-research-a-detailed-overview
Wikipedia. (2025a). Humanity's Last Exam. https://en.wikipedia.org/wiki/Humanity%27s_Last_Exam
Wikipedia. (2025b). Deep Research. https://en.wikipedia.org/wiki/Deep_Research
Wikipedia. (2025c). ChatGPT Deep Research. https://en.wikipedia.org/wiki/ChatGPT_Deep_Research
ZDNET. (2025). What is Perplexity Deep Research, and how do you use it? https://www.zdnet.com/article/what-is-perplexity-deep-research-and-how-do-you-use-it/

Articolo Precedente

Prospettive della CIA sull'intelligenza artificiale e la sicurezza nazionale

Articolo Successivo

La Lista Definitiva Basata sui Dati di 304+ Directory AI per Lanciare la Sua App

Unisciti a oltre 200 aziende che automatizzano con PUNKU.AI

Basta con le attività ripetitive. Lascia che l'AI gestisca il lavoro noioso mentre ti concentri su ciò che conta.

Inizia ora

Inizia subito • Configurazione in pochi minuti • Cancella quando vuoi

Domande frequenti

Gli strumenti Deep Research dei principali laboratori di AI mostrano approcci tecnici distinti.

OpenAI vs Perplexity vs Google Deep Research: Confronto Benchmark Completo [2025]