Metodología

Una síntesis transparente de seis rankings publicados — qué medimos, qué no, y cómo leer nuestros números.

Qué estima FWUR (y qué no)

FWUR Rank es una síntesis transparente de seis rankings universitarios publicados. Medimos (1) dónde estos rankings discrepan, (2) dónde convergen, y (3) cuán sensible es el consenso a qué rankings incluimos. No medimos directamente la calidad educativa o investigadora.

Las tres cosas que medimos

  1. Primario — Discrepancia

    Cuán distintamente las seis agencias clasifican una institución dada. Para esto existe FWUR; el número de consenso es el gancho, la señal de discrepancia es la sustancia.

  2. Secundario — Consenso

    Un resumen robusto por media truncada de dónde convergen las agencias. Se publica como cifra principal, pero visualmente no mayor que la visualización de discrepancia.

  3. Terciario — Sensibilidad al método

    Cuánto depende la respuesta de qué agencias incluimos — expuesto vía la vista de subconjunto personalizado (Modo C) y bandas de sensibilidad al método.

Limitaciones honestas

El algoritmo v0.1 de FWUR y la culminación de producto v1.0 se fijaron el 2026-05-08 únicamente por autoridad del líder de proyecto, sin la firma de un consultor estadístico externo ni de un revisor experto en el dominio. La decisión se basó en siete años de pensamiento acumulado del líder de proyecto sobre agregación multi-agencia, quince revisiones por pares de LLM en tres rondas, y la línea base determinista v0.1 (62 pruebas unitarias con demostraciones teoremáticas).

La validación se realiza mediante análisis interno de sensibilidad al método Saltelli–Sobol (Track C). Las vías de validación externa (estudio A/B con usuarios; panel de comparación pareada de expertos con Bradley–Terry) están documentadas como aspiracionales pendientes de presupuesto futuro. La rama de I+D de modelos bayesianos está indefinidamente pospuesta por el mismo motivo.

Esta es la restricción honesta. No reclamamos una validación académica externa que no tenemos.

Methodological honesty — what we deliberately do not do

Why we avoid frequentist uncertainty intervals

The six rankings are not a random sample drawn from a population — they are the population of major published university rankings. Standard frequentist uncertainty quantification (the kind that produces an interval with a coverage guarantee) requires a sampling model that does not exist here, so quoting one would be mathematically misleading. Instead we surface a qualitative disagreement bucket (high agreement / mixed signal / divergent signal) and a method-sensitivity band (planned for v0.2 once the Saltelli–Sobol pipeline runs over the 41 size-≥3 agency subsets). Our naming-discipline lint actively blocks the corresponding language in user-facing copy.

Why our trajectory chart is overlay, not small multiples

Edward Tufte's rule for time series with more than three lines is small multiples — one mini-chart per agency, faceted side by side. We use overlay (six lines on one chart) because the user task is direct comparison: did agency X agree with agency Y this year? Faceted small multiples answer that less directly than co-located lines. We acknowledge the trade-off: with six overlapping series the chart can look crowded, especially in the middle of the rank range. A small-multiples view is on the v0.2-x backlog as an option toggle, not a default.

Both limits have explicit reactivation triggers in CONSTRAINTS.md §5: when external statistical consultation becomes accessible, or when the Saltelli–Sobol pipeline yields a defensible empirical band, the corresponding methodology section will be amended via a new ADR.

Estándares que seguimos

Manifiesto de Leiden (Hicks et al. 2015) · Principios de Berlín (observatorio IREG) · Manual OECD/JRC de Indicadores Compuestos (Saisana 2008/2011) · DORA · AAPOR

Para detalle completo

Estos documentos son parte del repositorio del proyecto; la metodología evoluciona mediante enmiendas ADR versionadas, no cambios silenciosos.