Metodologi

Sintesis transparan dari enam pemeringkatan terbit — apa yang kami ukur, apa yang tidak, dan cara membaca angka kami.

Apa yang FWUR perkirakan (dan apa yang tidak)

FWUR Rank adalah sintesis transparan dari enam pemeringkatan universitas terbit. Kami mengukur (1) di mana pemeringkatan ini tidak setuju, (2) di mana mereka konvergen, dan (3) seberapa sensitif konsensus terhadap pilihan pemeringkatan yang kami sertakan. Kami tidak mengukur kualitas pendidikan atau penelitian secara langsung.

Tiga hal yang kami ukur

  1. Primer — Ketidaksepakatan

    Seberapa berbeda enam lembaga memeringkatkan suatu institusi. Inilah alasan FWUR ada; angka konsensus adalah pengait, sinyal ketidaksepakatan adalah substansinya.

  2. Sekunder — Konsensus

    Ringkasan trimmed-mean robust dari titik konvergensi lembaga. Diterbitkan sebagai angka utama, namun secara visual tidak lebih besar dari tampilan ketidaksepakatan.

  3. Tersier — Sensitivitas metode

    Seberapa besar jawaban bergantung pada lembaga yang kami sertakan — disajikan melalui tampilan subset kustom (Mode C) dan pita sensitivitas metode.

Batasan jujur

Algoritma v0.1 FWUR dan penyelesaian produk v1.0 dikunci pada 2026-05-08 hanya dengan otoritas pemimpin proyek, tanpa tanda tangan konsultan statistik eksternal atau peninjau pakar domain. Keputusan didasarkan pada tujuh tahun pemikiran terakumulasi pemimpin proyek tentang agregasi multi-lembaga, lima belas tinjauan sejawat LLM lintas tiga putaran, dan dasar v0.1 deterministik (62 uji unit dengan pembuktian teorema).

Validasi dilakukan melalui analisis sensitivitas metode Saltelli–Sobol internal (Track C). Jalur validasi eksternal (studi A/B pengguna; panel perbandingan berpasangan pakar dengan Bradley–Terry) tercatat sebagai aspirasi yang menunggu anggaran masa depan. Cabang R&D model Bayesian ditangguhkan tanpa batas waktu karena alasan yang sama.

Inilah batasan jujur. Kami tidak mengklaim validasi akademis eksternal yang tidak kami miliki.

Methodological honesty — what we deliberately do not do

Why we avoid frequentist uncertainty intervals

The six rankings are not a random sample drawn from a population — they are the population of major published university rankings. Standard frequentist uncertainty quantification (the kind that produces an interval with a coverage guarantee) requires a sampling model that does not exist here, so quoting one would be mathematically misleading. Instead we surface a qualitative disagreement bucket (high agreement / mixed signal / divergent signal) and a method-sensitivity band (planned for v0.2 once the Saltelli–Sobol pipeline runs over the 41 size-≥3 agency subsets). Our naming-discipline lint actively blocks the corresponding language in user-facing copy.

Why our trajectory chart is overlay, not small multiples

Edward Tufte's rule for time series with more than three lines is small multiples — one mini-chart per agency, faceted side by side. We use overlay (six lines on one chart) because the user task is direct comparison: did agency X agree with agency Y this year? Faceted small multiples answer that less directly than co-located lines. We acknowledge the trade-off: with six overlapping series the chart can look crowded, especially in the middle of the rank range. A small-multiples view is on the v0.2-x backlog as an option toggle, not a default.

Both limits have explicit reactivation triggers in CONSTRAINTS.md §5: when external statistical consultation becomes accessible, or when the Saltelli–Sobol pipeline yields a defensible empirical band, the corresponding methodology section will be amended via a new ADR.

Standar yang kami ikuti

Manifesto Leiden (Hicks et al. 2015) · Prinsip Berlin (observatorium IREG) · Buku Pegangan Indikator Komposit OECD/JRC (Saisana 2008/2011) · DORA · AAPOR

Untuk detail lengkap

Dokumen-dokumen ini adalah bagian dari repositori proyek; metodologi berkembang melalui amendemen ADR berversi, bukan perubahan diam-diam.