← Eksperiment

P1_RC_GGL: En stringent lukningstest af galaksedynamik og svag gravitationslinseeffekt (rotationskurver + GGL)

EFT's middelgravitationsramme kontra den minimale NFW-baseline for koldt mørkt stof (DM)

Forfatter: Guanglin Tu
E-mail: riniky@energyfilament.org | ORCID: 0009-0003-7659-6138
Tilknytning: EFT Working Group, Shenzhen Energy Filament Science Research Co., Ltd. (Kina)
Version: v1.1 | Dato: 2026-02-14

Preprint (ikke fagfællebedømt) | Denne version er beregnet til offentlig formidling og reproducerbarhed og repræsenterer ikke den endelige tidsskriftpublicerede version.

Licens: Rapport (CC BY-NC-ND 4.0); fuld reproduktionspakke (CC BY 4.0).

Publikationsklar rapport (Concept DOI): https://doi.org/10.5281/zenodo.18526334 Fuld reproduktionspakke (Concept DOI): https://doi.org/10.5281/zenodo.18526286

0 Resumé

Denne rapport er en publikationsklar arkivudgave deponeret på Zenodo. Den giver en integreret, auditérbar kæde, der dækker data, modelregnskab, fair sammenligning, lukningstest og reproducerbarhedsmaterialer. Appendiks B (P1A) fungerer som et robusthedstillæg. Det fokuserer på stresstest med en “mere standardiseret DM-baseline + én central linseeffekt-systematik”, der bruges til at vurdere, hvor følsomme hovedkonklusionerne er over for mere realistisk DM-modellering og behandling af linseeffekt-systematik.

Kernekonklusioner (fire udsagn, der kan citeres direkte; se afsnit 2.4):

(1) Ved tilpasning af rotationskurver (RC) klarer EFT-familien sig markant bedre end DM_RAZOR under alle kombinationer af kerne/prior; en typisk forbedring er Δlog𝓛_RC ≈ 10^3 (se tabel S1a).
(2) I RC→GGL-lukningstesten viser EFT stærkere overførbarhed på tværs af sonder: lukningsstyrken Δlog𝓛_closure (True−Perm) er signifikant højere end for DM_RAZOR, og forskellen er robust under kovarians-shrinkage samt R_min- og σ_int-scanninger (se fig. S3 og tabel S1b).
(3) I den fælles tilpasning (RC+GGL) bevarer EFT en stabil fordel; under den negative kontrol, der bryder den fælles mapping, kollapser denne fordel, hvilket støtter fortolkningen af, at “middelgravitationseffekten” kommer fra den fælles mapping og ikke fra en tilfældig tilpasning (se fig. S4).
(4) Uden væsentligt at øge dimensionaliteten stresstester appendiks B (P1A) DM-siden med mere standardiserede DM-baslinemoduler og én central nuisance-parameter for linseeffekt-systematik. Disse udvidelser fjerner ikke EFT's lukningsfordel (se tabel B1 og fig. B1).

Tilgængelighed af data og kode: rapportens Concept DOI er 10.5281/zenodo.18526334; den fulde reproduktionspakke har Concept DOI 10.5281/zenodo.18526286. De tags, der svarer til appendiks B (P1A), er run_tag=20260213_151233, closure_tag=20260213_161731 og joint_tag=20260213_195428.

1 Abstract

Vi gennemfører en reproducerbar kvantitativ sammenligning af to teoretiske rammer under de samme data og den samme statistiske protokol: modellen for “middelgravitationskorrektion” foreslået af Energi-tråd-teori (Energy Filament Theory, EFT; adskilt fra den almindelige forkortelse for effective field theory), og en baseline-model med NFW-halo for koldt mørkt stof (DM_RAZOR). DM_RAZOR er bevidst valgt som en “minimal DM-baseline”: en NFW-halo med fast c–M-relation (uden halo-til-halo-spredning), som fungerer som en auditérbar og reproducerbar kontrol. Det bør også understreges, at denne artikel behandler EFT som en fænomenologisk, MOND-lignende effektivfelt-/effektivrespons-parameterisering til test under en samlet statistisk protokol, snarere end at udlede dens mikroskopiske førsteprincipper i dette arbejde.

Data består af 2.295 hastighedsdatapunkter fra SPARC-rotationskurver (RC), ensartet forbehandlet og inddelt i bins (104 galakser, 20 RC-bins), sammen med KiDS-1000-data for svag galakse–galakse-linseeffekt (GGL) målt som overskydende overflademassetæthed ΔΣ(R) (4 stjernemasse-bins × 15 R-punkter pr. bin, i alt 60 punkter, med fuld kovarians).

Vi udfører sekventielt RC-only-inferens, en RC→GGL-lukningstest, GGL-only-inferens og fælles RC+GGL-inferens, og bruger konsistensaudits til at sikre, at hver citeret numerisk værdi er sporbar. Under et strengt parameterregnskab og fælles mapping-begrænsninger (DM: 20 log M200_bin-parametre; EFT: 20 log V0_bin-parametre + 1 global log ℓ) klarer EFT-familien sig markant bedre end DM_RAZOR i den fælles tilpasning: ΔlogL_total = 1155–1337 relativt til DM_RAZOR. Endnu vigtigere viser lukningstesten, at RC-posterioren har ikke-triviel prædiktiv kraft for GGL: EFT's lukningsstyrke er ΔlogL_closure = 172–281, højere end DM_RAZOR's 127. Når grupperingen RC-bin→GGL-bin blandes tilfældigt, kollapser lukningssignalet til 6–23, hvilket bekræfter, at signalet ikke er et statistisk tilfælde eller en implementeringsartefakt. På tværs af systematiske scanninger af σ_int, R_min og kovarians-shrinkage forbliver EFT's relative fordel positiv og stabil i størrelsesorden. For at imødegå almindelige bekymringer om, at “DM-baselinen er for svag”, eller at “systematik forveksles med fysik”, giver appendiks B (P1A) en mere standardiseret, men stadig lavdimensionel og auditérbar stresstest af DM-baselinen, inklusive hierarkisk c–M-spredning + prior, en én-parameter core-proxy, linseeffekt-m og den kombinerede DM_STD-model. Under den samme lukningsprotokol fjerner disse udvidelser ikke EFT's lukningsfordel (se tabel B1/fig. B1).

Nøgleord: rotationskurver; svag galakse–galakse-linseeffekt; lukningstest; EFT; koldt mørkt stof; Bayesiansk inferens

2 Introduktion og oversigt over resultater

Rotationskurver (RC) og svag galakse–galakse-linseeffekt (GGL) er to komplementære gravitationssonder: RC begrænser det dynamiske potentiale og den radiale accelerationsrelation (RAR) i skiveplanet, mens GGL måler den projicerede massefordeling og halo-skalaens gravitationsrespons. For enhver kandidatteori er nøglespørgsmålet ikke, om den kan tilpasse de to datasæt hver for sig, men om den kan forklare dem konsistent under den samme mapping på tværs af data og de samme fælles begrænsninger.

Derfor bruger denne artikel “lukningstesten” som sin centrale statistiske protokol: først bruges RC-only-posterioren til at forudsige GGL fremadrettet, og derefter sammenlignes den med en negativ kontrol, hvor mappingen RC-bin→GGL-bin permuteres/blandes. Dette vurderer prædiktiv overførbarhed på tværs af data og udelukker falske signaler forårsaget af implementeringsbias eller tilfældig tilpasning.

Teoretisk positionering og omfang: denne artikel forsøger ikke at præsentere en mikroskopisk førsteprincip-udledning af EFT (Energy Filament Theory) eller en relativistisk fuldstændig formulering. I stedet behandler vi EFT som en lavdimensionel, MOND-lignende effektivfelt-/effektivrespons-parameterisering (beskrevet af en kerne f(x) og en global skala ℓ) og tester dens konsistens på tværs af data samt dens overførbare prædiktive kraft gennem RC→GGL-lukningstesten under et strengt parameterregnskab.

Forskningsprogram og afgrænsning: denne artikel er en del af et igangværende observationsbaseret retrieval-program i P-serien. I eksisterende data på galakseskala søger vi efter to mulige effektive baggrundsbidrag: (i) et “middelgravitationsgulv”, der kan beskrives ved en grovkornet middelgravitationsrespons, og (ii) et “stokastisk/støjgulv” forbundet med fluktuationer i mikroskopiske processer. I denne artikel (P1) fokuserer vi kun på det første: uden at introducere nogen hypotese om mikroskopiske produktionsmekanismer bruger vi RC→GGL-lukningstesten til at hente observationelle indikationer på et middelgravitationsgulv og sammenligne det med en auditérbar DM-baseline under en samlet kontrolprotokol. Som et heuristisk fysisk billede kan kortlivede frihedsgrader, hvis de findes, gennem henfald/annihilation omdanne hvilemasse til energi-impuls båret af andre frihedsgrader, hvilket på effektivt niveau naturligt svarer til en opdeling i “middelbidrag + fluktuationsbidrag”; denne artikel modellerer dog ikke dette mikroskopiske billede kvantitativt.

For at undgå overfortolkning er denne artikels omfangsgrænser følgende:
• Hvad denne artikel gør: under et strengt parameterregnskab og fælles mapping-begrænsninger bruger den lukningstest til at måle prædiktiv overførbarhed på tværs af data og udfører en reproducerbar sammenligning mellem EFT's middelgravitationsrespons og en DM-baseline.
• Hvad denne artikel ikke gør: den diskuterer ikke mikroskopiske produktionsmekanismer, abundanser/levetider eller kosmologiske begrænsninger; den modellerer ikke den stokastiske term, der svarer til “støjgulvet”.
• Hvad denne artikel ikke hævder: den sigter ikke mod at omstyrte mørkt stof; P1 giver ikke en endelig dom over, om et “gulv” findes, men rapporterer evidens på etappniveau — at inden for det robuste måledomæne, der er valgt her, favoriserer data modeller, som inkluderer en middelgravitationsrespons.

Samtidig gør vi klart, at DM_RAZOR kun repræsenterer en minimal og auditérbar NFW-baseline (fast c–M og ingen spredning; ingen adiabatisk kontraktion, feedback-core, ikke-sfæricitet eller miljøtermer). Derfor er hovedkonklusionen i brødteksten strengt begrænset til dette udsagn: under den minimale baseline og strenge parameterregnskabs-/mapping-begrænsninger viser EFT stærkere konsistens på tværs af data. For at besvare det almindelige spørgsmål om, hvorvidt en mere standardiseret ΛCDM-baseline og modellering af centrale linseeffekt-systematikker væsentligt ville ændre konklusionen, samler vi mere standardiserede, men stadig lavdimensionelle og auditérbare DM-udvidelser samt en nuisance-parameter på linseeffekt-siden i appendiks B (P1A: stresstest af DM-baseline-standardisering), samtidig med at præcis den samme fælles mapping og lukningstestprotokol som i hovedteksten bevares (se tabel B1/fig. B1).

2.1 Tab S1a–S1b: Resumé af nøglemetrikker (strengt)

Tabel S1a rapporterer de vigtigste sammenligningsmetrikker for den fælles tilpasning (RC+GGL): logL, ΔlogL, AICc og BIC. Tabel S1b rapporterer metrikker for lukningstest og robusthedsscanninger: lukning, shuffle-negativ kontrol og intervallerne for σ_int / R_min / cov-shrink-scanningerne. Alle værdier kommer fra den strenge master-resumétabel Tab_Z1_master_summary og kan spores post for post i release-arkivpakken.

Tabel S1a | Vigtigste metrikker for fælles tilpasningssammenligning (RC+GGL, strengt).

Model (workspace)

W-kerne

k

Fælles logL_total (bedst)

ΔlogL_total vs DM

AICc

BIC

DM_RAZOR

none

20

-16927.763

0.0

33895.885

34010.811

EFT_BIN

none

21

-15590.552

1337.21

31223.501

31344.155

EFT_WEXP

exponential

21

-15668.83

1258.932

31380.057

31500.711

EFT_WYUK

yukawa

21

-15772.936

1154.827

31588.268

31708.922

EFT_WPOW

powerlaw_tail

21

-15633.321

1294.442

31309.038

31429.692

Tabel S1b | Metrikker for lukning og robusthed (strengt).

Model (workspace)

Lukning ΔlogL (true-perm)

Negativ-kontrol ΔlogL efter shuffle

σ_int-scanning ΔlogL-interval

R_min-scanning ΔlogL-interval

cov-shrink-scanning ΔlogL-interval

DM_RAZOR

126.678

22.725

EFT_BIN

231.611

14.984

459–1548

1243–1289

1337–1351

EFT_WEXP

171.977

6.04

408–1471

1169–1207

1259–1277

EFT_WYUK

179.808

14.688

380–1341

1065–1099

1155–1166

EFT_WPOW

280.513

6.672

457–1500

1203–1247

1294–1308


2.2 Fig. S3: Lukningsstyrke (RC-only → forudsagt GGL)

Lukningsstyrke defineres som ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩: på RC-only-posteriorprøver forudsiges GGL fremadrettet og sammenlignes med en negativ kontrol, hvor mappingen RC-bin→GGL-bin permuteres.

Fig. S3 | Lukningsstyrke (højere er bedre): gennemsnitlig log-likelihood-fordel for RC-only → GGL-forudsigelse.


2.3 Fig. S4: Hovedsammenligning af fælles tilpasning (RC+GGL)

Fordelen i fælles tilpasning defineres som ΔlogL_total ≡ logL_total(model) − logL_total(DM_RAZOR). Under de samme data, den samme mapping og næsten samme parameterskala opnår EFT-familien en signifikant højere fælles log-likelihood.

Fig. S4 | Fordel i fælles tilpasning (højere er bedre): bedste logL_total for RC+GGL relativt til DM_RAZOR.


2.4 Fire konklusioner (kan citeres direkte)

(1) I en samlet fælles analyse af SPARC-rotationskurver og KiDS-1000 svag linseeffekt klarer EFT's middelgravitationsrammemodel sig systematisk bedre end DM_RAZOR under en streng kontrolprotokol: ΔlogL_total = 1155–1337 relativt til DM_RAZOR.

(2) RC→GGL-lukningstesten viser stærkere prædiktiv konsistens for EFT: ΔlogL_closure = 172–281, sammenlignet med 127 for DM_RAZOR. Når grupperingen RC-bin→GGL-bin blandes tilfældigt, kollapser lukningssignalet til 6–23, hvilket viser, at signalet afhænger af den korrekte mapping på tværs af data snarere end af tilfældig tilpasning.

(3) Systematiske scanninger af σ_int, R_min og kovarians-shrinkage ændrer ikke fortegnet eller størrelsesordenen af “EFT klarer sig bedre end DM_RAZOR”, hvilket indikerer, at konklusionen er robust over for almindelige systematiske perturbationer.

(4) Under den samme lukningsprotokol styrker appendiks B (P1A) DM-baselinen på en “standardiseret og auditérbar” måde: det bevarer tre én-parameter-udvidelser (SCAT/AC/FB) og tilføjer hierarkisk c–M-spredning + prior, en én-parameter core-proxy og en shear-kalibreringsparameter m på linseeffekt-siden (samt deres kombinerede DM_STD-model). Resultaterne viser, at kun feedback/core-grenen giver en lille nettoforbedring i lukningsstyrke (122.21→129.45, ΔΔlogL_closure≈+7.25); de øvrige udvidelser bidrager ubetydeligt eller negativt til lukningsstyrken. Hovedkonklusionen afhænger derfor ikke af, at DM_RAZOR er en alt for svag baseline.

3 Data og forbehandling

Denne undersøgelse bruger to offentlige datasæt. I den tekniske arbejdsgang gennemføres download, checksum-verifikation (sha256) og forbehandling med sporbare scripts. For at sikre fair sammenligning på tværs af modeller deler alle workspaces (EFT_BIN / EFT_WEXP / EFT_WYUK / EFT_WPOW / DM_RAZOR) præcis de samme dataprodukter og bin-mappinger.


3.1 Rotationskurver (RC, SPARC)

RC-dataene kommer fra SPARC-databasens Rotmod_LTG-filer (175 rotmod-filer). Efter forbehandling omfatter modelleringsprøven 104 galakser og 2.295 (r, V_obs)-datapunkter, opdelt i 20 RC-bins efter stjernemasse og beslægtede kriterier. Hvert datapunkt indeholder radius r (kpc), observeret hastighed V_obs (km/s), observationsfejl σ_obs samt komponenthastighederne for gas/skive/bulge (V_gas, V_disk, V_bul).


3.2 Svag linseeffekt (GGL, KiDS-1000 / Brouwer+2021)

GGL-dataene bruger den overskydende overflademassetæthed ΔΣ(R) fra fig. 3 i Brouwer et al. (2021) baseret på KiDS-1000 (4 stjernemasse-bins, 15 R-punkter pr. bin), sammen med den leverede fulde kovarians. I den tekniske arbejdsgang rekonstrueres den oprindelige kovarians i langt format til en 15×15-matrix for hver bin, og Stage-B-audits verificerer dimensional og numerisk rimelighed.


3.3 RC-bin → GGL-bin-mapping og samlet prøvestørrelse

De 4 GGL-massebins og 20 RC-bins forbindes gennem en fast mapping: hver GGL-bin svarer til 5 RC-bins, og bidragene fra RC-bins vægtes efter antallet af galakser. Denne mapping holdes fast på tværs af alle modeller og er den centrale begrænsning for fair sammenligning i lukningstest og fælles tilpasning. Det endelige fælles datasæt indeholder n_total = 2355 punkter (RC=2295, GGL=60).

4 Modeller og statistiske metoder


4.1 Minimal matematisk specifikation for EFT og DM (auditérbar/testbar)

Dette afsnit giver den minimale matematiske specifikation, der mapper direkte til implementeringen.

(a) Rotationskurve-model (RC)

For hvert RC-datapunkt (r, V_obs, σ_obs) bruger vi komponentsuperposition: V_mod²(r) = V_bar²(r) + V_extra²(r). Her er V_bar²(r) = V_gas²(r) + Υ_d·V_disk²(r) + Υ_b·V_bul²(r). Hovedresultaterne i denne artikel bruger Υ_d = Υ_b = 0.5, i overensstemmelse med SPARC's empiriske anbefalinger og nyttigt til at reducere unødvendige frihedsgrader.

(b) EFT-middelgravitationskorrektion (EFT)

EFT's ekstraled parameteriseres i form af “middel-hastighed i anden”: V_extra²(r) = V0_bin² · f(r/ℓ). Her er V0_bin amplitudepunktet for hver RC-bin (20 parametre), ℓ er en global skala (1 parameter), og f(x) er en dimensionsløs kerneformfunktion. De kerneformer, der sammenlignes i denne artikel (ingen af dem indfører yderligere kontinuerte frihedsgrader), er:

Fysisk motivation (udvidet): EFT fortolker den ekstra gravitationsrespons på galakseskala som en effektiv respons opnået ved grovkornet/skala-gennemsnitlig behandling af mere mikroskopiske handlinger over endelige skalaer. I denne artikel antager vi ikke nogen specifik mikroskopisk mekanisme; i stedet bruger vi en minimal og auditérbar parameterisering til kontrolleret sammenligning og test under en samlet statistisk protokol.

Intuitivt kan ekstraledet skrives i accelerationsform: a_extra(r)=V_extra²(r)/r=(V0_bin²/r)·f(r/ℓ). Når r≫ℓ, gælder f→1 og V_extra→V0_bin, hvilket giver et omtrent fladt ekstra hastighedsbidrag i yderområderne. Når r≪ℓ og f(x)≈x, kan en karakteristisk accelerationsskala a0,bin≈V0_bin²/ℓ indføres (op til en O(1)-faktor fra kernefunktionen), hvilket giver en MOND-lignende intuition for overgangsskalaen fra indre til ydre region.

Den diskrete kernefamilie, der bruges her (none/exponential/yukawa/powerlaw_tail), kan ses som lavdimensionelle proxyer for forskellige “begyndelseshældninger / overgangshastigheder / langtrækkende haler” (for eksempel Yukawa-lignende screening kontra en respons med længere hale). De bruges til robustheds-stresstest snarere end til at udtømme modelrummet. I komponenten for svag linseeffekt konstruerer vi en effektiv omslagningsmasse og -tæthed fra V_avg(r), hvorefter de projiceres for at opnå ΔΣ(R). Denne effektive tæthed bør forstås som en effektiv beskrivelse af linseeffekt-potentialet under antagelserne om sfærisk symmetri og svagfeltsmapping (alle detaljer er flyttet til appendiks A).

Alle ovenstående kerneformer opfylder f(x)→1 når x→∞ (dvs. mætning V_extra²→V0²), mens de giver lineær eller sublineær vækst for x≪1: for eksempel exponential: f≈x; yukawa: f≈0.5x; powerlaw_tail: f≈0.5x. Derfor har forskellige kerneformer observerbare forskelle i lille-radius “begyndelseshældning”, overgangshastighed og ydre hale, og de kan skelnes gennem de fælles RC+GGL- og lukningstests.

EFT-forudsigelsen for svag-linseeffekt ΔΣ(R) opnås ved at udlede omslagningsmasse og -tæthed fra V_avg(r), efterfulgt af projektionsintegraler: M_enc(r)=r·V_avg²(r)/G, ρ(r)=(1/4πr²)·dM_enc/dr, Σ(R)=2∫_R^∞ ρ(r)·r/√(r²−R²) dr, og ΔΣ(R)=Σ̄(<R)−Σ(R). Den numeriske implementering bruger et logaritmisk gitter og forfiner det adaptivt i undtagelsestilfælde for at sikre stabilitet og reproducerbarhed.

(c) DM_RAZOR: NFW-baseline for haloer af koldt mørkt stof

Samtidig gør vi klart, at DM_RAZOR kun repræsenterer en minimal, auditérbar NFW-baseline (fast c–M og ingen spredning; ingen adiabatisk kontraktion, feedback-core, ikke-sfæricitet eller miljøtermer). For at reducere risikoen for en “stråmandsbaseline” hævder denne artikel ikke, at sådanne effekter ikke findes. I stedet indarbejdes de i appendiks B (P1A) som lavdimensionelle og auditérbare stresstest, inklusive hierarkisk behandling af c–M-spredning, en core-proxy og en nuisance-parameter for shear-kalibrering på linseeffekt-siden.


4.2 Modelregnskab og fair sammenligning (fælles parametre = definition af lukning)

Antallet af parametre i hovedsammenligningssættet er: DM_RAZOR k=20; EFT-familien k=21 (den ekstra parameter er den globale log ℓ). Alle modeller deler de samme RC-data, de samme GGL-data og kovarians, den samme mapping RC-bin→GGL-bin, de samme baryoniske led og de samme enhedskonverteringer. Desuden er kerneformen (none / exponential / yukawa / powerlaw_tail) et diskret valg og indfører ingen yderligere kontinuert parameter, hvilket forhindrer, at der opnås en fordel gennem “én ekstra frihedsgrad”.


4.3 Likelihood, priorer og sampler

RC-likelihooden er diagonal Gaussisk: σ_eff² = σ_obs² + σ_int². Hovedresultaterne fastholder σ_int=5 km/s, og Run-5 scanner σ_int. GGL-likelihooden bruger en fuld-kovarians Gaussisk likelihood for hver bin: logL_GGL = Σ_b log 𝒩(ΔΣ_obs^b | ΔΣ_mod^b, C_b). Det fælles mål er logpost(θ)=logprior(θ)+logL_RC(θ)+logL_GGL(θ). Priorerne indkoder primært fysisk mulige grænser (intervalbegrænsninger på log ℓ, log V0 og log M200); når fri Υ og σ_int aktiveres, bruges svagt informative priorer (se implementeringen og releasepakkens konfiguration for detaljer).

Sampleren bruger en adaptiv blok-Metropolis-random walk: hvert trin opdaterer kun en tilfældig delblok af parameterrummet for at forbedre acceptgraden i høje dimensioner, og trinstørrelsen tilpasses let via vinduesbaseret acceptgrad (målacceptgrad omkring 0.25). Hovedresultaterne bruger quick mode (indstillinger såsom n_steps=800), og hvert workspace udsender traces, residualer og PPC-plots til manuelle og scriptede audits.


4.4 Lukningstest og negativ kontrol (definition)

Lukningstesten (Run-2) tester, om RC-only-posterioren kan forudsige GGL uden at gen-tilpasse GGL. Konkret fremadgenererer den ΔΣ(R) for 4 GGL-bins fra RC-only-posteriorprøver og beregner logL_true med den fulde kovarians; derefter permuteres gruppemappingen RC-bin→GGL-bin tilfældigt for at opnå logL_perm. Lukningsstyrke defineres som ΔlogL_closure≡⟨logL_true⟩−⟨logL_perm⟩. Derudover grupperer Run-10 tilfældigt de 20 RC-bins i 4×5 (shuffle) og beregner lukning igen for at teste, hvor stærkt lukningssignalet afhænger af den korrekte mapping.

5 Hovedresultater og fortolkning


5.1 Hovedresultater for fælles tilpasning (RC+GGL)

Den bedste logL_total fra den fælles tilpasning og den relative fordel ΔlogL_total (relativt til DM_RAZOR) vises i tabel S1a og fig. S4. I hovedsammenligningssættet har EFT_BIN den største fælles fordel (ΔlogL_total=1337.210), mens de øvrige EFT-kerneformer også bevarer betydelige fordele (1154.827–1294.442). Under informationskriterierne (AICc/BIC) klarer EFT-familien sig også markant bedre end DM_RAZOR, hvilket indikerer, at fordelen ikke skyldes bias fra antallet af parametre.

Bemærk: hovedbidraget til ΔlogL_total≈1337 kommer fra RC-ledet (ΔlogL_RC≈1065 i den fælles dekomposition, omkring 80 %). Dette kan forstås som en moderat forbedring på ca. Δχ²≈0.90 pr. punkt på tværs af N=2295 RC-datapunkter, som naturligt akkumulerer til en fordel af størrelsesorden 10^3 under en diagonal Gaussisk likelihood. Samtidig giver GGL og lukningstesten uafhængige begrænsninger på tværs af datasæt, og rangordningen forbliver stabil under σ_int-, R_min- og cov-shrink-stresstest (se afsnit 6 og tabel S1b).


5.2 Resultater fra lukningstesten (RC-only → GGL)

Den centrale lukningsteststørrelse ΔlogL_closure rapporteres i tabel S1b og fig. S3. EFT-familien har lukningsstyrker på 171.977–280.513, højere end DM_RAZOR's 126.678. Det betyder, at uden tilladelse til yderligere frihedsgrader på tværs af data har de posteriorprøver, som EFT opnår fra RC-dataene, stærkere overførbar prædiktiv kraft for GGL-dataene.

Den negative kontrol understøtter yderligere lukningssignalets fysiske relevans: når grupperingen RC-bin→GGL-bin blandes tilfældigt, falder EFT's lukningsstyrke til 6–15 (med små forskelle mellem kernerne), mens baseline-lukningsstyrken er så høj som 172–281. Dette “signalkollaps” udelukker falske fordele forårsaget af numerisk implementering, enhedsfejl eller forkert kovarianshåndtering.

Fig. R1 | Negativ kontrol: efter shuffle-gruppering falder lukningssignalet markant (plottet fra Tab_Z1-metrikker).


5.3 Resultaternes betydning og grænser

Konklusionen i denne undersøgelse er, at “under dette datasæt og denne protokol klarer EFT's middelgravitationskorrektion sig bedre end den testede DM_RAZOR-baseline.” Det skal understreges, at DM-siden kun bruger en minimal NFW-baseline med en fast c(M)-relation, uden core-dannelse, ikke-sfæricitet, miljøtermer eller mere komplekse galakse–halo-forbindelsesmodeller. Derfor hævder dette manuskript ikke at udelukke alle DM-modelfamilier. I stedet leverer det en reproducerbar, lukningstest-centreret kontrolbaseline til at vurdere, om RC og GGL kan forklares konsistent med de samme parametre og den samme mapping på tværs af data.

For at imødegå denne almindelige bekymring gennemførte vi et uafhængigt udvidelsesprojekt, P1A (se appendiks B). Uden at ændre den fælles mapping RC-bin→GGL-bin eller auditrammen styrker det DM-baselinen på en “standardiseret og auditérbar” måde: ud over tre én-parameter-udvidelser (SCAT/AC/FB) tilføjer det (i) hierarkisk c–M-spredning + masse–koncentrationsprior (DM_HIER_CMSCAT), (ii) en én-parameter baryonisk feedback-core-proxy (DM_CORE1P) og (iii) en nuisance-parameter m for shear-kalibrering på svag-linseeffekt-siden (DM_RAZOR_M), og det rapporterer en kombineret model DM_STD; EFT_BIN bevares som kontrolreference.

• DM_RAZOR_SCAT (c–M-spredning) — introducerer halo-til-halo-koncentrationsspredningsparameteren σ_logc for at teste, om en fast c(M) systematisk undervurderer DM's forklaringskraft;
• DM_RAZOR_AC (adiabatisk kontraktion) — bruger en enkelt parameter α_AC til kontinuerligt at interpolere mellem “ingen kontraktion” og “standardkontraktion” og indfanger baryoners tendens til at kontrahere den indre halo med minimal omkostning;
• DM_RAZOR_FB (feedback/core) — bruger en core-skala (f.eks. log r_core) til at beskrive, hvordan dannelse af en indre core undertrykker rotationskurver, samtidig med at NFW-approksimationen bevares på svag-linseeffekt-skalaer.

Den kvantitative P1A-scoreboard findes i appendiks B, tabel B1 / fig. B1 (automatisk genereret fra Tab_S1_P1A_scoreboard). I lukningsmetrikken giver DM_RAZOR_FB en lille nettoforbedring (122.21→129.45, +7.25), mens de øvrige udvidelser bidrager ubetydeligt eller negativt til lukningsstyrken. På siden for fælles tilpasning kan tilføjelse af en hierarkisk c–M-spredningsprior (DM_HIER_CMSCAT) eller den kombinerede model (DM_STD) forbedre fælles logL væsentligt, men det forbedrer ikke lukningsstyrken, hvilket tyder på, at det primært tilføjer fleksibilitet i fælles tilpasning snarere end overførbarhed på tværs af sonder. Derfor bør hovedtekstens kernekonklusion læses således: under strenge fælles mapping- og lukningstestbegrænsninger opstår EFT's konsistensfordel på tværs af data ikke fra valget af en “alt for svag baseline” på DM-siden. P1A-releasepakken, der svarer til appendiks B (supplerende tabeller/figurer og full_fit_runpack), vil blive inkluderet som yderligere filer under samme Zenodo Concept DOI som full_fit_runpack for denne artikel: https://doi.org/10.5281/zenodo.18526286.

6 Robustheds- og kontroleksperimenter


6.1 σ_int-scanning (Run-5)

Vi scanner systematisk den intrinsiske RC-spredning σ_int og gentager fælles inferens ved hver σ_int, idet ΔlogL_total relativt til DM_RAZOR beregnes. Minimums-/maksimumsværdierne for ΔlogL_total for hver model over scanningsintervallet rapporteres i tabel S1b.

Fig. R2 | Interval for ΔlogL_total under σ_int-scanningen (højere er bedre).


6.2 R_min-scanning (Run-6)

For at teste effekten af systematik i data fra centrale regioner (såsom ikke-cirkulær bevægelse, opløsning og utilstrækkelig baryonisk modellering) anvender vi R_min-tærskelcuts på RC og gentager fælles inferens. EFT-familiens fordel forbliver positiv og stabil i skala under R_min-scanningen.

Fig. R3 | Interval for ΔlogL_total under R_min-scanningen (højere er bedre).


6.3 cov-shrink-scanning (Run-7)

For at teste usikkerhed i GGL-kovariansen anvender vi shrinkage på kovariansmatricen for hver massebin: C_α=(1−α)C+α·diag(C), og scanner α. Resultaterne viser, at EFT-familiens fordel er ufølsom over for denne behandling.

Fig. R4 | Interval for ΔlogL_total under cov-shrink-scanningen (højere er bedre).


6.4 Ablationsstige (Run-8)

Inden for EFT_BIN udfører vi indlejrede ablationer: fra en minimal model (uden frie parametre) til versioner, der kun bevarer et lille antal frihedsgrader, og til sidst til den komplette model med 20-bin-amplitude + global skala. AICc/BIC viser, at den komplette EFT_BIN-model er stærkt påkrævet af data.

Fig. R5 | EFT_BIN-ablationsstige (AICc; lavere er bedre).


6.5 Holdout-forudsigelse (Run-9)

Vi kører desuden en leave-one-bin-out-test (LOO): blandt de 4 GGL-massebins holdes én bin tilbage ad gangen; inferens gentages med de resterende bins (og alle RC), hvorefter test-log-likelihood evalueres på den tilbageholdte bin. Resumémålinger gives i den supplerende tabel Tab_R3_leave_one_bin_out (et Run-9-produkt; filstimønstre er anført i listen over nøgleprodukter i afsnit 8.2). EFT-familien forbliver klart bedre end DM_RAZOR selv i det dårligste tilbageholdte tilfælde.

Fig. R6 | LOO: log-likelihood-fordeling for den tilbageholdte bin (fra Run-9-produkter).


6.6 Negativ kontrol: RC-bin-shuffle (Run-10)

Run-10 grupperer tilfældigt de 20 RC-bins om i 4×5 og beregner lukning igen, mens RC-only-posterioren holdes uændret. Resultaterne viser, at shuffle sammenlignet med den oprindelige mapping sænker både det gennemsnitlige luknings-logL_true og ΔlogL_closure markant (se tabel S1b og fig. R1), hvilket yderligere understøtter lukningssignalets fortolkelighed.

Fig. R7 | Negativ kontrol: shuffle-mapping medfører et tydeligt fald i lukningens middel-logL_true (fra Run-10-produkter).

7 Sporbarhed og konsistensaudit (proveniens)

Alle numeriske værdier citeret i denne artikel kan spores post for post i de strenge resumétabeller og auditoptegnelser i release-arkivet. For at holde hovedteksten mere læsbar er den fulde provenienskæde (tagliste, audittabeller, checksum-liste og verifikationsmetode) flyttet til appendiks A.

8 Reproducerbarhed og Zenodo-arkiv

Erklæring om tilgængelighed af data og kode: SPARC-rotationskurvedataene og KiDS-1000-dataene for svag linseeffekt, der bruges i denne artikel, er offentlige datasæt. Den publikationsklare rapport er arkiveret på Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526334), og den fulde reproduktionspakke er arkiveret på Zenodo (Concept DOI: https://doi.org/10.5281/zenodo.18526286). Detaljerede eksekveringstrin, afhængighedsmiljø, arkivinventar og hash-verifikationsinformation findes i appendiks A; design, run-tags og output fra stresstesten af DM-baseline-standardisering (P1A) findes i appendiks B.

Under samme Concept DOI for den fulde reproduktionspakke (https://doi.org/10.5281/zenodo.18526286) tilbyder vi to reproducerbare indgange efter brugstilfælde: • P1 (hovedtekst) full_fit_runpack: reproducerer RC-only-/luknings-/fælles analyser og robusthedsscanninger for EFT vs DM_RAZOR og genererer hovedtekstens aktiver, inklusive tabeller S1a/S1b og figurer S3/S4; • P1A (appendiks B) full_fit_runpack: reproducerer stresstesten af DM-baseline-standardisering (SCAT/AC/FB + hierarkisk c–M-spredningsprior + core1p + linseeffekt-m + DM_STD, inklusive EFT_BIN-kontrollen) og genererer appendikstabel B1 og fig. B1. P1A's supplerende tabeller/figurer og full_fit_runpack vil blive inkluderet som yderligere filer under samme Concept DOI for at bevare én samlet arkivindgang.

9 Anerkendelser og erklæringer


9.1 Anerkendelser

Vi takker SPARC- og KiDS-1000-holdene for at stille offentlige data og dokumentation til rådighed samt deltagerne i dette projekts rekonstruktions- og auditworkflow.


9.2 Forfatterbidrag

Guanglin Tu var ansvarlig for det konceptuelle forslag, studiedesign, teknisk implementering, datakuratering, formel analyse, implementering og audit af reproducerbarhedsworkflowet samt manuskriptskrivning.


9.3 Finansiering

Selvfinansieret af forfatteren, Guanglin Tu (ingen ekstern finansiering / intet bevillingsnummer).


9.4 Interessekonflikter

Forfatteren, Guanglin Tu, er tilknyttet “EFT Working Group, Shenzhen Energy Filament Science Research Co., Ltd. (Kina)”; der erklæres ingen andre interessekonflikter.


9.5 AI-assistance

OpenAI GPT-5.2 Pro og Gemini 3 Pro blev brugt til sproglig polering, strukturel redigering og organisering af reproducerbarhedsworkflowet. De blev ikke brugt til at generere eller ændre data, resultater, figurer, tabeller eller kode og heller ikke til at generere citationer. Forfatteren bærer det fulde ansvar for indholdet og citationsnøjagtigheden i hele manuskriptet.

10 Referencer

Appendiks A: Detaljer om sporbarhed og reproducerbarhed

Dette appendiks opsummerer langsigtet arkivinformation for sporbarhed og reproducerbarhed, herunder run-tags, auditresultater, arkivinventarer og centrale verifikationspunkter, så læsere kan kontrollere og reproducere arbejdet efter behov.


A.1 Detaljer om sporbarhed og audit

For at sikre langsigtet sporbarhed bruger dette projekt tidsstemplede tags for hvert run og hvert output og bevarer historiske produkter uden at overskrive dem. Kerneværdierne citeret i dette manuskript kommer fra den strenge kompilering (compile_tag=20260205_035929) og har bestået følgende konsistensaudits:

• Alle tabeller på etappniveau bærer run_tag og etappetags; det strenge kompileringsscript vælger “komplette og konsistente” kanoniske tabelkilder fra report/tables.

• Værdier i Tab_Z1_master_summary og Tab_Z2_conclusion_highlights sammenlignes post for post med de valgte kanoniske tabeller.

• Under PDF-generering udføres en tag-audit af “refererede tabel-/figurtags” for at sikre, at forældede produkter ikke blandes ind.

Nøgletags (til lokalisering af alle mellemprodukter): run_tag=20260204_122515; closure_tag=20260204_124721; joint_tag=20260204_152714; sigma_sweep_tag=20260204_161852; rmin_sweep_tag=20260204_195247; covshrink_tag=20260204_203219; ablation_tag=20260204_214642; LOO_tag=20260204_224827; negctrl_tag=20260204_234528; strict_compile_tag=20260205_035929; release_tag=20260205_112442.

Konsistensauditresultat: Tab_AUDIT_checks_strict rapporterer pass=9, fail=0, skip=0 (se releasepakken for detaljer).


A.2 Eksekveringstrin for reproducerbarhed og arkivinventar

Denne undersøgelse bruger et reproducerbarhedssystem bestående af “publikationsklar rapport + tabel-/figurtillæg + fuldt genkørbar runpack”. Læsere kan konsultere Tables & Figures Supplement direkte for at verificere alle tabel-/figuraktiver citeret i artiklen; for at reproducere numeriske værdier og auditkæden fra bunden kan de bruge full_fit_runpack til at downloade data og genkøre hele workflowet. Efter færdiggørelse kan pakkens indbyggede referencetabel-sammenligningsscript bruges til at verificere konsistens i tabelværdier.


A.2.1 Hurtigstart for reproduktion (RUN_FULL, Windows PowerShell)

Dette afsnit giver en kortere reproduktionsvej (Windows PowerShell). Til hurtige kontroller anbefales læsere at konsultere Tables & Figures Supplement direkte og verificere de citerede tabeller og figurer post for post. Til end-to-end-reproduktion og generering af alle tabeller, figurer og auditprodukter bruges full_fit_runpack: følg pakkens README/ONE_PAGE_REPRO_CHECKLIST for at køre verify_checksums.ps1 og RUN_FULL.ps1 (Mode=full anbefales).

Zenodo-arkivpost (Concept DOI): https://doi.org/10.5281/zenodo.18526286.
Hovedkæde-tags for denne artikel: run_tag=20260204_122515; strict compile_tag=20260205_035929; release_tag=20260205_112442.


A.2.2 Arkivmaterialer og centrale verifikationspunkter (pakker og kontroller)

Zenodo-arkivet leverer tre komplementære materialekategorier: (1) publikationsklar rapport (denne artikel, v1.1; inklusive appendiks B: P1A-stresstest af DM-baseline-standardisering); (2) Tables & Figures Supplement (supplerende tabeller og figurer, der dækker alle tabel-/figuraktiver citeret i denne artikel, separat svarende til P1 og P1A); og (3) full_fit_runpack (fuld reproduktionspakke: downloader data fra bunden og genkører hele workflowet, separat svarende til P1 og P1A). Punkterne (1)–(2) understøtter hurtig læsning og uafhængig verifikation; punkt (3) giver fuld end-to-end-reproducerbarhed.

Materialekategori

Filnavn (eksempel)

Formål og positionering (anbefalet brugsrækkefølge)

Publikationsklar rapport (kinesisk og engelsk)

P1_RC_GGL_report_EN_PUBLICATION_V1_1.pdf
P1_RC_GGL_report_CN_PUBLICATION_V1_1.pdf

Komplet rapport arkiveret på Zenodo; hovedteksten giver kernekonklusionerne og robusthedsaudits, og appendiks B giver P1A (stresstest af DM-baseline-standardisering).

Tables & Figures Supplement (P1)

P1_RC_GGL_supplement_figs_tables_V1_1.zip

Alle tabeller (CSV) og figurer (PNG), der citeres i hovedteksten, inklusive genereringsscripts og tagfiler.

Tables & Figures Supplement (P1A)

P1A_supplement_figs_tables_v1.zip

Alle tabeller og figurer, der citeres i appendiks B (P1A), inklusive Tab_S1_P1A_scoreboard og Fig_S1_P1A_scoreboard.

full_fit_runpack (P1)

P1_RC_GGL_full_fit_runpack_v1_1.zip

Fuld end-to-end-reproduktion: download data fra bunden og genkør RC-only/lukning/fælles analyser og robusthedsscanninger.

full_fit_runpack (P1A)

P1A_RC_GGL_full_fit_runpack_v1.zip

Fuld end-to-end-reproduktion (appendiks B): genkør DM 7+1 + DM_STD (inklusive EFT_BIN-kontrollen) og generér appendiksaktiver; pakken indeholder et referencetabel-sammenligningsscript til verifikation af konsistens i tabelværdier.

Citationsanbefaling: når denne artikel eller de tilhørende reproducerbarhedsmaterialer citeres, bedes Zenodo Concept DOI citeres (https://doi.org/10.5281/zenodo.18526334).

Nøgleprodukter, der bør fremkomme og kunne sammenlignes efter reproduktion, inkluderer:

Appendiks B: P1A—Stresstest af DM-baseline-standardisering (DM 7+1 + DM_STD; med EFT-kontrol)

Dette appendiks dokumenterer et udvidelsesprojekt (P1A) for “stresstest af DM-baseline-standardisering”, som er konsistent med lukningsprotokollen i hovedteksten. Dets rolle er at opgradere den minimale DM_RAZOR-baseline brugt i hovedteksten (NFW + fast c–M, ingen spredning / ingen kontraktion / ingen core) til et sæt DM-baselines, der ligger tættere på astrofysisk praksis og er mere modstandsdygtigt over for almindelig kritik, uden at indføre et stort antal frihedsgrader og uden at ændre den fælles mapping RC-bin→GGL-bin eller auditrammen. P1A dækker og er en overmængde af den tidligere tregrede stresstest: den bevarer SCAT/AC/FB, samtidig med at den tilføjer hierarkisk c–M-spredning + prior, en én-parameter core-proxy og en nuisance-parameter m for shear-kalibrering på linseeffekt-siden; den leverer også den kombinerede model DM_STD. EFT_BIN bevares som kontrolreference.

Supplerende note: lukningsstyrker og relaterede værdier i appendiks B (P1A) bruger et større Monte Carlo-budget (for eksempel ndraw=400, nperm=24) end det hurtige budget, der bruges i hovedteksten til at dække hele EFT-kernefamilien (for eksempel ndraw=60, nperm=12). Derfor kan absolutte værdier vise samplingdrift på O(10)-niveau. Sammenligninger model mod model inden for samme budget/tabel er dog fair, og fordelens fortegn og skala forbliver stabile på tværs af budgetter.


B.1 Formål og positionering (hvorfor P1A, og hvorfor som appendiks)

P1A forsøger ikke at udtømme alle mulige valg i ΛCDM-halomodellering (såsom ikke-sfæricitet, miljøafhængighed, komplekse galakse–halo-forbindelser eller højdimensionel baryonfysik). I stedet følger P1A et princip om “lavdimensionel, auditérbar, reproducerbar”: hvert udvidelsesmodul introducerer kun ≤1 central effektiv parameter og forbliver underlagt denne artikels tre hårde begrænsninger:
(i) Parameterregnskab: hver ny parameter skal eksplicit registreres og rapporteres sammen med informationskriterier (AICc/BIC);
(ii) Fælles mapping: den samme grupperingsmap RC-bin→GGL-bin bruges stadig; separat “tuning af mappingen” for ét enkelt datasæt er ikke tilladt;
(iii) Lukningstest: enhver udvidelse skal vise reel gevinst i RC→GGL-overførselsforudsigelse, ikke blot bedre RC-only-tilpasning.


B.2 DM 7+1 + DM_STD: Moduldefinitioner, parametre og indgang i den fælles posterior

Som en uafhængig runpack leverer P1A 8 DM-workspaces (DM 7+1) plus 1 EFT-kontrol: med DM_RAZOR som baseline konstruerer den tre legacy én-parameter-udvidelser (DM_RAZOR_SCAT / DM_RAZOR_AC / DM_RAZOR_FB), tilføjer tre mere standardiserede forsvarsmoduler (DM_HIER_CMSCAT / DM_CORE1P / DM_RAZOR_M) og leverer derefter den kombinerede model DM_STD. Modulernes fælles mål er at dække de tre mest almindelige kritikpunkter, samtidig med at dimensionaliteten øges så lidt som muligt: (a) hvordan c–M-spredning og priorer indgår i en hierarkisk model; (b) om hovedeffekten af baryonisk feedback kan indfanges af en én-parameter core-proxy; og (c) om centrale systematikker på linseeffekt-siden kan forveksles med et fysisk signal.

Workspace

dm_model

Ny(e) parameter(e) (≤1)

Fysisk motivation (kerne)

Implementeringsprincip (auditvenligt)

DM_RAZOR

NFW (fast c–M, ingen spredning)

Minimal, auditérbar ΛCDM-halo-baseline; bruges til streng sammenligning med EFT

Fælles mapping fastholdt; strengt parameterregnskab; bruges kun som baseline for relativ sammenligning

DM_RAZOR_SCAT

NFW + c–M-spredning (legacy)

σ_logc

c–M-relationen har spredning; approksimeres med en én-parameter lognormal spredning

≤1 ny parameter; fælles mapping bevares; lukningsgevinst bruges som acceptkriterium

DM_RAZOR_AC

NFW + adiabatisk kontraktion (legacy)

α_AC

Baryonisk infald kan fremkalde adiabatisk halokontraktion; approksimeres med én styrkeparameter

≤1 ny parameter; mapping uændret; rapportér AICc/BIC-ændringer og lukningsgevinst

DM_RAZOR_FB

NFW + feedback-core (legacy)

log r_core

Feedback kan danne en core i den indre region; approksimeres med en én-parameter core-skala

≤1 ny parameter; samme luknings-/negativ-kontrol-protokol; RC-only-forbedring er ikke eneste mål

DM_HIER_CMSCAT

Hierarkisk c–M-spredning + prior

σ_logc (hier)

Mere standardiseret hierarkisk c_i∼logN(c(M_i),σ_logc); påvirker den fælles posterior for både RC og GGL

Eksplicit prior; latent c_i marginaliseres; stadig lavdimensionel og auditérbar

DM_CORE1P

Én-parameter core-proxy (inspireret af coreNFW/DC14)

log r_core

Bruger en én-parameter core-proxy for hovedeffekten af baryonisk feedback og undgår højdimensionelle detaljer om stjernedannelse

Citerer standardlitteratur; ≤1 ny parameter; knyttet til lukningstesten

DM_RAZOR_M

NFW + nuisance for linseeffekt-shear-kalibrering

m_shear (GGL)

Absorberer en central svag-linseeffekt-systematik som effektiv parameter og reducerer risikoen for at forveksle systematik med fysik

Nuisance registreres eksplicit; kan ikke påvirke RC bagud; resultater bedømmes primært efter lukningsrobusthed

DM_STD

Standardiseret DM-baseline (HIER_CMSCAT + CORE1P + m)

σ_logc + log r_core (+ m_shear)

Inkluderer de tre mest almindelige kritikklasser i en stadig lavdimensionel standardbaseline

Parameterregnskab + informationskriterier rapporteres; lukning er primærmetrikken; bruges som den stærkeste defensive DM-kontrol

Bemærk: parameternavnene ovenfor følger den tekniske implementering (for eksempel σ_logc, α_AC, log r_core og m_shear). Designfokus for P1A er at “gøre DM-baselinen noget stærkere, samtidig med at den holdes auditérbar”, ikke at gøre DM-siden til en ukontrollerbar højdimensionel fitter. Især introducerer DM_HIER_CMSCAT c–M-spredning hierarkisk: koncentrationen c_i for hver halo tildeles en lognormal spredning omkring c(M_i), begrænset af global σ_logc og c(M)-prioren; denne hierarkiske struktur påvirker den fælles posterior for både RC og GGL.


B.3 Statistisk protokol og produktkonventioner konsistente med hovedteksten

P1A genbruger alle dataprodukter, den fælles mapping og auditrammen fra hovedteksten. Eksekveringsrækkefølgen og produktkonventionerne forbliver konsistente:
(1) Run‑1: RC-only-inferens (output posterior_samples.npz og metrics.json);
(2) Run‑2: RC→GGL-lukningstest (output closure_summary.json og den permuterede baseline);
(3) Run‑3: fælles RC+GGL-tilpasning (output joint_summary.json).
Alle citerede tal kommer fra den automatisk kompilerede tabel (Tab_S1_P1A_scoreboard) og kan kontrolleres efter genkørsel af hele P1A-workflowet ved hjælp af referencetabel-sammenligningsscriptet, der er indbygget i P1A full_fit_runpack.


B.4 Hovedresultater, tabel-/figuringange og arkivplan (samme DOI)

Dette afsnit giver P1A's centrale kvantitative konklusioner. Tabel B1 opsummerer nøglemetrikker for RC-only, RC→GGL-lukning og fælles RC+GGL-tilpasning (parenteser angiver forskelle relativt til DM_RAZOR-baselinen). Lukningsstyrke defineres som ΔlogL_closure ≡ ⟨logL_true⟩ − ⟨logL_perm⟩ (højere er bedre). Fig. B1 visualiserer den samme scoreboard. Hovedpunkterne er følgende:
• Blandt de tre legacy-grene giver kun DM_RAZOR_FB (feedback/core) en lille nettoforbedring i lukningsstyrke: 122.21→129.45 (+7.25); SCAT og AC giver ingen nettoforbedring;
• De nytilføjede DM_HIER_CMSCAT og DM_RAZOR_M har meget små effekter (~0) på lukningsstyrken, og DM_CORE1P viser ligeledes ingen signifikant nettoforbedring;
• Den kombinerede model DM_STD kan forbedre fælles logL betydeligt (tættere på optimum for fælles tilpasning), men dens lukningsstyrke falder, hvilket tyder på, at gevinsten primært kommer fra fleksibilitet i fælles tilpasning snarere end fra overførbarhed på tværs af sonder;
• Som kontrol bevarer EFT_BIN stadig en klar fordel i både lukningsstyrke og fælles tilpasning. Hovedkonklusionen er derfor robust over for introduktionen af en “stærkere DM-baseline + linseeffekt-nuisance”.

Til direkte sammenligning med hovedtekstens resultater opsummerer tabellerne S1a–S1b den strenge sammenligning mellem EFT-familien og DM_RAZOR: EFT-modeller forbedrer den fælles tilpasning med ΔlogL_total≈1155–1337 relativt til DM_RAZOR og når ΔlogL_closure=172–281 i lukningstesten. P1A skaber kun en “hårdere kontrol” på DM-siden; formålet er at reducere bekymringer såsom “stråmandsbaseline” eller “systematik-som-fysik”, ikke at erstatte hovedsammenligningen.

Tabel B1 | P1A-scoreboard (højere er bedre; parenteser angiver forskelle relativt til DM_RAZOR-baselinen).

Modelgren (workspace)

Δk

RC-only bedste logL_RC (Δ)

Lukningsstyrke ΔlogL_closure (Δ)

Fælles bedste logL_total (Δ)

DM_RAZOR

0

-15702.654 (+0.000)

122.205 (+0.000)

-27347.068 (+0.000)

DM_RAZOR_SCAT

1

-15702.294 (+0.361)

121.236 (-0.969)

-23153.311 (+4193.758)

DM_RAZOR_AC

1

-15703.689 (-1.035)

121.531 (-0.674)

-23982.557 (+3364.511)

DM_RAZOR_FB

1

-15496.046 (+206.609)

129.454 (+7.249)

-27478.531 (-131.463)

DM_HIER_CMSCAT

1

-15702.644 (+0.010)

121.978 (-0.227)

-23153.160 (+4193.908)

DM_CORE1P

1

-15723.158 (-20.504)

122.056 (-0.149)

-27336.258 (+10.810)

DM_RAZOR_M

0 (+m)

-15702.654 (+0.000)

122.205 (+0.000)

-27340.451 (+6.617)

DM_STD

2 (+m)

-15832.203 (-129.549)

105.690 (-16.515)

-22984.445 (+4362.623)

EFT_BIN

1

-14631.537 (+1071.117)

204.620 (+82.415)

-19001.142 (+8345.926)

Fig. B1 | P1A-scoreboard: lukning og fælles ΔlogL relativt til baseline (højere er bedre).

Eksempeltags for det gennemførte runsæt, der svarer til dette appendiks, er følgende (bruges til at lokalisere P1A-mellemprodukter og tabeller/figurer):
P1A run_tag = 20260213_151233; P1A closure_tag = 20260213_161731; P1A joint_tag = 20260213_195428.


B.5 Foreslået citation (appendiks-citationsnote)

Når læsere har brug for at citere “stresstesten af DM-baseline-standardisering” ud over artiklens hovedkonklusioner, anbefales det, at de citerer hovedkonklusionen sammen med følgende note: “Se appendiks B (P1A) for standardiserede stresstest af DM-baseline (legacy SCAT/AC/FB + hierarkisk c–M-spredningsprior + core-proxy + nuisance for linseeffekt-shear-kalibrering), under samme lukningsprotokol.”