Forklaring af P1-rapporten — Fra rotationskurver til svag linsning: test af den gennemsnitlige gravitationsrespons i Energi-tråd-teorien (Energy Filament Theory, EFT)

En offentlig forklaring baseret på P1_RC_GGL: en streng lukningstest af galaksedynamik og svag linsning (v1.1)

Originalrapport af Guanglin Tu | Versionsgrundlag: P1 v1.1 | Placering: offentlig forklaring / ikke en fagfællebedømt artikel
Relaterede arkiver: rapport-DOI 10.5281/zenodo.18526334 | reproducerbarhedspakke-DOI 10.5281/zenodo.18526286

Læsenoter

Dette er en forklaringstekst, ikke endnu en akademisk rapport. Den bygger på den oprindelige P1-rapport, bevarer de centrale figurer og tabeller og tilføjer offentligt rettede forklaringer af ”hvad dette betyder” ved hvert vigtigt trin.

Denne artikel forklarer kun de konklusioner, P1 når under sine angivne datasæt, sit parameterregnskab og sin statistiske protokol: I den fælles test af galaksers rotationskurver (RC) og galakse-galakse-svaglinsning (GGL) ligger EFT's model for gennemsnitlig gravitationsrespons klart foran den minimale DM_RAZOR-basismodel, der testes her.

Denne artikel læser ikke P1 som en konklusion om, at ”mørkt stof er blevet væltet”. P1 er kun det første trin i P-seriens eksperimenter. Den tester ét observerbart lag i EFT — det ”gennemsnitlige gravitationsgrundlag” — ikke hele EFT-teorien.

I. Forstå P1 på fem minutter: hvad tester studiet egentlig?

P1 kan læses som et valideringseksperiment på tværs af observationsprober. Det spørger ikke blot, om en model kan tilpasses ét datasæt; det lægger to meget forskellige gravitationsaflæsninger på samme revisionsbord. Rotationskurver (RC) aflæser dynamikken inde i galakseskiver, mens galakse-galakse-svaglinsning (GGL) aflæser den projicerede gravitationsrespons på større skalaer.

RC fungerer som et speedometer: det viser, hvor hurtigt gas og stjerner kredser ved forskellige radier i en galakseskive.
GGL fungerer som en vægt: ved at måle, hvordan forgrundsgalakser svagt bøjer baggrundslys, kan man udlede den gennemsnitlige gravitations- eller massefordeling omkring galakser på større skala.
Kernespørgsmålet i P1 er dette: kan den samme model lære et mønster fra RC og stadig give mening, når mønstret overføres til GGL?

P1's kernepointe

P1 hæver sammenligningstærsklen fra ”passer den godt til én probe?” til ”lukker den på tværs af prober?” God ydeevne under den korrekte afbildning, efterfulgt af signalsammenbrud når afbildningen ombyttes, tyder på, at modellen kan have fanget en gravitationsstruktur, som RC og GGL deler.

Tabel 0 | P1's kernetal og hvordan de læses

Mål	Hvordan P1 / P1A læser det	Almindelig læsning
Fælles tilpasning ΔlogL_total	Hovedtekstens sammenligning: EFT ligger 1155–1337 over DM_RAZOR	Samlet scoreforskel på tværs af de to datasæt; større betyder en bedre samlet forklaring.
Lukningsstyrke ΔlogL_closure	Hovedtekstens sammenligning: EFT er 172–281, mens DM_RAZOR er 127	Evnen til at forudsige GGL efter inference fra RC alene; større betyder mere selvkonsistens på tværs af prober.
Ombytning i negativ kontrol	Efter shuffling af RC-bin→GGL-bin falder EFT's lukningssignal til 6–23	Hvis den korrekte korrespondance brydes, bør fordelen forsvinde; jo mere den forsvinder, desto mere udelukkes falske signaler.
P1A-stresstest med flere DM-varianter	DM 7+1 + DM_STD, med EFT_BIN bevaret som sammenligningsmodel	P1A ser ikke kun på den minimale DM_RAZOR; den placerer flere lavdimensionale, efterprøvbare DM-forbedringsgrene i den samme lukningsprotokol.

II. Hvorfor P1 var nødvendig: hvor kosmologi på galakseskala kører fast

Problemet på galakseskala er forblevet vanskeligt, fordi behovet for ”ekstra gravitation eller masse” ikke kun er et rotationskurvefænomen. En stor mængde observationer viser en tæt forbindelse mellem synligt baryonisk stof i galakser og de faktiske dynamiske aflæsninger og linseaflæsninger. For vejen med mørkt stof betyder det, at mørke haloer, baryonisk feedback, galaksedannelseshistorik og observationssystematik skal koordineres med stor præcision. For gravitationsmodeller uden DM betyder det, at en model ikke blot må se god ud på RC; den skal også holde under svag linsning, populationsbaserede skaleringsrelationer og negative kontroller.

Det er motivationen bag P1. Studiet begynder ikke med påstanden ”mørkt stof er forkert” eller ”EFT må være rigtig”. Det sætter ét testbart udsagn på prøve: kan EFT's gennemsnitlige gravitationsrespons efterlade et reproducerbart og overførbart signal i RC→GGL-lukning på tværs af prober?

Ekstern litteraturkontekst: hvorfor RC+GGL-vinduet betyder noget

McGaugh, Lelli og Schombert (2016) foreslog den radiale accelerationsrelation (RAR), som viser en tæt relation med lille spredning mellem den observerede acceleration, der spores af rotationskurver, og den acceleration, der forudsiges ud fra baryonisk stof. Det gør koblingen mellem baryoner og gravitationsrespons til et uomgængeligt spørgsmål for teori på galakseskala.

Brouwer et al. (2021) brugte KiDS-1000 svag linsning til at udvide RAR til lavere accelerationer og større radier og sammenlignede MOND, Verlindes emergente gravitation og LambdaCDM-modeller. De bemærkede også, at forskelle mellem tidlige og sene galaksetyper, gashaloer og galakse-halo-forbindelser stadig er centrale forklaringsspørgsmål.

Mistele et al. (2024) brugte yderligere svag linsning til at udlede cirkulærhastighedskurver for isolerede galakser og rapporterede ingen tydelig nedgang ud til hundreder af kpc og endda omkring 1 Mpc, i overensstemmelse med BTFR. Det viser, at svag linsning er ved at blive en vigtig ekstern aflæsning af gravitationsrespons på galakseskala.

P1's værdi ligger derfor ikke i, at studiet er det første, der diskuterer RC og GGL sammen. Værdien ligger i, at de placeres i en efterprøvbar protokol med fast afbildning, parameterregnskab, RC-only→GGL-lukning, negative ombytningskontroller og P1A-stresstest med flere DM-varianter.

III. Hvad betyder EFT i P1? Det er ikke effektiv feltteori

Her står EFT for Energi-tråd-teorien, ikke den effektive feltteori (Effective Field Theory), som er velkendt i fysikken. I den tekniske P1-rapport bruges EFT meget tilbageholdende: teorien indgår ikke som en komplet endelig teori, men komprimeres først til en observerbar, tilpasningsklar og falsificerbar parameterisering af en ”gennemsnitlig gravitationsrespons”.

Sagt enkelt forsøger P1 hverken at diskutere alle mikroskopiske kilder til ekstra gravitation eller at bevise hele EFT-rammen i ét trin. Det stiller et smallere og hårdere spørgsmål: Hvis der findes en form for gennemsnitlig ekstra gravitationsrespons på galakseskala, kan den så først forklare RC og derefter overføres til at forudsige GGL?

Hvilken del af EFT tester P1?

P1 tester det ”gennemsnitlige gravitationsgrundlag”: et statistisk stabilt, overførbart middelbidrag.

P1 behandler endnu ikke det ”stokastiske / støjmæssige grundlag”: de tilfældige led, objekt-til-objekt-forskelle eller ekstra spredning, der kan opstå fra mere mikroskopiske fluktuationsprocesser.

P1 diskuterer heller ikke den fulde mikroskopiske mekanisme, forekomster, levetider eller globale kosmologiske begrænsninger. Det er første trin i P-seriens eksperimenter, ikke den endelige dom.

IV. Planen for P-serien: hvorfor begynde med det ”gennemsnitlige grundlag”?

P-serien kan forstås som EFT's observationsbaserede genfindingsprogram. Den lægger ikke alle påstande på bordet på én gang, men isolerer den del, der lettest kan testes med offentlige data. P1 begynder med middelleddet: hvis den gennemsnitlige gravitationsrespons ikke kan lukkes fra RC til GGL, findes der ikke et solidt indgangspunkt for at diskutere mere komplekse støjled eller mikroskopiske mekanismer.

Tabel 1 | P-seriens lagdelte placering

Lag	Spørgsmål	Placering i P1
P1	Kan den gennemsnitlige gravitationsrespons lukkes fra RC til GGL?	Den aktuelle rapports hovedspørgsmål
P1A	Hvis DM-siden styrkes, forbliver konklusionen så stabil?	Appendiks B: DM 7+1 + DM_STD-stresstest
Fremtidigt arbejde i P-serien	Kan dette udvides til flere data, flere prober og mere kompleks systematik?	Fremtidig retning
Dybere spørgsmål	Hvordan hænger middelleddet, støjleddet og de mikroskopiske mekanismer sammen?	Uden for P1's konklusionsområde

V. Hvilke data bruges? Hvad fortæller RC og GGL hver især?

V.I. Rotationskurver (RC): en hastighedsmåler inde i galakseskiver

Rotationskurver registrerer, hvor hurtigt gas og stjerner kredser ved forskellige radier fra en galakses centrum. Højere omløbshastigheder kræver en stærkere centripetalkraft og dermed en stærkere effektiv gravitationsrespons. P1 bruger SPARC-databasen; efter forbehandling omfatter den 104 galakser, 2.295 hastighedsdatapunkter og 20 RC-bins.

V.II. Svag linsning (GGL): en ”gravitationsvægt” på større skala

Svag galakse-galakse-linsning måler, hvordan forgrundsgalakser svagt bøjer lyset fra baggrundsgalakser. Det svarer til en projiceret gravitationsrespons på større halo-skala og afhænger ikke af de gasdynamiske detaljer i galakseskiver. P1 bruger offentlige GGL-data fra KiDS-1000 / Brouwer et al. (2021): fire stjernemasse-bins, 15 radiale punkter pr. bin, i alt 60 datapunkter, med fuld kovarians.

V.III. Fast afbildning: hvorfor 20 RC-bins → 4 GGL-bins er vigtigt

P1 forbinder 20 RC-bins med 4 GGL-bins gennem en fast regel: hver GGL-bin svarer til fem RC-bins, gennemsnittet med vægte efter antal galakser. Denne afbildning holdes fast for alle modeller. Den er en hård begrænsning for lukningstesten og for en fair sammenligning.

Hvorfor ikke tune afbildningen bagefter?

Hvis man bagefter måtte vælge, hvilke RC-bins der svarer til hvilke GGL-bins, kunne en model fremstille lukning ved at omarrangere korrespondancen. P1 låser 20→4-afbildningen på forhånd og bryder den bevidst med en ombytning-negativ kontrol netop for at teste, om lukningssignalet virkelig afhænger af en fysisk rimelig korrespondance.

VI. Modeller og metoder: hvad sammenligner P1 egentlig?

VI.I. EFT-siden: en lavdimensional gennemsnitlig gravitationsrespons

På EFT-siden beskriver et lavdimensionalt ekstra-hastighedsled den gennemsnitlige gravitationsrespons. Formen på det ekstra led styres af en dimensionsløs kernefunktion f(r/ℓ), hvor ℓ er en global skala, mens amplituder tildeles efter RC-bin. Forskellige kerner indkoder forskellige begyndelseshældninger, overgangsadfærd og langtrækkende haler og fungerer som robusthedsstresstest.

VI.II. DM-siden: hovedtekstens sammenligning og appendiks P1A skal læses hver for sig

I hovedtekstens sammenligning er DM_RAZOR en minimeret, efterprøvbar NFW-basismodel: den låser c–M-relationen og medtager hverken halo-til-halo-spredning, adiabatisk kontraktion, feedback-kerne, ikke-sfæricitet eller miljøled. Fordelen ved dette design er kontrollerede frihedsgrader og let reproducerbarhed; begrænsningen er, at det ikke repræsenterer alle LambdaCDM- eller mørkt-stof-halomodeller.

Derfor gør appendiks B (P1A) DM-siden til en standardiseret stresstest. Uden at ændre den fælles afbildning eller lukningsprotokollen tilføjer den gradvist lavdimensionale forbedringsgrene som SCAT, AC, FB, HIER_CMSCAT, CORE1P, linsningsleddet m og den kombinerede basismodel DM_STD, mens EFT_BIN bevares som sammenligningsmodel. En god måde at læse P1A på er denne: den sammenligner ikke EFT kun med én minimal DM-basismodel; den lægger et sæt almindelige, efterprøvbare DM-mekanismer under den samme ”lukningslineal”.

Den præcise konklusion, der bruges her

Hovedtekst: EFT-familien klarer sig markant bedre end den minimale DM_RAZOR i hovedsammenligningen.

Appendiks B / P1A: På tværs af flere lavdimensionale, efterprøvbare DM-forbedringsgrene og DM_STD-stresstesten forbedres nogle fælles DM-tilpasninger, men lukningsstyrken sletter ikke EFT_BIN’s fordel.

Den sikreste formulering er derfor: Inden for P1/P1A's data, afbildning, parameterregnskab og lukningsprotokol viser EFT's gennemsnitlige gravitationsrespons stærkere konsistens på tværs af data. Det svarer ikke til at udelukke alle modeller for mørkt stof.

VI.III. Lukningstest: P1's vigtigste eksperimentelle logik

1. Tilpas kun RC, og udled et sæt RC-only-posteriorprøver.

2. Finjustér ikke på GGL; brug RC-posterioren direkte til at forudsige GGL.

3. Brug den fulde kovarians til at beregne GGL-forudsigelsesscoren logL_true under den korrekte afbildning.

4. Permutér RC-bin→GGL-bin-korrespondancen tilfældigt, og beregn den negative kontrolscore logL_perm.

5. Træk de to fra hinanden for at få lukningsstyrken: ΔlogL_closure = <logL_true> − <logL_perm>.

Analogi i almindeligt sprog

Lukningstesten ligner en reeksamen på tværs af to eksamensrum: Modellen lærer først en regel i RC-rummet og svarer derefter i GGL-rummet. Hvis den har lært en fælles regel snarere end et lokalt trick, bør den stadig klare sig godt i det andet rum; hvis korrespondancen mellem eksamensrummene bevidst ombyttes, bør fordelen forsvinde.

VI.IV. Før de tekniske tabeller læses: fire indgange

Tabel 5.4 | Sådan læses de næste brede tekniske tabeller

Indgang	Hvad man skal se på	Hvorfor det betyder noget
Tabel S1a	Samlet score for fælles tilpasning for RC+GGL	Besvarer: ”Hvem har den stærkeste samlede forklaring på tværs af begge datasæt?”
Tabel S1b	Lukningsstyrke, ombytning og robusthedsscanninger	Besvarer: ”Kan det, der blev lært fra RC, overføres til GGL?”
Tabel B0	Definitioner af flere DM-forbedringsgrene i P1A	Forhindrer, at P1 reduceres til ”kun sammenlignet med den minimale DM_RAZOR”.
Tabel B1	P1A-resultattavle for lukning og fælles tilpasning	Kontrollerer, om forbedret DM sletter lukningsfordelen.

Layoutnote

Næste side skifter til liggende retning, så de brede tabeller fra originalrapporten kan bevares uden at slette kolonner eller presse dem sammen til ulæselighed. Hovedteksten har allerede givet en læsning i almindeligt sprog; de tekniske liggende tabeller er til læsere, der har brug for at kontrollere tal og modelgrene.

Figur 0.1 | P1's lukningstest-workflow i overblik

Bemærk: den øverste kæde er ”lukningstesten” (tilpas kun RC → brug RC-posterioren til at forudsige GGL); den nederste kæde er ”fælles tilpasning” (score RC+GGL samlet). Højre side sammenligner den sande afbildning med ombyttede afbildninger for at udlede lukningsstyrken ΔlogL.

VII. Centrale tekniske tabeller: hovedrapportens tabeller og P1A-tabeller

Tabel S1a | Centrale mål for sammenligning af fælles tilpasning (RC+GGL, Strict; bevaret fra originalrapporten)

Modelgren (arbejdsområde)	W-kerne	k	Fælles logL_total (bedst)	ΔlogL_total vs. DM	AICc	BIC
DM_RAZOR	ingen	20	-16927.763	0.0	33895.885	34010.811
EFT_BIN	ingen	21	-15590.552	1337.21	31223.501	31344.155
EFT_WEXP	eksponentiel	21	-15668.83	1258.932	31380.057	31500.711
EFT_WYUK	Yukawa	21	-15772.936	1154.827	31588.268	31708.922
EFT_WPOW	powerlaw_tail	21	-15633.321	1294.442	31309.038	31429.692

Tabel S1b | Luknings- og robusthedsmål (Strict; bevaret fra originalrapporten)

Modelgren (arbejdsområde)	Lukning ΔlogL (true-perm)	ΔlogL efter negativ kontrol med ombytning	ΔlogL-interval ved σ_int-scanning	ΔlogL-interval ved R_min-scanning	ΔlogL-interval ved cov-shrink-scanning
DM_RAZOR	126.678	22.725	—	—	—
EFT_BIN	231.611	14.984	459–1548	1243–1289	1337–1351
EFT_WEXP	171.977	6.04	408–1471	1169–1207	1259–1277
EFT_WYUK	179.808	14.688	380–1341	1065–1099	1155–1166
EFT_WPOW	280.513	6.672	457–1500	1203–1247	1294–1308

Tabel B0 | Definitioner af DM-forbedringsgrene i P1A (bevaret fra appendiks B i originalrapporten)

Arbejdsområde	dm_model	Nye parametre (≤1)	Fysisk motivation (kerne)	Implementeringsregel (revisionsvenlig)
DM_RAZOR	NFW (fast c–M, ingen spredning)	—	Minimal, efterprøvbar LambdaCDM-halobasismodel; bruges som streng sammenligningsmodel for EFT	Fælles afbildning fastlåst; strengt parameterregnskab; bruges kun som baseline for relativ sammenligning
DM_RAZOR_SCAT	NFW + c–M-spredning (legacy)	σ_logc	c–M-relationen har spredning; approximeres med en enparameters lognormal spredning	≤1 ny parameter; bruger stadig den fælles afbildning; lukningsgevinst er acceptkriteriet
DM_RAZOR_AC	NFW + adiabatisk kontraktion (legacy)	α_AC	Baryonisk indfald kan inducere adiabatisk halokontraktion; approximeres med én styrkeparameter	≤1 ny parameter; afbildning uændret; rapporterer AICc/BIC-ændringer og lukningsgevinst
DM_RAZOR_FB	NFW + feedback-kerne (legacy)	log r_core	Feedback kan danne en kerne i den indre region; approximeres med én kerneskalaparameter	≤1 ny parameter; samme luknings- og negative kontrolprotokol; forbedring af RC-only er ikke det eneste mål
DM_HIER_CMSCAT	Hierarkisk c–M-spredning + prior	σ_logc (hier)	En mere standard hierarkisk c_i∼logN(c(M_i), σ_logc); påvirker den fælles RC- og GGL-posterior samtidig	Eksplicit prior; latent c_i marginaliseres; forbliver lavdimensional og efterprøvbar
DM_CORE1P	Enparameters kerneproxy (inspireret af coreNFW/DC14)	log r_core	Bruger en enparameters kerneproxy for den vigtigste baryoniske feedbackeffekt og undgår højdimensionale detaljer om stjernedannelse	Henviser til standardlitteratur; ≤1 ny parameter; knyttet til lukningstesten
DM_RAZOR_M	NFW + nuisanceparameter for shear-kalibrering i linsning	m_shear (GGL)	Absorberer en central systematik på svag-linsningssiden som en effektiv parameter og reducerer risikoen for at behandle systematik som fysik	Nuisanceparameter-parametret bogføres eksplicit; det må ikke føde tilbage i RC; resultater vurderes især efter lukningsrobusthed
DM_STD	Standardiseret DM-basismodel (HIER_CMSCAT + CORE1P + m)	σ_logc + log r_core (+ m_shear)	Lægger tre almindelige indvendingsklasser ind i en stadig lavdimensional standardiseret baseline	Rapporterer parameterregnskab og informationskriterier samlet; lukning er hovedmålet; bruges som den stærkeste DM-forsvarskomparator

Tabel B1 | P1A-resultattavle (højere er bedre; bevaret fra appendiks B i originalrapporten)

Modelgren (arbejdsområde)	Δk	Bedste logL_RC for RC-only (Δ)	Lukningsstyrke ΔlogL_closure (Δ)	Bedste fælles logL_total (Δ)
DM_RAZOR	0	-15702.654 (+0.000)	122.205 (+0.000)	-27347.068 (+0.000)
DM_RAZOR_SCAT	1	-15702.294 (+0.361)	121.236 (-0.969)	-23153.311 (+4193.758)
DM_RAZOR_AC	1	-15703.689 (-1.035)	121.531 (-0.674)	-23982.557 (+3364.511)
DM_RAZOR_FB	1	-15496.046 (+206.609)	129.454 (+7.249)	-27478.531 (-131.463)
DM_HIER_CMSCAT	1	-15702.644 (+0.010)	121.978 (-0.227)	-23153.160 (+4193.908)
DM_CORE1P	1	-15723.158 (-20.504)	122.056 (-0.149)	-27336.258 (+10.810)
DM_RAZOR_M	0 (+m)	-15702.654 (+0.000)	122.205 (+0.000)	-27340.451 (+6.617)
DM_STD	2 (+m)	-15832.203 (-129.549)	105.690 (-16.515)	-22984.445 (+4362.623)
EFT_BIN	1	-14631.537 (+1071.117)	204.620 (+82.415)	-19001.142 (+8345.926)

Sådan læses tabel B1 (P1A-resultattavlen)

• Δk: tilføjede frihedsgrader (større betyder en mere kompleks model; mere kompleks betyder ikke bedre).

• Fokuser på to kolonner: lukningsstyrke ΔlogL_closure(Δ) (større betyder mere selvkonsistens ved overførsel) og bedste fælles logL_total(Δ) (samlet score for fælles tilpasning).

• (Δ) i parentes er forskellen relativt til DM_RAZOR og gør direkte sammenligning enkel.

• Hovedspørgsmålet i tabellen er: Hvis DM-basismodellen er ”rimeligt forbedret”, forsvinder lukningsfordelen så?

• Læsenote: DM_STD forbedrer den fælles score markant, men lukningsstyrken falder faktisk; EFT_BIN bevarer stadig en højere lukningsstyrke.

Kort sagt: Inden for dette lavdimensionale, efterprøvbare område af DM-forbedringer giver en bedre fælles tilpasning ikke automatisk stærkere lukning; lukning (overførbarhed) forbliver nøglekriteriet.

VIII. Hvordan bør hovedresultaterne læses?

VIII.I. Fælles tilpasning: på tværs af begge datasæt scorer EFT's hovedsammenligning højere

Tabel S1a og figur S4 viser, at EFT-familien under samme data, samme fælles afbildning og næsten samme parameterskala har en fælles ΔlogL_total på 1155–1337 relativt til DM_RAZOR. For almindelige læsere betyder det, at EFT-modellerne i hovedsammenligningen får en højere samlet score under én scoringsregel, der kombinerer RC og GGL.

VIII.II. Lukningstest: P1's hovedvægt er overførbarhed

Høj lukningsstyrke betyder, at en model kan udlede parametre fra RC alene og, uden at se på GGL igen, forudsige GGL bedre. I P1-rapporten har EFT ΔlogL_closure = 172–281, mens DM_RAZOR har 127. Det er vigtigere end blot at sige, at ”hver tilpasning ser fin ud”, fordi det begrænser modellens frihed på det andet datasæt.

VIII.III. Negativ kontrol: hvorfor er ”signalsammenbrud” en god ting?

Når P1 tilfældigt shuffler RC-bin→GGL-bin-grupperingskorrespondancen, falder EFT's lukningssignal til intervallet 6–23. For almindelige læsere er dette et anti-snyd-trin: hvis lukningsfordelen blot kom fra kode, enheder, kovariansvalg eller en tilfældighed i tilpasningen, kunne ombyttede korrespondancer stadig vise en fordel. I stedet bryder fordelen sammen, hvilket viser, at den afhænger af den korrekte afbildning.

Figur S3 | Lukningsstyrke (højere er bedre): gennemsnitlig log-likelihood-fordel for RC-only → GGL-forudsigelse.

Sådan læses denne figur

Denne figur er kernen i P1. Jo højere søjlen er, desto bedre overføres den information, modellen lærte fra RC, til GGL.

EFT-familien som helhed ligger over DM_RAZOR, hvilket peger på stærkere lukning på tværs af prober i eksperimentet ”lær først RC, forudsig derefter GGL”.

Figur S4 | Fælles tilpasning-fordel (højere er bedre): bedste logL_total for RC+GGL relativt til DM_RAZOR.

Sådan læses denne figur

Denne figur viser den samlede score efter at RC og GGL er kombineret.

Alle EFT-varianter ligger klart over 0, hvilket viser, at EFT-fordelen i hovedsammenligningen ikke er en lokal étpunkts-effekt, men den fælles analyses samlede adfærd.

Figur R1 | Negativ kontrol: lukningssignalet falder kraftigt efter ombyttet gruppering.

Sådan læses denne figur

Figuren viser, at lukningssignalet falder kraftigt, når den korrekte RC↔GGL-binrelation ombyttes.

Det får P1-resultatet til at ligne reel konsistens i en afbildning på tværs af data snarere end et numerisk sammenfald, der kan opnås under vilkårlige afbildninger.

IX. Robusthed og kontroller: hvordan undgår P1 ”den passer bare bedre”?

En teknisk rapport er mest sårbar over for mistanken om, at dens fordel kan skyldes en bestemt støjindstilling, et datavalg i den centrale region, kovarianshåndtering eller overtilpasning. P1 besvarer denne bekymring med flere stresstest.

Tabel 2 | Sådan læses P1's robusthedstest og negative kontroller

Test	Bekymring testen forsøger at udelukke	Sådan læses den
σ_int-scanning	Hvis RC indeholder ekstra ukendt spredning, forbliver konklusionen så stabil?	Efter at RC-fejlene lempes, forbliver EFT-rangeringen og fordelsskalaen stabile.
R_min-scanning	Hvis den centrale galakseregion ikke er fuldt pålidelig, forbliver konklusionen så stabil?	Efter trimning af den centrale region bevarer EFT stadig en positiv fordel.
cov-shrink-scanning	Hvis GGL-kovariansestimatet er usikkert, forbliver konklusionen så stabil?	Efter at kovariansen shrinkes mod en diagonal matrix, er fordelen ikke følsom.
Ablationsstige	Tvinger EFT en tilpasning igennem med unødvendig kompleksitet?	Den fulde EFT_BIN er nødvendig under informationskriterierne.
LOO-forudsigelse for udeladt bin	Forklarer modellen kun data, den allerede har set?	Når en GGL-bin holdes ude, viser modellen stadig stærk generalisering.
RC-bin-ombytning	Kommer lukningen fra den reelle afbildning?	Lukningen falder efter ombyttet gruppering, hvilket støtter afbildning-afhængighed.

Figur R2 | Interval for ΔlogL_total under σ_int-scanningen (højere er bedre).

Sådan læses denne figur

Tester om EFT's forspring består efter ændringer i indstillingen for RCs intrinsiske spredning.

Figur R3 | Interval for ΔlogL_total under R_min-scanningen (højere er bedre).

Sådan læses denne figur

Tester om EFT's fordel forbliver stabil efter trimning af den komplekse centrale region.

Figur R4 | Interval for ΔlogL_total under cov-shrink-scanningen (højere er bedre).

Sådan læses denne figur

Tester om rangeringen er følsom over for ændringer i kovarianshåndteringen for svag linsning.

Figur R5 | Ablationsstige for EFT_BIN (AICc; lavere er bedre).

Sådan læses denne figur

Tester om den fulde EFT_BIN er nødvendig for at forklare data, frem for blot at tilføje parametre.

Figur R6 | LOO: fordeling af log-likelihood for udeladte bins.

Sådan læses denne figur

Tester om modellen stadig forudsiger godt på en uset GGL-bin.

Figur R7 | Negativ kontrol: ombyttet afbildning giver et klart fald i middel logL_true.

Sådan læses denne figur

Viser yderligere, set fra middel logL_true, at lukning afhænger af den korrekte afbildning på tværs af data.

X. P1A: hvorfor de flere DM-modeller i appendikset betyder noget

Dette afsnit spørger ikke: ”Slog EFT kun én minimal DM_RAZOR?” Det spørger, om konklusionerne fra lukningstest og fælles tilpasning ændrer sig, når DM-basismodellen styrkes inden for et lavdimensionalt, reproducerbart og tydeligt bogført parameterregnskab (P1A). Med andre ord skal P1A mindske indvendingen om, at sammenligningen brugte en for svag DM-basismodel, og flytte diskussionen hen imod, om lukningsydelsen stadig adskiller sig under et sæt efterprøvbare DM-forbedringer.

P1A forsøger ikke at udtømme alle mulige muligheder for LambdaCDM-halomodellering, og den gør heller ikke DM-siden til en højdimensional, uefterprøvbar tilpasningsmaskine. Den vælger lavdimensionale, reproducerbare og regnskabsklare forbedringer: koncentrationsspredning, adiabatisk kontraktion, feedback-kerne, hierarkisk c–M-spredningsprior, enparameters kerneproxy, nuisanceparameter for shear-kalibrering i svag linsning og den kombinerede DM_STD-basismodel.

Hovedlæsning af P1A

Blandt de tre legacy-grene giver kun feedback/kerne en lille nettogevinst i lukningsstyrke; SCAT og AC giver ingen nettogevinst i lukning.

DM_HIER_CMSCAT, DM_RAZOR_M og DM_CORE1P har lille effekt på lukningsstyrken eller viser ingen markant nettogevinst.

DM_STD kan forbedre fælles logL betydeligt, men lukningsstyrken falder, hvilket tyder på, at den primært øger fleksibiliteten i fælles tilpasning snarere end RC→GGL-overførselsforudsigelseskraften.

I P1A tabel B1 bevarer EFT_BIN stadig højere lukningsstyrke og en fordel i fælles tilpasning. P1's kernepåstand bør derfor ikke forenkles til ”den slog kun den minimale DM_RAZOR”.

Figur B1 | P1A-resultattavle: lukning og fælles ΔlogL relativt til basismodel (højere er bedre).

Sådan læses denne figur

Denne figur viser, hvordan flere DM-forbedringsgrene klarer sig relativt til basismodellen.

Betydningen er ikke ”al DM er udelukket”. Den viser, at forbedret DM ikke sletter EFT_BIN’s lukningsfordel inden for det lavdimensionale, efterprøvbare DM-forbedringsområde, som P1A vælger.

XI. Hvorfor P1-eksperimentet er vigtigt

XI.I. Metodisk betydning: sæt tværprobe-lukning over tilpasning til én probe

Teori på galakseskala kører ofte fast i diskussioner om, hvorvidt en model kan passe til ét sæt rotationskurver. P1 hæver barren: kan parametre lært fra RC forudsige svag linsning uden ny finjustering på GGL? Dermed bliver P1 ikke en tilpasningskonkurrence, men en test af overført forudsigelse.

XI.II. Transparensens betydning: gør den reproducerbare kæde til en del af resultatet

Et vigtigt bidrag fra P1 er, at data, tabeller og figurer, run-labels, negative kontroller, reproducerbarhedspakke og revisionsspor frigives samlet. Det betyder noget for både tilhængere og kritikere: diskussionen kan vende tilbage til de samme offentlige data, den samme afbildning, de samme scripts og de samme mål i stedet for at sammenligne slogans.

XI.III. Fysisk betydning: en stærk stresstest for gravitation uden DM

I gravitationsretninger uden DM kan mange modeller forklare en del af rotationskurve- eller RAR-fænomenologien. Den sværere opgave er samtidig at bestå aflæsninger fra svag linsning og under negative kontroller vise, at signalet afhænger af den korrekte afbildning. P1's betydning er, at studiet placerer EFT's gennemsnitlige gravitationsrespons i en protokol, der ligner en ekstern eksamen: RC er træningsfeltet, GGL er overførselsfeltet, og ombytning er anti-snyd-feltet.

XI.IV. Er dette et vigtigt eksperiment for feltet gravitation uden DM?

Forsigtigt formuleret: Hvis P1's databehandling, reproducerbarhedspakke og lukningsprotokol holder under ekstern replikation, kan det betragtes som et RC+GGL-lukningseksperiment, der er værd at tage alvorligt inden for forskning i gravitation uden DM / modificeret gravitation. Dets betydning ligger ikke i sætningen ”mørkt stof er blevet væltet”, men i at levere et tværprobe-kriterium, som kan kopieres, udfordres og udvides.

Findes der allerede en tilsvarende stærk RC+GGL-ramme for forudsigelseslukning?

Relevante rammer og observationstraditioner findes allerede: MOND/RAR organiserer en stor mængde rotationskurvefænomener meget godt; KiDS-1000-arbejdet med RAR i svag linsning har også sammenlignet MOND, Verlindes emergente gravitation og LambdaCDM-modeller; LambdaCDM kan også forklare nogle fænomener i svag linsning og dynamik gennem galakse-halo-forbindelser, gashaloer og feedbackmodellering.

Men P1's præcise påstand er ikke, at ”ingen anden ramme i verden kan forklare RC+GGL”. Påstanden er, at EFT under P1's egen offentlige protokol — fast afbildning, RC-only→GGL-lukning, ombytning-negativ kontrol, parameterregnskab og P1A-stresstest med flere DM-varianter — rapporterer stærkere lukningsydelse.

Med andre ord er den del af P1, der er mest værd at teste eksternt, den konkrete og reproducerbare sammenligningsprotokol, som studiet foreslår. Om MOND/RAR, LambdaCDM/HOD, hydrodynamiske simuleringer eller andre rammer for modificeret gravitation kan nå samme eller højere lukningsscore under samme protokol, er et meget værdifuldt næste skridt.

XII. Hvad kan P1 konkludere? Hvad kan P1 ikke konkludere?

Tabel 3 | Grænserne for P1's konklusioner

Kan konkludere	Under P1's RC+GGL-data, faste afbildning og hovedsammenligningsprotokol har EFT-familien højere fælles tilpasning og lukningsstyrke end den minimale DM_RAZOR.
Kan konkludere	Inden for P1A's lavdimensionale, efterprøvbare DM-forbedringsområde sletter flere DM-forbedringer ikke EFT_BIN’s lukningsfordel.
Kan konkludere	Den negative ombytningskontrol viser, at lukningssignalet afhænger af den korrekte afbildning på tværs af data, ikke af vilkårlige afbildninger.
Kan ikke konkludere	Det kan ikke konkluderes, at P1 har væltet alle modeller for mørkt stof. P1A udtømmer stadig ikke ikke-sfæricitet, miljøafhængighed, komplekse galakse-halo-forbindelser, højdimensionel feedback eller fulde kosmologiske simuleringer.
Kan ikke konkludere	Det kan ikke konkluderes, at den fulde EFT-teori er bevist fra første principper. P1 tester kun det fænomenologiske lag af gennemsnitlig gravitationsrespons.
Kan ikke konkludere	Det kan ikke konkluderes, at al systematik er udelukket. P1 giver kun robusthedsbevis inden for de anførte stresstest og revisionsområde.

XIII. Ofte stillede spørgsmål

Q1: Siger dette, at ”mørkt stof ikke findes”?

Nej. P1's konklusion skal begrænses til de data, den protokol og de sammenligningsmodeller, der bruges i denne artikel. P1A går ud over den minimale DM_RAZOR-basismodel, men repræsenterer stadig ikke alle mulige modeller for mørkt stof.

Q2: Siger dette, at ”EFT allerede er bevist”?

Heller ikke. P1 tester EFT som en parameteriseret gennemsnitlig gravitationsrespons og viser stærkere ydeevne i RC→GGL-lukning; mikroskopiske mekanismer og den fulde teori er ikke konklusioner i P1.

Q3: Hvorfor ikke angive signifikans direkte i σ?

P1 bruger en samlet likelihood-score, informationskriterier og lukningsforskelle. ΔlogL er en relativ fordel under samme scoringsregel; det er ikke det samme som en enkelt σ-værdi.

Q4: Hvorfor shuffle RC-bin→GGL-bin?

Det er den negative kontrol. Et reelt signal på tværs af prober bør afhænge af den korrekte afbildning. Hvis det ombyttede tilfælde forblev lige så stærkt, ville det i stedet pege på implementeringsbias eller et statistisk falsk signal.

Q5: Hvad bør P1 gøre næste gang?

Udvid den samme protokol til flere data, flere DM-kontroller, mere kompleks systematik og flere rammer for modificeret gravitation, især på måder der gør det muligt for eksterne teams at replikere det samme lukningsmål.

XIV. Miniglossar

Tabel 4 | Miniglossar

Term	Forklaring i én sætning
Rotationskurve (RC)	Radie-hastighedsrelationen i en galakseskive, brugt til at udlede effektiv gravitation i skiven.
Svag linsning (GGL)	Måler den gennemsnitlige gravitations- eller massfordeling omkring forgrundsgalakser gennem statistisk forvrængning af baggrundsgalaksers former.
Lukningstest	Bruger RC-posterioren til at forudsige GGL og sammenligner med en negativ kontrol med ombyttet afbildning.
Negativ kontrol	Bryder bevidst en nøglestruktur for at se, om signalet forsvinder; bruges til at udelukke falske signaler.
NFW-halo	En densitetsprofil for mørkt-stof-haloer, som ofte bruges i modeller for koldt mørkt stof.
c–M-relation	Relationen mellem en mørkt-stof-halos koncentration c og masse M; hvis spredning tillades, ændrer det modellens fleksibilitet.
DM_STD	I P1A er dette en standardiseret DM-stresstestgren, der kombinerer flere lavdimensionale DM-forbedringer og en linsningsnuisance.
ΔlogL	Forskel i log-likelihood mellem to modeller under samme scoringsregel; positive værdier angiver, at den førstnævnte klarer sig bedre.
Kovarians	En matrixbeskrivelse af korrelationer mellem datapunkter; data fra svag linsning kræver normalt fuld kovarians.

XV. Foreslået læserute og citeringsindgange

1. Læs først afsnit 0–2 for at fastlægge P1's spørgsmål og den tilbageholdende rolle, som EFT får i P1.

2. Se derefter på figur S3 og S4 samt tabel S1a/S1b for at forstå lukningsstyrke, fælles tilpasning og negative kontroller.

3. Hvis du er bekymret for, at DM-basismodellen er for svag, så gå direkte til afsnit 9 og tabel B1 / figur B1.

4. For teknisk replikation skal du vende tilbage til den tekniske P1-rapport v1.1, tabeller og figurtillæg samt full_fit_runpack.

Hovedindgange til arkivet

P1 teknisk rapport (publikationsklar, Concept DOI): 10.5281/zenodo.18526334

P1 fuld reproducerbarhedspakke (Concept DOI): 10.5281/zenodo.18526286

EFT struktureret vidensbase (valgfri, Concept DOI): 10.5281/zenodo.18853200

Licensnote: den tekniske rapport bruger CC BY-NC-ND 4.0; den fulde reproducerbarhedspakke bruger CC BY 4.0 (med forbehold for den tekniske rapport og Zenodo-arkivposterne).

XVI. Referencer og ekstern baggrund

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.

122.205 (+0.000)

121.236 (-0.969)

121.531 (-0.674)

129.454 (+7.249)

121.978 (-0.227)

122.056 (-0.149)

122.205 (+0.000)

105.690 (-16.515)

204.620 (+82.415)