Dette er en meningsytring. Innholdet gir uttrykk for forfatters mening.

Tijmen Dijkstra ser en ny mandag morgen med generativ kunstig intelligens.

Kunstig intelligens i behandlingsrommet

- Pasienten sitter foran deg med en diagnose og en behandlingsplan. Ikke fra en kollega, ikke fra en henvisning, men fra ChatGPT. Dette er ikke fremtiden, dette er den nye mandag morgen, skriver innleggsforfatter.

Skrevet av Tiemen Dijkstra, fysioterapeut hos Behandlerverket Ski & Løren. Ingen interessekonflikt oppgitt.

Som beskrevet i Sondre Solbergs meningsytring fører det til mange utfordringer å være fysioterapeut i dagens samfunn. Innlegg fra Mette Borgen og Preeti Agarwal tar tråden videre og drøfter kunstig intelligens (KI) som en av de nye utfordringer pasienter og fysioterapeuter møter. Debatten om KI i fysioterapi har løftet fram viktige spørsmål om ansvar, kvalitet og profesjonsidentitet. I denne meningsytring belyser vi debatten fra et evidensbasert perspektiv. KI har potensial, men har ennå ikke fortjent en selvstendig plass i klinisk praksis.

Nye utfordringer

Pasienten sitter foran deg med en diagnose og en behandlingsplan. Ikke fra en kollega, ikke fra en henvisning, men fra ChatGPT. Dette er ikke fremtiden, dette er den nye mandag morgen.

Ifølge World Health Organisation (WHO) har KI stort potensielt bruksområde innen helsevesenet, men for å virkelig utnytte det trenger vi en bedre forståelse av KI (1). Det er akkurat her debatten av tidligere innlegg tilspisses. Dagens fysioterapeuter bør vurdere KIs råd med utgangspunkt i faglig evidens.

Kunstig intelligens i utvikling

Det finnes mange varianter av KI, og selve prinsippene har vært i utvikling i mer enn 70 år (2). Eksempler finnes overalt, fra Netflix anbefalinger hjemme til journalstøtte på jobb. En variant som er i vinden er generativ kunstig intelligens (GKI), brukt for å lage innhold som tekst (ChatGPT, Claude, osv.) eller video (Sora). Slike chatbots har blitt populært blant mange, og blir stadig oftere brukt av helsepersonell og pasienter.

Bruken av GKI i helsevesenet reiser spørsmål som treffer profesjonen på flere nivåer. For fysioterapeuten handler det om profesjonsidentitet: hva er min rolle når teknologien overtar deler av det faglige arbeidet, og hvor går grensen mellom støtte og ansvarsfraskriving? For pasienten aktualiseres bioetiske dilemmaer. Som WHO påpeker, trenger vi bedre forståelse av KI for å kunne ta bevisste valg om hvordan vi bruker det, og ikke minst når vi ikke bør bruke det (1).

Tekniske begrensinger av generativ kunstig intelligens

Chatbots med GKI bruker en Large Language Model (LLM) for å svare på et spørsmål eller oppgave (prompt). En LLM har ingen bevissthet, men fungerer ved hjelp av sannsynlighetsfordeling i et treningsdata-set. Det vil si at modellen tar inn en prompt og bruker algoritmer for å gjennomgå treningsdata (som bøker eller websites) og kartlegger slik hvilket ord som høyst sannsynlig vil følge (3).

Denne tekniske bakgrunnen legger begrensninger hva gjelder svarets kvalitet. For det første kan svaret inneholde feil eller gammel informasjon, grunnet feil eller utdatert informasjon i treningsdata. For det andre handler det mye om hvordan man formulerer prompts. Åpne prompts kan for eksempel gi mye mer informasjon enn lukkende prompts. I hvor stor grad begge to faktorer påvirker kvaliteten kommer an på modell-versjonen, som heldigvis blir bedre og bedre (4).

Evidens for bruk av generativ kunstig intelligens i fysioterapi

PubMed viser en 130% økning fra 2022 til 2025 i antall treff på "Physiotherapy AND Artificial Intelligence”, noe som tyder på en betydelig vekst i forskning. Det er likevel viktig å merke seg at denne veksten ikke er ensbetydende med sterk evidens. Mye forskning har fortsatt en hypotetisk tilnærming. Bare 2 Randomized Controlled Trials for GKI og fysioterapi ble funnet i PubMed 18.05.2026, og bare 27 (av 1776 hits) for GKI og helse generelt.

Kvaliteten av evidensen begrenses ytterligere av at studier ofte bruker standardiserte prompts i evalueringen av GKI svar, noe som ikke speiler realistiske kliniske samtaler. Brukere med lavere helse- eller teknologiforståelse opplever GKI for eksempel som mer negativt (5). Dette kan igjen være med på å forklare at eksperter vurderer verktøyet mer positivt enn pasienter (6).

Kvaliteten av svar er en avgjørende faktor for hvilke implikasjoner GKI kan få i klinisk praksis. Dersom GKI er brukt som chatbot for fysioterapeutiske prompts viser forskning at LLM-er sliter med komplekse prompts. For eksempel omfattende skade, særlig med komorbiditet (7). Svarene kan også være ufullstendige eller lite tilpasset til situasjonen (7–9).

Det finnes motstridende funn hva gjelder samsvar mellom GKI-svar og forskjellige kliniske retningslinjer. I noen diagnosegrupper samsvarer svarene godt (7), mens man i andre finner det motsatte (10).

Interessant nok påvirker dette ikke altid nødvendigvis sluttresultatet i særlig grad. Generelt sett er svarene trygge og tilstrekkelig, selv om kvaliteten på svarene kan variere (9,11). En mulig forklaring er at informasjonen oftere er mangelfull enn direkte feil (8,12). Chatbots anbefaler dessuten selv å ta kontakt med helsepersonell dersom nødvendig (13).

Implikasjoner av evidens

Grunnet begrensinger nevnt over anbefales ekspertevaluering av GKI bruk i klinisk sammenheng (9,11). Uten slik evaluering kan GKI utgjøre en risiko for en rekke bioetiske problemstillinger.

GKI sliter med komorbiditet og kompleksitet, noe som preger helsevesenet i stor grad. Dette fører til et åpent spørsmål om teknologi i praksis kan både forenkle og komplisere forholdene for både pasient og fysioterapeut.

Forskning anbefaler bruk av rammeverk for å ivareta bioetiske hensyn og sikre tilstrekkelige svar som del av ekspertvaluering. Rammeverk utvikles i mangfold og tar som utgangspunkt de grunnleggende begrensingene som har blitt belyst her:

● Bioetikk og regulatorisk bevissthet, som også beskrevet av Preeti Agarwal

● Prompt-optimalisering

● Bevissthet rundt innholdskvaliteten som er begrenset av treningsdata

Forskning er kritisk til bruk av chatbots og anbefaler å ikke bruke dem som frittstående verktøy, ennå. Det er likevel verdt å løfte blikket og se hva alternativet til GKI faktisk er i en kritisk vurdering. Forskning viser at GKI leverer informasjon av bedre kvalitet enn Google søk (14), og at en kompetanseterskel 60-70% hos mennesker ofte aksepteres som tilstrekkelig (15). Selv om det ikke endrer den konklusjonen at man burde unngå å bruke GKI som frittstående verktøy i klinisk arbeid, minner det etter min mening om at vi bør møte utfordringen med nysgjerrighet, heller enn frykt.

Referanser

1. Ethics and Governance of Artificial Intelligence for Health: Large Multi-Modal Models. WHO Guidance. 1st ed. Geneva: World Health Organization; 2024. 1 p.

2. What Is Artificial Intelligence (AI)? | IBM [Internet]. [cited 2026 Feb 23]. Available from: https://www.ibm.com/think/topics/artificial-intelligence

3. Stryker C. What Are Large Language Models (LLMs)? | IBM [Internet]. 2021 [cited 2026 May 18]. Available from: https://www.ibm.com/think/topics/large-language-models

4. Deng L, Wang T, Yangzhang null, Zhai Z, Tao W, Li J, et al. Evaluation of large language models in breast cancer clinical scenarios: a comparative analysis based on ChatGPT-3.5, ChatGPT-4.0, and Claude2. Int J Surg. 2024 Apr 1;110(4):1941–50. doi:10.1097/JS9.0000000000001066 PubMed PMID: 38668655; PubMed Central PMCID: PMC11019981.

5. Rosen D, Zwanzig D, Vogel B, Erhart M, Reiter NL. Physical therapists’ perspectives on a large language model-powered knowledge translation tool for guideline adherence: A qualitative focus group study. Physiother Theory Pract. 2026 Jan 6;1–14. doi:10.1080/09593985.2025.2606058 PubMed PMID: 41496316.

6. Qiang S, Zhang H, Liao Y, Zhang Y, Gu Y, Wang Y, et al. Application of Large Language Models in Stroke Rehabilitation Health Education: 2-Phase Study. J Med Internet Res. 2025 Jul 22;27:e73226. doi:10.2196/73226 PubMed PMID: 40694436; PubMed Central PMCID: PMC12306586.

7. Safran E, Yildirim S. A cross-sectional study on ChatGPT’s alignment with clinical practice guidelines in musculoskeletal rehabilitation. BMC Musculoskelet Disord. 2025 Apr 24;26(1):411. doi:10.1186/s12891-025-08650-8 PubMed PMID: 40275229; PubMed Central PMCID: PMC12023614.

8. Chung SM, Chang MC. Assessment of the information provided by ChatGPT regarding exercise for patients with type 2 diabetes: a pilot study. BMJ Health Care Inform. 2024 Jul 4;31(1):e101006. doi:10.1136/bmjhci-2023-101006 PubMed PMID: 38964828; PubMed Central PMCID: PMC11227747.

9. Negrini F, Malfitano C, Ferriero G, Morone G, Negrini A, Zaina F, et al. Evaluating ChatGPT-4.0’s accuracy and potential in idiopathic scoliosis conservative treatment: a preliminary study on clarity, validity, and expert perceptions. Eur Spine J Off Publ Eur Spine Soc Eur Spinal Deform Soc Eur Sect Cerv Spine Res Soc. 2025 Jul 21. doi:10.1007/s00586-025-09166-4 PubMed PMID: 40689984.

10. Bernal-Utrera C, Bravo-Vázquez A, Montero-Bancalero FJ, Suárez-Vega A, Casuso-Holgado MJ, Anarte-Lazo E. Evaluation of ChatGPT accuracy and reliability in answering questions about exercise recommendations for breast cancer survivors. Physiotherapy. 2026 Mar;130:101838. doi:10.1016/j.physio.2025.101838 PubMed PMID: 41270301.

11. Van Eecke E, Schroven W, Vanderstappen M, Grewal S, van den Bekerom MPJ. Appraisal of ChatGPT’s responses to common patient questions regarding acromioclavicular joint dislocations. JSES Rev Rep Tech. 2025 Nov;5(4):616–20. doi:10.1016/j.xrrt.2025.06.020 PubMed PMID: 41179397; PubMed Central PMCID: PMC12573632.

12. Basharat A, Shah R, Wilcox N, Tur G, Tripati S, Kansal P, et al. ChatGPT and low back pain - Evaluating AI-driven patient education in the context of interventional pain medicine. Interv Pain Med. 2025 Sep;4(3):100636. doi:10.1016/j.inpm.2025.100636 PubMed PMID: 40978326; PubMed Central PMCID: PMC12444463.

13. Rutkowski SM, Galán-Mercant A. Artificial intelligence in rehabilitation: comparing OpenAI ChatGPT recommendations to evidence-based meta-analyses. Physiother Rev. 2023;27(4):5–16.

14. Oeding JF, Lu AZ, Mazzucco M, Fu MC, Taylor SA, Dines DM, et al. ChatGPT-4 Performs Clinical Information Retrieval Tasks Using Consistently More Trustworthy Resources Than Does Google Search for Queries Concerning the Latarjet Procedure. Arthrosc J Arthrosc Relat Surg Off Publ Arthrosc Assoc N Am Int Arthrosc Assoc. 2025 Mar;41(3):588–97. doi:10.1016/j.arthro.2024.05.025 PubMed PMID: 38936557.

15. Geneş M. Reply to Letter to the Editor: Artificial Intelligence in Cardiac Rehabilitation: Evaluating ChatGPT’s Knowledge Level and Responses to Clinical Scenarios-Uncorrected Proof. Turk Kardiyol Dernegi Arsivi Turk Kardiyol Derneginin Yayin Organidir. 2025 Sep 1;53(6):458–9. doi:10.5543/tkda.2025.77137 PubMed PMID: 40631719.

 

 

 

 

Powered by Labrador CMS