[OPR] Kutzner/Schindler: Writing a Fairy Tale with a Little Help of ChatGPT – Experiences of Fourth Graders

On this page you can download the discussion paper that was submitted for publication in the Journal for Media Linguistics. The blogstract summarises the submission in a comprehensible manner. You can comment on the discussion paper and the blogstract below this post. Please use your real name for this purpose. For detailed comments on the discussion paper please refer to the line numbering of the PDF.


Discussion Paper (PDF)

Blogstract of

Writing a Fairy Tale with a Little Help of ChatGPT — Experiences of Fourth Graders

by Alyssa Kutzner & Kirsten Schindler

“I am a primary student in fourth-grade. I want to write a fairy tale. Tell me 15 figures I could use”. In this or another way student writers address ChatGPT while writing their text – a creative fairy tale of their own – collaboratively. This study explores how young learners engage with generative language models like ChatGPT– not just by consuming their output, but by learning to talk to them. Through a detailed analysis of 92 prompts and their resulting texts, we take a closer look at what we call “prompt literacy”: the emerging skill of knowing how to phrase questions and requests in ways that guide the AI to produce useful, creative, or context-sensitive responses.

In our article, we propose a methodological approach for analysing chat protocols with a special focus on the input the writers produce. We also suggest understanding writing prompts as a new writing strategy (i.e. “prompt literacy”) writers have to establish. To support this writing strategy, insights into AI-based writing processes are crucial. Chat procedures are a possible path in doing so. Rather than treating prompts as incidental, this research systematically categorises the structures students used. We distinguish between imperative requests (“Tell me five names”), yes-no questions (“Do you have an idea for a fairy tale?”), and wh-questions (“What rhymes with Enis?”) – all of which reflect different communicative intentions. To make sense of these, we developed a simple rule-based schema that encodes each prompt in functional components like [operator], [amount], [recipient], [object], or [condition]. This allows us to uncover how children structure their requests, quantify expectations, and specify features – all while playing with language in surprisingly purposeful ways. Mostly, the students use the chatbot as a source of inspiration, information or revision. Some of their requests, such as “give me 599999 titles for my fairy tale”, are less productive but in most cases the writers use elaborate requests or questions for the non-human addressee.

But the story doesn’t end with prompts. We also analysed how students used (or chose not to use) the content they received in return. Some groups adopted AI-generated names or titles word-for-word. Others modified the suggestions to better fit their own narrative ideas. Still others ignored the model’s output altogether, treating it as a kind of silent collaborator: useful for inspiration, but not for actual content.

So what does this tell us? First, that prompting is more than asking questions – it’s a form of design. Students are learning to shape their own ideas through dialogue with AI. Second, even very young users are capable of using generative tools critically and creatively. And third, AI can function not only as a writer, but as a co-author, companion, or even invisible muse, depending on how students decide to work with it. As educators and designers of future learning environments, we should be paying attention. Prompt literacy is a real, teachable skill and one that will become increasingly relevant as generative tools continue to evolve. This study offers a first step toward understanding how children learn to speak to machines and how those conversations, in turn, help them tell stories.

4 Replies to “[OPR] Kutzner/Schindler: Writing a Fairy Tale with a Little Help of ChatGPT – Experiences of Fourth Graders”

  1. Sara RezatSeptember 28, 2025 at 13:37Reply

    In their article, the two authors investigate how fourth-grade students utilise ChatGPT for writing Fairy tales. 
    With this article, the authors address an area that is relevant not only in terms of learning and teaching writing, but also in relation to educational policy decisions. Analyzing how young writers use ChatGPT when writing fairy tales is an interesting endeavor. The insights provided offer a comprehensive and nuanced perspective on the diverse range of prompts employed by fourth graders. 
    The introduction to the article mentions several research questions, some of which exhibit a pronounced normative character. I would suggest focusing the article on analyzing the students‘ prompts in order to make statements about prompt literacy. 
    Consequently, it would be advisable to align the title of the article more closely with the prompting.
    The theoretical framework is appropriate and forms a suitable basis for the methodological part. The theoretical section begins by providing a good overview of the educational policy situation and the implementation of AI in schools in Germany. This is followed by explanations of prompting, giving readers a good overview of the different types of prompts. 
    The present study explores the notion of prompts as a form of text procedure, with the aim of providing a comprehensive description of the structures that underpin this concept. The distinction between the corresponding communicative functions (command, demand, etc.) is readily evident. In contrast to the text procedure approach (Feilke/Rezat 2025), however, a very detailed pattern analysis takes place.
    The method and data are presented in a clear and comprehensible manner. The article’s limitations, particularly those relating to technical developments, are explicitly outlined.
    The empirical data has been analysed in great detail, and the results are highly informative. The authors reveal the construction of the prompts and differentiate between various linguistic structures. The analysis of the prompts demonstrates an emphasis on linguistic structure, which is a positive aspect. A subsequent analysis of the prompts would have been interesting, in order to examine whether the learners formulate prompts that relate to content/thematic support for Fairy tale writing or to linguistic support for Fairy tale writing.
    The analysis of the prompts takes up a large part of the article, whereas the case studies are rather short and are not related to the respective prompts. It is suggested that the article would benefit from the removal of the case studies and instead the analysis of the prompts in more detail with regard to prompts that relate to content/thematic support vs. linguistic support.
    Although the two case studies provide an interesting insight into how the students dealt with the AI output, unfortunately, no connection is made to the corresponding prompts. The question of whether the learners‘ texts consist primarily of ChatGPT output or whether the learners formulate them independently could be addressed in a separate essay. That would certainly be worthwhile. 
     
    I recommend to publish the article after minor revisions. 
     
    Comments relating to text sections/lines: 
    5-7: The introduction begins with a normative question that is regarded as critical and which cannot be answered by data analysis. From my perspective, a purely descriptive approach is sufficient, with a focus on the central questions formulated in lines 8-13.
     
    30-35: It is not clear to me which of the questions mentioned are to be answered in concrete terms („some of these…”). More specificity would certainly be helpful here.
     

    195-199: If applicable, mention the study by Niloy et al. (2025) here: Niloy, A. C., Akter, S., Sultana, N., Sultana, J. & Rahman, S. I. U. (2024). Is Chatgpt a menace for creative writing ability? An experiment. Journal of Computer Assisted Learning, 40(2), 919-930. https://doi.org/10.1111/jcal.12929

     
    292-293: The key features of a Fairy tale reflect the didactic customs in this area. Perhaps this should be mentioned.
     
    442-444: Can you give an example for the prompt procedures? 
     
    774-777: Perhaps the lack of human-human interaction norms also reflects the fact that one is communicating with an artifact and not a human being? Is it implicitly suggested here that one should communicate with AI as one would with a human being?
     
    995-998: I would delete this question (see explanation above). 

    1. Alyssa KutznerFebruar 10, 2026 at 12:37Reply

      We would like to thank the reviewer for the thorough reading of our manuscript and for the constructive and thoughtful comments. We greatly appreciate the engagement with our work and have revised the manuscript accordingly. Our responses are provided below.

      Comment: Sharpen the title with regard to prompting

      Response: The title has been revised to:“Writing a Fairy Tale with a Little Help of ChatGPT – Prompting Experiences of Fourth-Graders”.

      Comment: Expand or remove the case studies of the texts

      Response:

      The case studies have been retained as illustrative examples demonstrating how pupils adopt or transform AI output.
      We appreciate this suggestion; however, a systematic linkage between prompts and a full text analysis lies beyond the scope of this article.

      Comment: Revise the questions in the introduction (lines 5–7)

      Response: The questions in the introduction have been revised (now lines 73–80).

      Comment: Specify the answers to the questions (lines 30–35)

      Response: The responses to the questions have been clarified and the entire paragraph has been rephrased (now lines 94–112).

      Comment: Add literature reference (Niloy et al., 2024) (lines 195–199)

      Response: The reference to Niloy et al. (2024) has been added (now lines 99 & 257).

      Comment: Add reference to didactic practice (lines 292–293)

      Response: A reference to didactic practice has been included (now lines 343–344).

      Comment: Add examples of prompt procedures (lines 442–444)

      Response: Examples of prompt procedures have been added (now lines 477–482; similar examples were also added in lines 487–494).

      Comment: Refine interpretation of human–human vs. human–artefact communication (lines 774–777)

      Response: The interpretation has been refined (now lines 777–785).

      Comment: Remove question (lines 995–998)

      Response: The question and the entire first paragraph of the conclusion have been revised (now lines 975–988).

       
      *****
       
      Wir danken der Gutachterin herzlich für die sorgfältige Lektüre unseres Manuskripts sowie für die konstruktiven und differenzierten Hinweise. Wir schätzen die intensive Auseinandersetzung mit unserer Arbeit sehr und haben das Manuskript entsprechend überarbeitet. Die Antworten auf die einzelnen Anmerkungen sind nachfolgend aufgeführt.

      Kommentar: Titel in Bezug auf das Prompting schärfen

      Antwort: Der Titel wurde angepasst zu:„Writing a Fairy Tale with a Little Help of ChatGPT – Prompting Experiences of Fourth-Graders“.

      Kommentar: Fallstudien der Texte ausweiten oder streichen

      Antwort:

      Die Fallstudien werden als exemplarische Illustrationen beibehalten, die zeigen, wie Schüler:innen KI-Output übernehmen bzw. transformieren.
      Wir danken für diesen Hinweis; eine systematische Prompt-Text-Verknüpfung einschließlich vollständiger Textanalyse liegt jedoch außerhalb des Umfangs des Beitrags.

      Kommentar: Fragen in der Einleitung anpassen (Z. 5–7)

      Antwort: Die Fragen in der Einleitung wurden angepasst (jetzt Z. 73–80).

      Kommentar: Beantwortung der Fragen konkretisieren (Z. 30–35)

      Antwort: Die Beantwortung der Fragen wurde konkretisiert und der gesamte Absatz umformuliert (jetzt Z. 94–112).

      Kommentar: Ergänzung der Literatur (Niloy et al. 2024) (Z. 195–199)

      Antwort: Die Literatur wurde ergänzt (jetzt Z. 99 & 257).

      Kommentar: Ergänzung des Hinweises auf didaktische Praxis (Z. 292–293)

      Antwort: Der Hinweis wurde ergänzt (jetzt Z. 343–344).

      Kommentar: Ergänzung von Beispielen der prompt procedures (Z. 442–444)

      Antwort: Beispiele der prompt procedures wurden ergänzt (jetzt Z. 477–482; eine analoge Ergänzung von Beispielen erfolgte auch in Z. 487–494).

      Kommentar: Schärfung der Interpretation der human-human vs. human-artefact communication (Z. 774–777)

      Antwort: Die Interpretation wurde geschärft (jetzt Z. 777–785).

      Kommentar: Frage streichen (Z. 995–998)

      Antwort: Die Frage bzw. der erste Absatz der Conclusion wurde überarbeitet (jetzt Z. 975–988).

  2. RedaktionOktober 27, 2025 at 09:41Reply

    Review by: Sylvia Bendel Larcher

    Recommendation: publish 

     

    Alyssa Kutzner und Kirsten Schindler berichten von einer Untersuchung, die sowohl für die Schreibforschung als auch für die Forschung zu AI-Literacy von grosser Bedeutung ist. Sie haben untersucht, wie Schülerinnen und Schüler (SuS) der vierten Klasse ChatGPT beim Schreiben eines Märchens als Schreibhilfe nutzen. Zu betonen ist, dass die SuS das Märchen selber schreiben mussten und ChatGPT nur beratend zu Hilfe nehmen durften, etwa für das Generieren von Titeln oder Märchenfiguren. Damit wird allfälligen kritischen Stimmen gegenüber dem Einsatz von GKI in der Grundschule vorgebeugt, die befürchten, dass die Kinder gar nicht mehr selber schreiben.

    Untersucht werden die 92 eingesetzten Prompts und die fertigen Märchen von 11 Zweiergruppen. Das ist ein kleines Sample, sodass die Studie als explorativ einzustufen ist. Die Prompts werden einer minutiösen linguistischen Analyse unterzogen. Am häufigsten werden Prompts mit Imperativen formuliert (über 50% der Fälle), gefolgt von Prompts in der Form einer Ja-/Nein-Frage mit ebenfalls direktivem Charakter und schliesslich Prompts mit einem Fragepronomen. Das Überraschendste an diesem Resultat ist die Tatsache, dass die SuS nicht die im Aufgabendossier vorgeschlagenen Prompts übernehmen, sondern eigene formulieren. Das zeugt von einer gewissen Unabhängigkeit der SuS sowie einer bereits in Ansätzen vorhandenen AI-Literacy.

    Bei den weiterführenden Detailanalysen besteht eine gewisse Tendenz zur Überinter-pretation der doch kleinen Fallzahlen. Wenn zum Beispiel in Tabelle 9 die absolute Zahl von 2 Fällen als «40%» ausgewiesen wird, so ist das eher irreführend als erhellend. Ich würde empfehlen, in diesem Teil auf Prozentzahlen zu verzichten (oder die Tabellen gleich ganz wegzulassen) und in knappen Worten zu berichten, dass drei Schülergruppen ausführlichere Prompts benutzen.

    Eine Stärke der Untersuchung von Kutzner und Schindler besteht darin, dass sie nicht nur die Prompts der SuS untersucht haben, sondern auch die entstandenen Märchen-texte. Diesbezüglich enttäuscht der vorliegende Beitrag allerdings. Es werden lediglich kursorisch die Übernahme- und Adaptionsstrategien von zwei Gruppen beschrieben. Von den anderen Gruppen erfahren die Lesenden nichts, was sehr bedauerlich ist. 

    Ebenso fehlt jeglicher Hinweis darauf, wie gut die Texte der SuS schlussendlich waren, ob die SuS das Lernziel, ein Märchen zu schreiben, erreicht haben. Ebenso spannend wäre die Frage, ob die Märchen durch den Einsatz von ChatGPT an Qualität gewonnen haben. Diese Frage lässt sich mit dem vorliegenden Datensatz natürlich nicht beantworten. 

    Insgesamt lässt sich aufgrund der vorgestellten Daten nicht ansatzweise abschätzen, ob der Einsatz von ChatGPT den SuS irgendetwas «gebracht» hat, ob sie a) etwas in Bezug auf die Nutzung von ChatGPT und b) etwas in Bezug auf das Schreiben eines narrativen Textes gelernt haben. Für Lehrpersonen sind aber genau das die entscheidenden Fragen: Haben die SuS die Lernziele erreicht? Was haben sie gelernt? Wie gut ist das Resultat? Die Ausführungen zu den teilweise absurden Zahlen, die die Kinder in den Prompts eingesetzt haben, lassen an der Ernsthaftigkeit der Auseinandersetzung mit ChatGPT Zweifel aufkommen und dürften von den Autorinnen noch kritischer eingeordnet werden.

    Insofern lässt sich in Bezug auf den Inhalt bilanzieren: Der Beitrag zeigt fundiert auf, über welche Prompt-Strategien SuS der vierten Klasse verfügen, was ein wichtiger Hinweis auf ihre AI-Literacy ist. Die relevanten Fragen in Bezug auf die Schreibdidaktik bleiben aber unbeantwortet.

    Der Schlussfolgerung der Autorinnen, dass das Schreiben von Prompts auch eine Form des Schreibenlernens darstellt und dass der Einsatz von GKI in der Grundschule sinnvoll sein kann, ist trotzdem zuzustimmen.

    Formal und sprachlich lässt der Beitrag keine Wünsche offen. Er stützt sich auf aktuelle Literatur, was bei diesem Thema besonders anspruchsvoll ist, da die Forschung mit der technischen Entwicklung kaum Schritt halten kann. Allenfalls könnte man noch den Anschluss an die internationale Forschung zum Promptingverhalten suchen. Ich erlaube mir, am Schluss des Gutachtens drei Titel mit auf den Weg zu geben.

    Zum Schluss zwei Details: Im Abschnitt 2.2 (ab Zeile 215) werden verschiedene Formen von Prompts unterschieden. Auf diese Unterscheidung wird später nicht mehr zurück-gegriffen. Ich empfehle, entweder in Kapitel 4 darauf zurückzukommen oder die Ausführungen in Abschnitt 2.2 wegzulassen. 

    Im Beitrag wird manchmal von «pupils» und manchmal von «students» gesprochen. Um Irreführungen zu vermeiden, empfehle ich, konsequent von «pupils» zu sprechen, wenn Kinder aus der obligatorischen Schulzeit gemeint sind.

    Da der Beitrag wissenschaftlich solide verfasst wurde, kann er auch ohne grössere Änderungen publiziert werden. Er würde aber gewinnen, wenn Kapitel 4.1 gekürzt, Kapitel 4.2 ausgebaut und einige der offenen Fragen beantwortet würden.

     

    Weiterführende Literatur zum Prompten

    Desmond, Michael, und Michelle Brachman. 2024. „Exploring Prompt Engineering Practices in the Enterprise“. arXiv: 2403.08950v1  

    Knoth, Nils, Antonia Tolzin, Andreas Janson, und Jan Marco Leimeister. 2024. „AI literacy and its implications for prompt engineering strategies“. Computers and Education: Artificial Intelligence 6(100225). doi: https://doi.org/10.1016/j.caeai.2024.100225

    Tibau, Marcelo, Sean Siqueira, und Bernardo Nunes. 2024. „ChatGPT for chatting and searching: Repurposing search behavior“. Library and Information Science Research 46. doi: https://doi.org/10.1016/j.lisr.2024.101331

    1. Alyssa KutznerFebruar 10, 2026 at 12:21Reply

      We would like to thank the reviewer for the thorough reading of our manuscript and for the constructive and thoughtful comments. We greatly appreciate the engagement with our work and have revised the manuscript accordingly. Our responses are provided below.

      Comment: Avoid percentages to prevent “over-interpretation”

      Response: 

      Percentages have been removed from Tables 2, 3, 4, 6, 8, and 10. 
      Percentages have been retained in Tables 5, 7, and 9.

      Comment: Criticism of the very brief text/product analysis (only two case studies) and missing linkage between prompts and resulting texts; request for statements on text quality, attainment of learning objectives, possible learning effects (“does it make a difference”), and a more critical interpretation of “absurd” prompt requests/numbers

      Response:

      The focus of the article remains on analysing prompt strategies as part of prompt literacy / AI literacy
      While we appreciate this suggestion, a systematic evaluation of text quality, comparison with writing without ChatGPT, and conclusions regarding learning gains or attainment of learning objectives lies beyond the scope of this article.
      The case studies have been retained as illustrative and complementary insights into adoption/adaptation strategies (clarification added in the blogstract, lines 51–58). 
      Regarding numerical values in prompts: very high values are interpreted as playful exploration and boundary-testing of the AI rather than a lack of seriousness (see lines 903–913).

      Comment: Forms of prompts should be omitted (Section 2.2)

      Response: The distinction between prompt forms has been retained as a theoretical and methodological framing. Although it is not systematically revisited in Chapter 4, it supports understanding of the prompt-centred analytical focus.

      Comment: Use “pupils” consistently to avoid confusion

      Response:This has been implemented consistently throughout the manuscript.

      Comment: Recommendation to include further literature (Desmond & Brachman 2024; Knoth et al. 2024; Tibau et al. 2024)

      Response: 

      Desmond & Brachman (2024) have been included (now line 988).
      Knoth et al. (2024) have been included (now line 102).
      While we appreciate the suggestion, Tibau et al. (2024) has not been included, as its relevance to the focus of the present study was considered limited.

       
      *****
       
      Wir danken der Gutachterin herzlich für die sorgfältige Lektüre unseres Manuskripts sowie für die konstruktiven und differenzierten Hinweise. Wir schätzen die intensive Auseinandersetzung mit unserer Arbeit sehr und haben das Manuskript entsprechend überarbeitet. Die Antworten auf die einzelnen Anmerkungen sind nachfolgend aufgeführt.

      Kommentar: Auf Prozentzahlen verzichten, um „Überinterpretation“ zu vermeiden

      Antwort: 

      Prozentzahlen wurden in Tabellen 2, 3, 4, 6, 8 und 10 entfernt.
      Prozentzahlen wurden in Tabellen 5, 7 und 9 beibehalten.

      Kommentar: Kritik an sehr knapper Text-/Produktanalyse sowie fehlender Verknüpfung zwischen Prompts und Texten; Wunsch nach Aussagen zur Textqualität, Lernzielerreichung und möglichen Lernwirkungen („bringt es etwas“) sowie kritischerer Einordnung „absurder“ Prompt-Anfragen/Zahlen

      Antwort:

      Der Schwerpunkt des Beitrags soll auf der Analyse von Prompt-Strategien als Teil von prompt literacy / AI literacy liegen.
      Wir danken für diesen Hinweis; eine systematische Qualitätsbewertung der Texte, ein Vergleich mit Schreiben ohne ChatGPT sowie Aussagen zu Lernzuwachs oder Lernzielerreichung liegen jedoch außerhalb des Umfangs dieses Artikels.
      Die Fallstudien werden als exemplarische und ergänzende Einblicke in Übernahme-/Adaptionsstrategien beibehalten (Hinweis ergänzt im Blogstract, Z. 51–58). 
      Zu den Zahlen in Prompts: Sehr hohe Werte interpretieren wir als spielerisches Explorieren und Grenzentesten der KI, nicht als mangelnde Ernsthaftigkeit (vgl. Z. 903–913).

      Kommentar: Formen von Prompts sollten weggelassen werden (Abschnitt 2.2)

      Antwort: Wir behalten die Unterscheidung der Promptformen als theoretisch-methodische Rahmung bei. Auch wenn sie in Kapitel 4 nicht systematisch erneut aufgegriffen wird, unterstützt sie das Verständnis des promptzentrierten Analysefokus.

      Kommentar: Um Irreführungen zu vermeiden, sollte konsequent von pupils geschrieben werden

      Antwort: Pupils wurde konsequent übernommen und der gesamte Artikel entsprechend überarbeitet.

      Kommentar: Empfehlung zu weiterführender Literatur (Desmond/Brachman 2024; Knoth et al. 2024 und Tibau et al. 2024)

      Antwort: 

      Desmond/Brachman (2024) wurde aufgenommen (jetzt Z. 988).
      Knoth et al. (2024) wurde aufgenommen (jetzt Z. 102).
      Wir danken für diesen Vorschlag; Tibau et al. (2024) wurde jedoch nicht aufgenommen, da die Relevanz für den Fokus des vorliegenden Beitrags als begrenzt eingeschätzt wurde.

Schreibe einen Kommentar zu Alyssa Kutzner Antwort abbrechen

Bitte nutzen Sie Ihren Klarnamen für Kommentare.
Please use your real name for comments.