이 페이지의 이전 버전을 보고 있습니다. 현재 버전 보기.

현재와 비교 페이지 이력 보기

« 이전 버전 4 다음 »

원문

번역

When I've been building applications with large language models, I don't think I've ever come to the prompt that I ended up using in the final application on my first attempt. And this isn't what matters. As long as you have a good process to iteratively make your prompt better, then you'll be able to come to something that works well for the task you want to achieve.  You may have heard me say that when I train a machine learning model, it almost never works the first time. In fact, I'm very surprised that the first model I trained works. I think we're prompting, the odds of it working the first time is maybe a little bit higher, but as he's saying, doesn't matter if the first prompt works, what matters most is the process for getting to prompts that works for your application. So with that, let's jump into the code and let me show you some frameworks to think about how to iteratively develop a prompt. All right. So, if you've taken a machine learning class with me before, you may have seen me use a diagram saying that with machine learning development, you often have an idea and then implement it. So, write the code, get the data, train your model, and that gives you an experimental result. And you can then look at that output, maybe do error analysis, figure out where it's working or not working, and then maybe even change your idea of exactly what problem you want to solve or how to approach it. And then change implementation and run another experiment and so on, and iterate over and over to get to an effective machine learning model. If you're not familiar with machine learning, haven't seen this diagram before, don't worry about it. Not that important for the rest of this presentation. But when you are writing prompts to develop an application using an LLM, the process can be quite similar, where you have an idea for what you want to do, the task you want to complete, and you can then take a first attempt at writing a prompt that hopefully is clear and specific, and maybe, if appropriate, gives the system time to think. And then you can run it and see what result you get. And if it doesn't work well enough the first time, then the iterative process of figuring out why the instructions, for example, were not clear enough, or why it didn't give the algorithm enough time to think, allows you to refine the idea, refine the prompt, and so on, and to go around this loop multiple times until you end up with a prompt that works for your application.  This too is why I personally have not paid as much attention to the internet articles that say 30 perfect prompts, because I think, there probably isn't a perfect prompt for everything under the sun. It's more important that you have a process for developing a good prompt for your specific application. So, let's look at an example together in code. I have here the starter code that you saw in the previous videos, have import OpenAI, import OS. Here we get the OpenAI API key, and this is the same helper function that you saw as last time. And I'm going to use as the running example in this video, the task of summarizing a fact sheet for a chair. So, let me just paste that in here. And feel free to pause the video and read this more carefully in the notebook on the left if you want. But here's a fact sheet for a chair with a description saying it's part of a beautiful family of mid-century inspired, and so on. It talks about the construction, has the dimensions, options for the chair, materials, and so on. It comes from Italy. 

대규모 언어 모델을 사용하여 애플리케이션을 빌드할 때 첫 번째 시도에서 최종 애플리케이션에서 사용하게 되었다는 메시지가 표시되지 않은 것 같습니다. 그리고 이것은 중요한 것이 아닙니다. 반복적으로 프롬프트를 개선할 수 있는 좋은 프로세스가 있는 한 달성하려는 작업에 잘 맞는 것을 찾을 수 있습니다. 제가 기계 학습 모델을 학습시킬 때 처음에는 거의 작동하지 않는다는 말을 들어 보셨을 것입니다. 사실 저는 제가 훈련시킨 첫 번째 모델이 작동한다는 사실에 매우 놀랐습니다. 나는 우리가 메시지를 보내고 있다고 생각합니다. 처음에 작동할 확률은 조금 더 높을 수 있지만 그가 말했듯이 첫 번째 메시지가 작동하는지 여부는 중요하지 않습니다. 가장 중요한 것은 작동하는 메시지에 도달하는 프로세스입니다. 너의 어플리케이션. 이제 코드로 넘어가 프롬프트를 반복적으로 개발하는 방법에 대해 생각해 볼 수 있는 몇 가지 프레임워크를 보여드리겠습니다. 괜찮은. 따라서 이전에 저와 함께 기계 학습 수업을 수강한 적이 있다면 제가 다이어그램을 사용하여 기계 학습 개발을 통해 아이디어를 얻은 다음 구현하는 경우가 많다는 것을 보셨을 것입니다. 따라서 코드를 작성하고 데이터를 가져오고 모델을 학습시키면 실험 결과를 얻을 수 있습니다. 그런 다음 해당 출력을 보고, 오류 분석을 수행하고, 작동하는 위치와 작동하지 않는 위치를 파악한 다음, 정확히 어떤 문제를 해결하거나 접근하는 방법에 대한 아이디어를 변경할 수도 있습니다. 그런 다음 구현을 변경하고 다른 실험 등을 실행하고 반복해서 반복하여 효과적인 기계 학습 모델에 도달합니다. 기계 학습에 익숙하지 않거나 이전에 이 다이어그램을 본 적이 없다면 걱정하지 마세요. 이 프레젠테이션의 나머지 부분에서는 그다지 중요하지 않습니다. 하지만 LLM을 사용하여 애플리케이션을 개발하기 위한 프롬프트를 작성하는 경우 프로세스는 매우 유사할 수 있습니다. 수행하려는 작업, 완료하려는 작업에 대한 아이디어가 있는 경우 첫 번째 작성 시도를 할 수 있습니다. 명확하고 구체적이며 적절한 경우 시스템에 생각할 시간을 주는 프롬프트입니다. 그런 다음 실행하여 어떤 결과를 얻을 수 있는지 확인할 수 있습니다. 그리고 처음에 제대로 작동하지 않는 경우, 예를 들어 지침이 명확하지 않은 이유 또는 알고리즘이 생각할 시간을 충분히 주지 않은 이유를 파악하는 반복 프로세스를 통해 개선할 수 있습니다. 아이디어, 프롬프트 수정 등을 수행하고 애플리케이션에 적합한 프롬프트가 나올 때까지 이 루프를 여러 번 반복합니다. 이것이 제가 개인적으로 완벽한 프롬프트 30개라는 인터넷 기사에 많은 관심을 기울이지 않은 이유입니다. 태양 아래 모든 것에 완벽한 프롬프트는 없을 것이라고 생각하기 때문입니다. 특정 애플리케이션에 적합한 프롬프트를 개발하기 위한 프로세스가 있는 것이 더 중요합니다. 그럼 코드로 함께 예제를 살펴보겠습니다. 여기에는 이전 동영상에서 본 시작 코드가 있으며 OpenAI 가져오기, OS 가져오기가 있습니다. 여기서 우리는 OpenAI API 키를 얻습니다. 이것은 지난번에 본 것과 동일한 도우미 기능입니다. 이 동영상에서는 의자에 대한 사실 자료를 요약하는 작업을 실행 예로 사용하겠습니다. 그냥 여기에 붙여넣겠습니다. 원하는 경우 동영상을 일시중지하고 왼쪽 노트북에서 자세히 읽어보세요. 하지만 다음은 세기 중반의 아름다운 가족의 일부라는 설명이 포함된 의자 정보 시트입니다. 구성에 대해 이야기하고 치수, 의자 옵션, 재료 등이 있습니다. 그것은 이탈리아에서 온다.

So, let's say you want to take this fact sheet and help a marketing team write a description for an online retail website. Let me just quickly run these three, and then we'll come up with a prompt as follows, and I'll just... and I'll just paste this in. So my prompt here says, your task is to help a marketing team create the description for a retail website with a product based on a techno fact sheet, write a product description, and so on. Right? So this is my first attempt to explain the task to the large language model. So let me hit shift-enter, and this takes a few seconds to run, and we get this result. It looks like it's done a nice job writing a description, introducing a stunning mid-century inspired office chair, perfect addition, and so on. But when I look at this, I go, boy, this is really long. It's done a nice job doing exactly what I asked it to, which is start from the technical fact sheet and write a product description. But when I look at this, I go, this is kind of long. Maybe we want it to be a little bit shorter. So, I have had an idea, I wrote a prompt, got a result. I'm not that happy with it because it's too long. So, I will then clarify my prompt and say, use at most 50 words to try to give better guidance on the desired length of this. And let's run it again. Okay. This actually looks like a much nicer short description of the product, introducing a mid-century inspired office chair, and so on. Five of you just, yeah, both stylish and practical. Not bad. And let me double check the length that this is. So, I'm going to take the response, split it according to where the space is, and then, you know, print out the length. So it's 52 words. It's actually not bad. Large language models are okay, but not that great at following instructions about a very precise word count. But this is actually not bad. Sometimes it will print out something with 60 or 65 and so on words, but it's kind of within reason. Some of the things you could try to do would be, to say use at most three sentences. Let me run that again. But these are different ways to tell the large language model, what's the length of the output that you want. So this is 1, 2, 3, I count three sentences, looks like I did a pretty good job. And then I've also seen people sometimes do things like, I don't know, use at most 280 characters. Large language models, because of the way they interpret text, using something called a tokenizer, which I won't talk about. But they tend to be so-so at counting characters. But let's see, 281 characters. It's actually surprisingly close. Usually a large language model is, doesn't get it quite this close. But these are different ways that you can play with to try to control the length of the output that you get. But let me just switch it back to use at most 50 words. And there's that result that we had just now. As we continue to refine this text for our websites, we might decide that, boy, this website isn't selling direct to consumers, is actually intended to sell furniture to furniture retailers that would be more interested in the technical details of the chair and the materials of the chair. In that case, you can take this prompt and say, I want to modify this prompt to get it to be more precise about the technical details. So let me keep on modifying this prompt. And I'm going to say, this description is intended for furniture retailers, so should be technical and focus on materials, products and constructed from, well, let's run that. And let's see. Not bad, says, you know, coated aluminum base and pneumatic chair, high-quality materials. So by changing the prompt, you can get it to focus more on specific characters, on specific characteristics you wanted to.

따라서 이 사실 자료를 가지고 마케팅 팀이 온라인 소매 웹사이트에 대한 설명을 작성하는 것을 돕고 싶다고 가정해 보겠습니다. 이 세 가지를 빠르게 실행하면 다음과 같은 메시지가 표시됩니다. 그냥... 붙여넣겠습니다. 마케팅 팀은 테크노 팩트 시트를 기반으로 제품이 있는 소매 웹사이트에 대한 설명을 작성하고 제품 설명을 작성하는 등의 작업을 수행합니다. 오른쪽? 그래서 이것은 큰 언어 모델에 작업을 설명하려는 첫 번째 시도입니다. Shift-Enter를 누르면 실행하는 데 몇 초가 걸리며 다음과 같은 결과가 표시됩니다. 설명을 잘 작성하고 세기 중반에서 영감을 받은 멋진 사무용 의자, 완벽한 추가 등을 소개한 것 같습니다. 근데 이거 보면 진짜 존나 길다. 기술 팩트 시트에서 시작하여 제품 설명을 작성하는 등 요청한 대로 정확하게 수행되었습니다. 하지만 이걸 보면 좀 길어지네요. 아마도 우리는 그것이 조금 더 짧기를 원할 것입니다. 그래서 아이디어가 있었고 프롬프트를 작성했고 결과를 얻었습니다. 너무 길어서 마음에 들지 않습니다. 그래서 제 메시지를 명확히 하고 원하는 길이에 대해 더 나은 안내를 제공하기 위해 최대 50단어를 사용한다고 말할 것입니다. 다시 실행해 보겠습니다. 좋아요. 이것은 실제로 세기 중반에서 영감을 받은 사무용 의자 등을 소개하는 제품에 대한 훨씬 더 멋진 짧은 설명처럼 보입니다. 다섯 명은 정말 세련되고 실용적입니다. 나쁘지 않다. 길이를 다시 한 번 확인하겠습니다. 그래서 응답을 받아 공간이 어디에 있는지에 따라 나눈 다음 길이를 출력하겠습니다. 그래서 52 단어입니다. 실제로 나쁘지 않습니다. 큰 언어 모델은 괜찮지만 매우 정확한 단어 수에 대한 지침을 따르는 데 그다지 능숙하지 않습니다. 그러나 이것은 실제로 나쁘지 않습니다. 때로는 60개 또는 65개 등의 단어로 무언가를 출력하지만, 이는 일종의 이유가 있습니다. 시도할 수 있는 작업 중 일부는 최대 세 문장을 사용하는 것입니다. 다시 실행하겠습니다. 그러나 이는 대규모 언어 모델에 원하는 출력 길이를 알려주는 다른 방법입니다. 그래서 이것은 1, 2, 3이고 세 문장을 세는데 꽤 잘한 것 같습니다. 그리고 가끔 사람들이 잘 모르겠지만 최대 280자를 사용하는 것을 보았습니다. 큰 언어 모델은 토크나이저라고 하는 것을 사용하여 텍스트를 해석하는 방식 때문입니다. 이에 대해서는 언급하지 않겠습니다. 하지만 문자 수를 세는 데는 그저 그런 경향이 있습니다. 하지만 281자를 보자. 정말 놀라울 정도로 가깝습니다. 일반적으로 대형 언어 모델은 이렇게 근접하지 않습니다. 하지만 이는 얻을 수 있는 출력의 길이를 제어하기 위해 사용할 수 있는 다른 방법입니다. 하지만 최대 50단어를 사용하도록 다시 전환하겠습니다. 그리고 우리가 방금 얻은 결과가 있습니다. 웹사이트용으로 이 텍스트를 계속 수정하면서 이 웹사이트는 소비자에게 직접 판매하는 것이 아니라 실제로는 의자의 기술적 세부사항에 더 관심이 있는 가구 소매업체에 가구를 판매하기 위한 것이라고 결정할 수 있습니다. 의자의 재료. 이 경우 이 메시지를 보고 이 메시지를 수정하여 기술 세부정보를 더 정확하게 설명하고 싶다고 말할 수 있습니다. 이 프롬프트를 계속 수정하겠습니다. 이 설명은 가구 소매업체를 위한 것이므로 기술적인 설명이어야 하며 재료, 제품 및 구성에 초점을 맞춰야 합니다. 실행해 보겠습니다. 그리고 보자. 코팅된 알루미늄 베이스와 공압식 의자, 고품질 소재는 나쁘지 않습니다. 따라서 프롬프트를 변경하면 특정 캐릭터, 원하는 특정 특성에 더 집중할 수 있습니다.

 And when I look at this, I might decide at the end of the description, I also wanted to include the product ID. So the two offerings of this chair, SWC 110, SWC 100. So, maybe I can further improve this prompt. And to get it to give me the product IDs, I can add this instruction at the end of the description, include every 7-character product ID in the technical specification, and let's run it, and see what happens. And so, it says, introduce you to our Miss Agents 5 office chair, shell colors, talks about plastic coating, aluminum base, practical, some options, talks about the two product IDs. So, this looks pretty good. And what you've just seen is a short example of the iterative prompt development that many developers will go through. And I think, a guideline is, in the last video, you saw Isa share a number of best practices, and so, what I usually do is keep best practices like that in mind, be clear and specific, and if necessary, give the model time to think. With those in mind, it's worthwhile to often take a first attempt at writing a prompt, see what happens, and then go from there to iteratively refine the prompt to get closer and closer to the result that you need. And so, a lot of the successful prompts that you may see used in various programs was arrived at at an iterative process like this. Just for fun, let me show you an example of a even more complex prompt that might give you a sense of what chatGPT can do, which is, I've just added a few extra instructions here. After the description, include a table that gives the product dimensions, and then, you know, format everything as HTML. So, let's run that.  And in practice, you end up with a prompt like this, really only after multiple iterations. I don't think I know anyone that would write this exact prompt the first time they were trying to get the system to process a fact sheet. And so, this actually outputs a bunch of HTML. Let's display the HTML to see if this is even valid HTML and see if this works. And I don't actually know it's going to work, but let's see. Oh, cool. All right. Looks like it rendered. So, it has this really nice looking description of a chair, construction, materials, product dimensions.  Oh, it looks like I left out the use at most 50 words instruction, so this is a little bit long, but if you want that, you know, you can even feel free to pause the video, tell it to be more succinct and regenerate this and see what results you get. So, I hope you take away from this video that prompt development is an iterative process. Try something, see how it does not yet, fulfill exactly what you want, and then think about how to clarify your instructions, or in some cases, think about how to give it more space to think to get it closer to delivering the results that you want. And I think, the key to being an effective prompt engineer isn't so much about knowing the perfect prompt, it's about having a good process to develop prompts that are effective for your application. And in this video, I illustrated developing a prompt using just one example. For more sophisticated applications, sometimes you will have multiple examples, say a list of 10 or even 50 or 100 fact sheets, and iteratively develop a prompt and evaluate it against a large set of cases. But for the early development of most applications, I see many people developing it sort of the way I am, with just one example, but then for more mature applications, sometimes it could be useful to evaluate prompts against a larger set of examples, such as to test different prompts on dozens of fact sheets to see how is average or worst case performances on multiple fact sheets. But usually, you end up doing that only when an application is more mature, and you have to have those metrics to drive that incremental last few steps of prompt improvement. So with that, please do play with the Jupyter Code notebook examples and try out different variations and see what results you get. And when you're done, let's go on to the next video, where we'll talk about one very common use of large language models in software applications, which is to summarize text. So when you're ready, let's go on to the next video. 

그리고 이것을 보면 설명 끝에 제품 ID도 포함하고 싶다고 결정할 수 있습니다. 그래서 이 의자의 두 가지 제품인 SWC 110, SWC 100입니다. 따라서 이 프롬프트를 더 개선할 수 있습니다. 제품 ID를 제공하려면 설명 끝에 이 지침을 추가하고 기술 사양에 7자로 된 제품 ID를 모두 포함하고 실행하여 어떤 일이 발생하는지 확인해 보겠습니다. 그래서 Miss Agents 5 사무실 의자 소개, 쉘 색상, 플라스틱 코팅에 대한 이야기, 알루미늄 베이스, 실용적인, 몇 가지 옵션, 두 가지 제품 ID에 대한 이야기입니다. 그래서 이것은 꽤 좋아 보입니다. 방금 본 것은 많은 개발자가 거치게 될 반복적인 신속한 개발의 간단한 예입니다. 지침은 지난 동영상에서 Isa가 여러 모범 사례를 공유하는 것을 보셨기 때문에 저는 일반적으로 이와 같은 모범 사례를 염두에 두고 명확하고 구체적으로 설명하고 필요한 경우 생각하는 모델 시간. 이를 염두에 두고 프롬프트 작성을 처음 시도하고 어떤 일이 발생하는지 확인한 다음 거기에서 프롬프트를 반복적으로 구체화하여 필요한 결과에 점점 더 가까워지는 것이 좋습니다. 따라서 다양한 프로그램에서 볼 수 있는 많은 성공적인 프롬프트가 이와 같은 반복 프로세스에 도달했습니다. 재미를 위해 chatGPT가 무엇을 할 수 있는지에 대한 감각을 제공할 수 있는 훨씬 더 복잡한 프롬프트의 예를 보여 드리겠습니다. 즉, 여기에 몇 가지 추가 지침을 추가했습니다. 설명 뒤에 제품 크기를 제공하는 표를 포함하고 모든 형식을 HTML로 지정합니다. 자, 실행해 봅시다. 실제로는 여러 번 반복한 후에야 이와 같은 프롬프트가 표시됩니다. 시스템이 팩트 시트를 처리하도록 처음 시도했을 때 이 정확한 프롬프트를 작성할 사람을 아는 사람은 없을 것 같습니다. 그래서 이것은 실제로 많은 HTML을 출력합니다. HTML을 표시하여 이것이 유효한 HTML인지 확인하고 이것이 작동하는지 확인해 보겠습니다. 실제로 작동할지는 모르겠지만, 봅시다. 오, 멋지다. 괜찮은. 렌더링 된 것 같습니다. 의자, 구성, 재료, 제품 치수에 대한 정말 멋진 설명이 있습니다. 아, 최대 50단어 사용 지침을 생략한 것 같아서 조금 길지만 원하는 경우 동영상을 일시중지할 수도 있습니다. 더 간결하고 이것을 재생성하고 어떤 결과를 얻는지 확인하십시오. 따라서 신속한 개발은 반복적인 과정이라는 점을 이 동영상에서 벗어나시기 바랍니다. 무언가를 시도하고, 아직 어떻게 되지 않는지 확인하고, 원하는 것을 정확히 이행한 다음, 지침을 명확히 하는 방법에 대해 생각하거나, 경우에 따라 원하는 결과를 제공하는 데 더 가까워질 수 있도록 생각할 공간을 더 많이 제공하는 방법에 대해 생각하세요. 당신이 원하는. 효과적인 프롬프트 엔지니어가 되기 위한 핵심은 완벽한 프롬프트를 아는 것이 아니라 애플리케이션에 효과적인 프롬프트를 개발하는 좋은 프로세스를 갖추는 것입니다. 이 동영상에서는 하나의 예를 사용하여 프롬프트를 개발하는 방법을 설명했습니다. 보다 정교한 애플리케이션의 경우 때로는 10개 또는 50개 또는 100개의 팩트 시트 목록과 같이 여러 예시가 있을 수 있으며 반복적으로 프롬프트를 개발하고 대규모 사례 집합에 대해 평가합니다. 그러나 대부분의 애플리케이션의 초기 개발에서는 많은 사람들이 저와 같은 방식으로 하나의 예를 사용하여 개발하는 것을 봅니다. 그러나 더 성숙한 애플리케이션의 경우 때로는 더 큰 예시 세트에 대해 프롬프트를 평가하는 것이 유용할 수 있습니다. 수십 개의 팩트 시트에서 다양한 프롬프트를 테스트하여 여러 팩트 시트에서 평균 또는 최악의 성능이 어떤지 확인합니다. 그러나 일반적으로 애플리케이션이 더 성숙한 경우에만 그렇게 하게 되며 즉각적인 개선의 마지막 몇 단계를 점진적으로 추진하려면 이러한 측정항목이 있어야 합니다. 따라서 Jupyter 코드 노트북 예제를 가지고 놀면서 다양한 변형을 시도하고 어떤 결과를 얻는지 확인하십시오. 완료되면 다음 동영상으로 이동하여 소프트웨어 애플리케이션에서 대규모 언어 모델의 매우 일반적인 용도 중 하나인 텍스트 요약에 대해 이야기하겠습니다. 준비가 되면 다음 동영상으로 넘어가겠습니다.

Iterative Prompt Develelopment

In this lesson, you'll iteratively analyze and refine your prompts to generate marketing copy from a product fact sheet.


Setup










  • 레이블 없음