メタのLlama系言語モデルをファインチューニングするためのデータセットをJSONフォーマットで表現する場合、以下のようなフォーマットを使用できます。
[
{
"prompt": "質問や状況の説明",
"completion": "モデルが生成すべき回答"
},
{
"prompt": "別の質問や状況の説明",
"completion": "その回答"
},
...
]
各データポイントは、以下のキーを持つオブジェクトとして表現されます。
prompt
: ユーザーの質問や状況の説明を含むテキストcompletion
: モデルが生成すべき回答のテキスト
例えば、以下のようなデータセットを作成できます。
[
{
"prompt": "東京の人口は?",
"completion": "東京都の人口は約1,392万人です。"
},
{
"prompt": "パリの人口と面積を教えてください。",
"completion": "パリの人口は約210万人で、面積は約105平方キロメートルです。"
},
{
"prompt": "私はプログラミングを学習しています。初心者におすすめの言語は何ですか?",
"completion": "初心者におすすめのプログラミング言語は、Python、JavaScriptなどが一般的です。シンプルな構文で学習しやすく、多くのリソースが利用できます。目的に合わせて最適な言語を選びましょう。"
}
]
このようなJSONファイルをファインチューニングのデータセットとして使用することで、モデルは質問に対する適切な回答を生成する能力を学習できます。
データセットの作成時には、以下のようなポイントに注意する必要があります。
- プロンプトとコンプリーションのペアが適切に対応していること
- プロンプトが明確で、コンプリーションが適切な回答であること
- 多様なトピックやタスクをカバーするようなデータセットを作成すること
- データセットのサイズが十分大きいこと
適切なデータセットを用意することで、ファインチューニングの精度が大幅に向上する可能性があります。