Streaming

Потоковая передача ответа для мгновенного отображения.

Как это работает

Без streaming:

Запрос → [ожидание 2-5 сек] → Полный ответ

С streaming:

Запрос → токен → токен → токен → ... → [DONE]
         ↓        ↓        ↓
       0.1s     0.2s     0.3s

Включение streaming

{
  "model": "anthropic/claude-sonnet-4-5-20250929",
  "messages": [{"role": "user", "content": "Напиши рассказ"}],
  "stream": true
}

Формат ответа (SSE)

Server-Sent Events — каждый чанк приходит как отдельное событие:

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1706745600,"model":"anthropic/claude-sonnet-4-5-20250929","choices":[{"index":0,"delta":{"role":"assistant"},"finish_reason":null}]}

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1706745600,"model":"anthropic/claude-sonnet-4-5-20250929","choices":[{"index":0,"delta":{"content":"Привет"},"finish_reason":null}]}

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1706745600,"model":"anthropic/claude-sonnet-4-5-20250929","choices":[{"index":0,"delta":{"content":"!"},"finish_reason":null}]}

data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1706745600,"model":"anthropic/claude-sonnet-4-5-20250929","choices":[{"index":0,"delta":{},"finish_reason":"stop"}]}

data: [DONE]

Примеры кода

cURL

curl https://api.aipomogator.ru/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "anthropic/claude-sonnet-4-5-20250929",
    "messages": [{"role": "user", "content": "Расскажи историю"}],
    "stream": true
  }'

Python

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.aipomogator.ru/v1"
)

stream = client.chat.completions.create(
    model="anthropic/claude-sonnet-4-5-20250929",
    messages=[{"role": "user", "content": "Расскажи историю"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

JavaScript/TypeScript

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'YOUR_API_KEY',
  baseURL: 'https://api.aipomogator.ru/v1',
});

const stream = await client.chat.completions.create({
  model: 'anthropic/claude-sonnet-4-5-20250929',
  messages: [{ role: 'user', content: 'Расскажи историю' }],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content;
  if (content) {
    process.stdout.write(content);
  }
}

JavaScript (браузер)

const response = await fetch('https://api.aipomogator.ru/v1/chat/completions', {
  method: 'POST',
  headers: {
    'Content-Type': 'application/json',
    'Authorization': 'Bearer YOUR_API_KEY',
  },
  body: JSON.stringify({
    model: 'anthropic/claude-sonnet-4-5-20250929',
    messages: [{ role: 'user', content: 'Расскажи историю' }],
    stream: true,
  }),
});

const reader = response.body.getReader();
const decoder = new TextDecoder();

while (true) {
  const { done, value } = await reader.read();
  if (done) break;

  const chunk = decoder.decode(value);
  const lines = chunk.split('\n');

  for (const line of lines) {
    if (line.startsWith('data: ') && line !== 'data: [DONE]') {
      const data = JSON.parse(line.slice(6));
      const content = data.choices[0]?.delta?.content;
      if (content) {
        document.getElementById('output').textContent += content;
      }
    }
  }
}

Streaming с Extended Thinking

При использовании thinking моделей, thinking блоки приходят первыми:

stream = client.chat.completions.create(
    model="anthropic/claude-sonnet-4-20250514-thinking",
    messages=[{"role": "user", "content": "Реши уравнение x² - 4 = 0"}],
    reasoning_effort="high",
    stream=True
)

for chunk in stream:
    delta = chunk.choices[0].delta
    if hasattr(delta, 'content') and delta.content:
        for block in delta.content:
            if block.get('type') == 'thinking':
                print(f"[Thinking] {block.get('thinking')}")
            elif block.get('type') == 'text':
                print(f"[Answer] {block.get('text')}")

Usage в streaming

Информация об использовании токенов приходит в последнем чанке:

{
  "id": "chatcmpl-123",
  "choices": [{"index": 0, "delta": {}, "finish_reason": "stop"}],
  "usage": {
    "prompt_tokens": 10,
    "completion_tokens": 50,
    "total_tokens": 60
  }
}

Когда использовать streaming

Рекомендуется:

Чат-интерфейсы (UX)
Длинные ответы
Интерактивные приложения

Не рекомендуется:

Batch-обработка
Когда нужен полный JSON сразу
При слабом соединении

Как это работает​

Включение streaming​

Формат ответа (SSE)​

Примеры кода​

cURL​

Python​

JavaScript/TypeScript​

JavaScript (браузер)​

Streaming с Extended Thinking​

Usage в streaming​

Когда использовать streaming​