Streaming
Потоковая передача ответа для мгновенного отображения.
Как это работает
Без streaming:
Запрос → [ожидание 2-5 сек] → Полный ответ
С streaming:
Запрос → токен → токен → токен → ... → [DONE]
↓ ↓ ↓
0.1s 0.2s 0.3s
Включение streaming
{
"model": "anthropic/claude-sonnet-4-5-20250929",
"messages": [{"role": "user", "content": "Напиши рассказ"}],
"stream": true
}
Формат ответа (SSE)
Server-Sent Events — каждый чанк приходит как отдельное событие:
data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1706745600,"model":"anthropic/claude-sonnet-4-5-20250929","choices":[{"index":0,"delta":{"role":"assistant"},"finish_reason":null}]}
data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1706745600,"model":"anthropic/claude-sonnet-4-5-20250929","choices":[{"index":0,"delta":{"content":"Привет"},"finish_reason":null}]}
data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1706745600,"model":"anthropic/claude-sonnet-4-5-20250929","choices":[{"index":0,"delta":{"content":"!"},"finish_reason":null}]}
data: {"id":"chatcmpl-123","object":"chat.completion.chunk","created":1706745600,"model":"anthropic/claude-sonnet-4-5-20250929","choices":[{"index":0,"delta":{},"finish_reason":"stop"}]}
data: [DONE]
Примеры кода
cURL
curl https://api.aipomogator.ru/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $API_KEY" \
-d '{
"model": "anthropic/claude-sonnet-4-5-20250929",
"messages": [{"role": "user", "content": "Расскажи историю"}],
"stream": true
}'
Python
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.aipomogator.ru/v1"
)
stream = client.chat.completions.create(
model="anthropic/claude-sonnet-4-5-20250929",
messages=[{"role": "user", "content": "Расскажи историю"}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
JavaScript/TypeScript
import OpenAI from 'openai';
const client = new OpenAI({
apiKey: 'YOUR_API_KEY',
baseURL: 'https://api.aipomogator.ru/v1',
});
const stream = await client.chat.completions.create({
model: 'anthropic/claude-sonnet-4-5-20250929',
messages: [{ role: 'user', content: 'Расскажи историю' }],
stream: true,
});
for await (const chunk of stream) {
const content = chunk.choices[0]?.delta?.content;
if (content) {
process.stdout.write(content);
}
}
JavaScript (браузер)
const response = await fetch('https://api.aipomogator.ru/v1/chat/completions', {
method: 'POST',
headers: {
'Content-Type': 'application/json',
'Authorization': 'Bearer YOUR_API_KEY',
},
body: JSON.stringify({
model: 'anthropic/claude-sonnet-4-5-20250929',
messages: [{ role: 'user', content: 'Расскажи историю' }],
stream: true,
}),
});
const reader = response.body.getReader();
const decoder = new TextDecoder();
while (true) {
const { done, value } = await reader.read();
if (done) break;
const chunk = decoder.decode(value);
const lines = chunk.split('\n');
for (const line of lines) {
if (line.startsWith('data: ') && line !== 'data: [DONE]') {
const data = JSON.parse(line.slice(6));
const content = data.choices[0]?.delta?.content;
if (content) {
document.getElementById('output').textContent += content;
}
}
}
}
Streaming с Extended Thinking
При использовании thinking моделей, thinking блоки приходят первыми:
stream = client.chat.completions.create(
model="anthropic/claude-sonnet-4-20250514-thinking",
messages=[{"role": "user", "content": "Реши уравнение x² - 4 = 0"}],
reasoning_effort="high",
stream=True
)
for chunk in stream:
delta = chunk.choices[0].delta
if hasattr(delta, 'content') and delta.content:
for block in delta.content:
if block.get('type') == 'thinking':
print(f"[Thinking] {block.get('thinking')}")
elif block.get('type') == 'text':
print(f"[Answer] {block.get('text')}")
Usage в streaming
Информация об использовании токенов приходит в последнем чанке:
{
"id": "chatcmpl-123",
"choices": [{"index": 0, "delta": {}, "finish_reason": "stop"}],
"usage": {
"prompt_tokens": 10,
"completion_tokens": 50,
"total_tokens": 60
}
}
Когда использовать streaming
Рекомендуется:
- Чат-интерфейсы (UX)
- Длинные ответы
- Интерактивные приложения
Не рекомендуется:
- Batch-обработка
- Когда нужен полный JSON сразу
- При слабом соединении