Back

Dataflow

Dataflow

Stamps

Initial conditions

Categories:

Google Cloud


У консолі Cloud Console на панелі інструментів угорі праворуч натисніть кнопку Open Cloud Shell (Відкрити Cloud Shell).

Натисн/p>

Налаштування та підключення до середовища триватиме кілька секунд. Щойно ви підключитеся, вас буде автентифіковано, а проект отримає ваш PROJECT_ID (ІДЕНТИФІКАТОР ПРОЕКТУ). Наприклад:

gcloud – це інструмент командного рядка для Google Cloud. Він входить у пакет Cloud Shell і підтримує функцію автозавершення клавішею TAB.

  • Щоб вивести поточне ім’я облікового запису, введіть таку команду:
     
CODE...
  • Щоб вивести ідентифікатор проекту, введіть таку команду:
CODE...

 

...
Prog

У цьому завданні ви створюєте набір даних taxirides. Це можна зробити за допомогою Google Cloud Shell або Google Cloud Console.

У ц

BigQuery – це безсерверне сховище даних. Таблиці в BigQuery впорядковуються за наборами даних. У цій практичній роботі дані про водіїв таксі надходитимуть з окремого файлу через Dataflow й зберігатимуться в BigQuery. Завдяки цій конфігурації всі нові файли даних, які розміщуються у вихідний сегмент Cloud Storage, автоматично опрацьовуватимуться для завантаження.

Щоб створити набір даних BigQuery, виберіть один із наведених нижче способів.

...
Prog

У Cloud Shell (Значок Cloud Shell) виконайте наведену нижче команду, щоб створити набір даних taxirides

CODE...

Виконайте цю команду, щобtaxirides.realtime (порожню схему, у яку ви пізніше передаватимете дані):

CODE...

 

...
Prog

У меню навігації (Меню навігації) Google Cloud Console натисніть BigQuery.

Якщо з’явиться вікно привітання, натисніть Done (Готово).

НаПереглянути дії) біля ідентифікатора проекту, а потім – Create dataset (Створити набір даних).

У полі Dataset ID (Ідентифікатор набору даних) введіть taxirides.

У полі Data location (Місцезнаходження даних) виберіть:

CODE...

Потім натисніть Create Dataset (Створити набір даних).

На панелі Explorer (Провідник) натисніть Expand node (Розгорнути вузол) (Меню розгортання), щоб відобразити новий набір даних taxirides.

Натисніть View actions (Переглянути дії) (Переглянути дії) біля набору даних taxirides і виберіть Open (Відкрити).

Натисніть Create Table (Створити таблицю).

У полі Table (Таблиця) введіть realtime.

У розділі схеми натисніть Edit as text (Редагувати як текст) і вставте наведений нижче код.
 

CODE...

У розділі Partition and cluster settings (Розділення й кластеризація) виберіть timestamp.

Натисніть Create Table (Створити таблицю).

...
Prog

У цьому завданні ви маєте перенести обов’язкові файли у свій проект.

З Cloud Storage можна зберігати будь-які об/p>

Сегмент Cloud Storage було створено для вас на етапі запуску практичної роботи.

У Cloud Shell (Значок Cloud Shell) виконайте наведені нижче команди, щоб перенести файли, необхідні для завдання Dataflow.

CODE...
...
Prog

У цьому завданні вам потрібно налаштувати конвеєр потокової обробки даних, щоб зчитувати дані файлів із сегм

Dataflow – це безсерверний інструмент аналізу даних.

Перезапустіть підключення до Dataflow API

  1. У Cloud Shell виконайте наведені нижче команди, щоб переконатися, що Dataflow API увімкнено у вашому проекті.
CODE...
...
Prog

Створіть конвеєр потокового передавання даних

  1. У меню навігації (Меню навігації) Cloud Console натисніть Dataflow.

  2. На верхн/p>

  3. У полі Job name (Назва завдання) завдання Dataflow введіть streaming-taxi-pipeline.

  4. У полі Regional endpoint (Регіональна кінцева точка) виберіть:

CODE...

 

...
Prog
  1. У меню Dataflow template (Шаблон Dataflow) виберіть шаблон Cloud Storage Text to BigQuery (Stream) у розділі Process Data Continuously (stream) (Безпере

Примітка. Виберіть варіант шаблону, який відповідає наведеним нижче параметрам.

  1. У полі The GCS location of the text you'd like to process (Розташування тексту, який потрібно обробити, у GCS) вставте або введіть:
CODE...
...
Prog
  1. У меню Dataflow template (Шаблон Dataflow) виберіть шаблон Cloud Storage Text to BigQuery (Stream) у розділі Process Data Continuously (stream) (Безпере

Примітка. Виберіть варіант шаблону, який відповідає наведеним нижче параметрам.

  1. У полі The GCS location of the text you'd like to process (Розташування тексту, який потрібно обробити, у GCS) вставте або введіть:
gs://qwiklabs-gcp-03-c9a60a8cf83c-bucket/tmp/rt_taxidata.csv

Copied!

content_copy

  1. У полі GCS location of your BigQuery schema file, described as a JSON (Розташування файлу схеми BigQuery в GCS, зазначене у файлі JSON) вставте або введіть:
qwiklabs-gcp-03-c9a60a8cf83c-bucket/tmp/schema.json

Copied!

content_copy

  1. У полі Output table to write to (Вихідна таблиця для запису) вставте або введіть:
qwiklabs-gcp-03-c9a60a8cf83c:taxirides.realtime

Copied!

content_copy

  1. У полі GCS path to javascript fn for transforming output (Шлях GCS до javascript fn для вихідних даних трансформації) вставте або введіть:
gs://qwiklabs-gcp-03-c9a60a8cf83c-bucket/tmp/transform.js

Copied!

content_copy

  1. У полі UDF JavaScript function name (Назва функції UDF JavaScript) вставте або введіть:
transform

Copied!

content_copy

Примітка. Між назвами проекту й набору даних ставиться двокрапка (:), а між назвами набору даних і таблиці – крапка (.).

  1. У полі Temporary directory for BigQuery loading process (Тимчасовий каталог для даних, які завантажуються в BigQuery) вставте або введіть:
qwiklabs-gcp-03-c9a60a8cf83c-bucket/tmp

Copied!

content_copy

  1. Натисніть Optional Parameters (Додаткові параметри).

  2. У полі Max workers (Макс. кількість робочих вузлів) введіть 2.

  3. У полі Number of workers (Кількість робочих вузлів) введіть 1.

  4. Зніміть прапорець Use default machine type (Використовувати тип машини за умовчанням).

  5. У розділі General purpose (Загальна ціль) виберіть наведені нижче налаштування.

Серія: E2
Тип машини: e2-medium (з 2 віртуальними центральними процесорами й 4 ГБ пам’яті)

  1. Натисніть Run Job (Виконати завдання).
...
Prog

У цьому завданні ви аналізуєте дані в процесі потокового передавання.

  1. У меню навігації (Меню навігації) Cloud Console натисн

  2. Якщо з’явиться вікно привітання, натисніть Done (Готово).

  3. У редакторі запитів введіть наведену нижче команду й натисніть Run (Виконати).

CODE...

 

...
Prog

У цьому завданні ви обчислюєте зведені дані потоку для звітів.

  1. У редакторі запитів очистьте поточний з/p>

  2. Скопіюйте й вставте наведений нижче запит і натисніть Run (Виконати).

CODE...

Перш ніж перейти до наступного завдання, переконайтеся, що Dataflow реєструє дані в BigQuery.

У результаті ви отримаєте основні показники щодо висадки з таксі у хвилинах.

  1. Натисніть Save (Зберегти) > Save query (Зберегти запит).

  2. У полі Name (Назва) вікна Save query (Зберегти запит) введіть My Saved Query (Мій збережений запит).

  3. Натисніть Save (Зберегти).

...
Prog

Зупиніть завдання Dataflow

На цьому етапі вам потрібно зупинити завдання Dataflow, щоб вивільнити ресурси для свог/p>

  1. У меню навігації (Меню навігації) Cloud Console натисніть Dataflow.

  2. Натисніть streaming-taxi-pipeline або назву нового завдання.

  3. Натисніть Stop (Зупинити) і виберіть Cancel (Скасувати) > Stop Job (Зупинити завдання).

...
Prog

Створіть інформаційну панель, що працює в реальному часі

У цьому завданні ви створюєте інформаційну панель

  1. У меню навігації (Меню навігації) Cloud Console натисніть BigQuery.

  2. На панелі Explorer (Провідник) розгорніть меню з ідентифікатором проекту.

  3. Розгорніть меню Saved queries (Збережені запити) і натисніть My Saved Query (Мій збережений запит).

Запит завантажиться в редакторі.

  1. Натисніть Run (Виконати).

  2. У BigQuery натисніть Explore Data (Переглянути дані) > Explore with Looker Studio (Переглянути в Looker Studio).

     

    Відкриється Looker Studio. Натисніть Get started (Почати).

  3. У вікні Looker Studio натисніть гістограму.

(Гістограма)

З’явиться панель діаграми.

  1. Натисніть Add a chart (Додати діаграму) і виберіть Combo chart (Комбінована діаграма).

     

    Комбінована діаграма

  2. На панелі Setup (Налаштування) у розділі Data Range Dimension (Параметр діапазону дат) наведіть курсор на опцію minute (Date) і натисніть X, щоб вилучити її.

  3. На панелі Data (Дані) натисніть параметр dashboard_sort і перетягніть його: Setup (Налаштування) > Data Range Dimension (Параметр діапазону дат) > Add dimension (Додати параметр).

  4. У розділі Setup (Налаштування) > Dimension (Параметр) натисніть minute і виберіть dashboard_sort.

  5. У розділі Setup (Налаштування) > Metric (Показник) натисніть dashboard_sort і виберіть total_rides.

  6. У розділі Setup (Налаштування) > Metric (Показник) натисніть Record Count (Підрахунок записів) і виберіть total_passengers.

  7. У розділі Setup (Налаштування) > Metric (Показник) натисніть Add metric (Додати показник) і виберіть total_revenue.

  8. У розділі Setup (Налаштування) > Sort (Сортування) натисніть total_rides і виберіть dashboard_sort.

  9. У розділі Setup (Налаштування) > Sort (Сортування) натисніть Ascending (У порядку зростання).

Ваша діаграма має виглядати приблизно так:

Приклад діаграми

Примітка. Наразі в Looker Studio не можна налаштувати візуалізацію даних із похвилинною деталізацією за допомогою позначки часу. Саме тому ми створили власний параметр dashboard_sort.

  1. Завершивши налаштування інформаційної панелі, натисніть Save and share (Зберегти й поділитися), щоб зберегти це джерело даних.

  2. Якщо з’явиться запит завершити створення облікового запису, прийміть Умови використання й натисніть Continue (Продовжити).

  3. Якщо з’явиться запит стосовно типу оновлень, які ви б хотіли отримувати, укажіть no (ні) для всіх пропозицій, а потім натисніть Continue (Продовжити).

  4. Якщо з’явиться вікно Review data access before saving (Перевірка інформації про доступ до даних перед збереженням), натисніть Acknowledge and save (Підтвердити й зберегти).

  5. Якщо з’явиться запит вибрати обліковий запис, виберіть свій обліковий запис студента.

  6. Натисніть Add to report (Додати у звіт).

  7. Інформаційна панель завжди міститиме дані про останні транзакції. Щоб перевірити, натисніть More options (Інші опції) (Інші опції), а потім – Refresh data (Оновити дані).

...
Prog

У цьому завданні ви створюєте діаграму часових рядів.

  1. Натисніть це посилання Looker Studio, щоб відкрити Looker St

  2. У розділі Start with a Template (Використати шаблон) на сторінці Reports (Звіти) натисніть шаблон [+] Blank Report (Пустий звіт).

  3. Відкриється новий пустий звіт із вікном Add data to report (Додайте дані у звіт).

  4. У списку Google Connectors (Конектори Google) виберіть BigQuery.

  5. Натисніть Custom Query (Спеціальний запит) і виберіть ідентифікатор свого проекту. Запит відображатиметься в такому форматі: qwiklabs-gcp-xxxxxxx.

  6. У полі Enter Custom Query (Введіть власний запит) вставте наведену нижче команду.

CODE...

 

  1. Натисніть Add (Додати) > Add To Report (Додати у звіт).

     

    З’явиться новий звіт без назви. Зміни відобразяться на екрані протягом хвилини.

...
Prog

Final conditions:

;

Organize your work