ディレクトリ構造と開発要件 - AIオートマクロ仕様書

本システムのUIとロジックを完全に疎結合化し、各モジュールの関心事を分離するための「ソースコード構成」と、実行時に生成される「データ構成」を定義します。

8.1. ソースコードのディレクトリ構成 (src/)

アプリケーション本体の設計構造です。UI層、ビジネスロジック層(Core)、外部エンジン層を明確に分離しています。

8.2. 実行時データと生成マクロのディレクトリ構成 (macros/)

ユーザーがマクロを記録・生成する際に動的に作られるデータ領域です。特に一時データ（temp）のライフサイクル管理を厳格に行います。

📁 マクロ関連ディレクトリとファイルの役割・ライフサイクル

macros/wf_*/ (マクロルート)
1つのマクロにつき1つ作成されるカプセル化されたフォルダです。画像の参照パスなどを相対的に保ちます。
workflow.json / integrated.json / images/ (永続データ)
AI生成フェーズ完了後も残り続ける最終成果物です。実行エンジンや自己修復プロセスが参照します。
temp/ (一時データ領域)
記録中・解析中に各エンジンが取得した「生データ」を一時的に退避させる場所です。
- 【生成タイミング】 記録（OS Hook）時、およびGeneratorからYOLO/OCRへ解析リクエストを送った直後。
- 【破棄タイミング】 Generator層が生データを読み込み integrated.json と workflow.json を生成した直後に、ディレクトリごと完全に削除（自動破棄）されます。これによりJSONの冗長化やディスク容量の圧迫を防ぎます。

8.3. ローカルAIサーバーの起動・管理設計 (ADR)

YOLOやLLMなどのAIモデルは、プロセスの立ち上げからVRAMへのモデル展開（重みのロード）までに数十秒の時間を要します。UXを維持しタイムアウトを防ぐため、マクロ生成時ではなく「デスクトップアプリ起動時」にバックグラウンドで事前起動（ウォームアップ）させておく設計を採用します。

🖥️ 独立プロセスによるサーバー管理 (LocalServerManager)

UIスレッド（PySide6）のフリーズを完全に防止するため、Pythonの subprocess モジュールを利用して完全に独立したプロセスとして推論サーバーを立ち上げます。アプリ終了時には atexit を用いて確実にプロセスをクリーンアップします。config.jsonを読み込み、LLMとCV（YOLO/OCR）それぞれのホスト指定がローカルである場合のみ、該当するサーバープロセスを起動します。

# engines/manager.py
# @role: Manages the lifecycle of local AI API servers as independent background processes.

import subprocess
import os
import atexit
import json
from typing import List

class LocalServerManager:
    def __init__(self) -> None:
        self._processes: List[subprocess.Popen] = []

    def start_servers(self) -> None:
        # Load custom connection settings to determine if local servers are needed.
        config_path = 'config.json'
        ai_mode = 'local'
        llm_host = '127.0.0.1'
        llm_port = '8844'
        cv_host = '127.0.0.1'
        cv_port = '8843'

        if os.path.exists(config_path):
            try:
                with open(config_path, 'r', encoding='utf-8') as f:
                    config = json.load(f)
                    ai_mode = config.get('ai_mode', 'local')
                    llm_host = config.get('llm_host', '127.0.0.1')
                    # Fallback to default port if explicitly empty
                    llm_port = config.get('llm_port', '8844') or '8844'
                    cv_host = config.get('cv_host', '127.0.0.1')
                    cv_port = config.get('cv_port', '8843') or '8843'
            except Exception:
                pass

        env = os.environ.copy()

        # Start LLM server if local mode is selected and host points to local machine
        if ai_mode == 'local' and llm_host in ['127.0.0.1', 'localhost']:
            llm_cmd = ['python', '-m', 'uvicorn', 'engines.llm.server:app', '--port', llm_port]
            llm_proc = subprocess.Popen(llm_cmd, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
            self._processes.append(llm_proc)

        # Start CV server independently if host points to local machine
        if cv_host in ['127.0.0.1', 'localhost']:
            yolo_cmd = ['python', '-m', 'uvicorn', 'engines.yolo.server:app', '--port', cv_port]
            yolo_proc = subprocess.Popen(yolo_cmd, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
            self._processes.append(yolo_proc)

        atexit.register(self.stop_servers)

    def stop_servers(self) -> None:
        for p in self._processes:
            if p.poll() is None:
                p.terminate()
        self._processes.clear()

8.4. ネットワーク設計とアプリケーション開発要件

🔌 ポート設計と役割分担

Computer Vision API (YOLO / OCR): ポート 8843
画像解析の処理負荷とメモリを効率化するため、物体検出(YOLO)とテキスト認識(OCR)は同一サーバー（ポート8843）で稼働させ、エンドポイントで機能を分岐させます。
LLM API (マクロ生成用AI): ポート 8844
コンテキストからマクロコードを生成する言語モデル（LLM）は、画像処理とは完全に独立したポート（8844番等）で稼働させます。

🌍 柔軟なエンドポイント設計 (設定画面駆動)

AIの実体をどこで動かすかは、ホーム画面の設定エリアから変更されたIPアドレスやドメイン名（config.jsonに永続化）を基に、ソースコードを書き換えることなく透過的に切り替えられる設計とします。

ローカルPC駆動: 127.0.0.1 または localhost を指定し、ユーザーのPC内で全て完結させる構成。LocalServerManagerが作動し、ローカルのVRAM上にモデルを展開します。
ローカルネットワーク(LAN)別サーバー駆動: 192.168.x.x 等のプライベートIPや社内ローカルドメインを指定し、同一ネットワーク上のGPU搭載サーバー等に重いAI処理を委譲する構成。ローカルプロセスは起動しません。
クラウドAI駆動: 「クラウドAI」を選択した上で、外部APIのホスト名やドメイン名（例: api.openai.com 等）を指定し、クラウド上の強力なLLMやCVサービスを利用する構成。セキュリティ要件に基づき外部入力は暗号化通信を前提とします。

【セキュリティ・堅牢性・設計要件】

ファイル責務 of 明示: 全てのファイルの冒頭にAI向け役割コメント（例: @role: ...）を記述し、関心事ごとにファイルを細かく分割する。
機密情報の保護: 設定ファイル（config.json）や環境変数テンプレートに記載するトークンや認証キー等の情報は取り扱いに注意し、ハードコードを厳禁とする。
外部通信の失敗前提: 変更されたアドレス（8843/8844ポート等）へのリクエストはネットワーク瞬断やサーバーダウンを前提とし、UIをフリーズさせない非同期でのタイムアウトとリトライ機構を必ず実装する。
入力のサニタイズ: ユーザーが設定に入力したIPアドレスおよびドメイン名は、不正な文字やコマンドインジェクションを防ぐため、バリデーションとサニタイズを徹底した上で保存する。

8. ディレクトリ構造と開発要件 (ADR)