AIオートマクロ生成・自己修復システム総合仕様書

1. システム概要と設計原則

ユーザーの画面操作を視覚的・意味的に理解し、ローカル環境で直接実行可能なワークフローを自律生成するRPAシステムです。
本システムはデスクトップアプリケーション（現時点ではPython環境を想定）として実装・提供されます。
※本プロジェクトは学校の授業内における研究開発として進行しています。

プロジェクトの段階的目標と将来の展望 (Future Work)

【Phase 1: 最低限の目標 (MVP)】 UI要素の認識とアクションの学習を行い、目標とする基本ワークフローをローカル環境で止まらずに自動実行できる状態にすること。

【Phase 2: 最終目標 (実用レベル)】 画面の軽微なズレやUI変更に対してAIが動的にコードを再生成し、エラーを自律修復して処理を継続できる堅牢なシステムとして完成させること。

【Phase 3: 発展・最適化（時間ができた際の取り組み）】

Phase 2の実装完了後、システムの実用性・応答速度を極限まで高めるためのアーキテクチャ最適化フェーズです。

1. 高品質な合成データ生成パイプラインの構築 (Quality Gate):
ファインチューニング用の教師データを自動生成するため、大型LLM（クラウドAPI等）を用いて integrated.json からマクロコードを生成。さらに、別の独立したモデル（Judge）を「品質ゲート」として配置し、基準を満たさない低品質な生成データを自動破棄するデータ基盤を構築する。
2. 小型ローカルLLMの蒸留とタスク特化 (LoRA Fine-tuning):
汎用的な大型モデルに依存せず、「マクロの生成」や「自己修復時のUI判定」という狭く限定されたタスクに対して、2B〜8Bクラスの小型モデルをLoRA等でファインチューニングする。これにより、限られたVRAM環境下でもフロンティアモデルと同等以上の精度を引き出す。
3. 推論エンジンの高速化とレイテンシの安定化 (vLLM / Prefix Caching):
最適化された小型モデルを、vLLMなどの高速推論サーバー上で稼働させる。さらに prefix caching 等の技術を活用し、毎ターン発生するAIへの問い合わせレイテンシ（p95）のブレをなくし、即時ポーリングによる最速実行を完全に機能させる。

2. 開発体制と役割分担 (ADR)

各モジュールの関心事の分離（疎結合）を徹底するため、以下の5つの役割で開発を分担します。

役割	主な担当ファイル	詳細タスクと責務
1. 全体設計・データモデル・UI連携	`models/data_types.py` `ui/viewmodels/`	Pydanticを用いた共通データ構造定義、MainWindowとバックエンド処理を繋ぐViewModel層の実装、全体のコードレビューとアーキテクチャの治安維持。
2. 操作記録 (Recorder)	`core/recorder/`	pynput等を用いたOSレベルの操作フック、操作間隔・座標の取得と一時ログへの書き出し、記録中における操作前後のスクリーンショット取得。
3. AIエンジン連携・環境構築 (Engines)	`engines/yolo/` `engines/ocr/` `engines/manager.py`	AI APIサーバーの構築・保守と通信処理。UIスレッドをブロックしない非同期通信、タイムアウト・リトライ機構の実装、環境変数による実行環境切り替え、Image Diff検証モジュールの開発。
4. コンテキスト統合・マクロ生成 (Generator)	`core/generator/`	生ログと画像を読み込み、Engines側のモジュールと連携。UIの相対座標計算や周辺テキストとの関連付け、`workflow.json` / `integrated.json` の出力と一時ディレクトリの自動破棄。
5. 実行・最速化 (Executor)	`core/executor/`	workflow.json を読み込み操作を再現。200ms間隔でのImage Diff検証による即時ポーリング（最速実行）の実装、異常時・タイムアウト発生時の適切なエラーハンドリング。

役割

主な担当ファイル

詳細タスクと責務

1. 全体設計・データモデル
・UI連携

models/data_types.py
ui/viewmodels/

Pydanticを用いた共通データ構造定義、MainWindowとバックエンド処理を繋ぐViewModel層の実装、全体のコードレビューとアーキテクチャの治安維持。

2. 操作記録 (Recorder)

core/recorder/

pynput等を用いたOSレベルの操作フック、操作間隔・座標の取得と一時ログへの書き出し、記録中における操作前後のスクリーンショット取得。

3. AIエンジン連携
・環境構築 (Engines)

engines/yolo/
engines/ocr/
engines/manager.py

AI APIサーバーの構築・保守と通信処理。UIスレッドをブロックしない非同期通信、タイムアウト・リトライ機構の実装、環境変数による実行環境切り替え、Image Diff検証モジュールの開発。

4. コンテキスト統合
・マクロ生成 (Generator)

core/generator/

生ログと画像を読み込み、Engines側のモジュールと連携。UIの相対座標計算や周辺テキストとの関連付け、workflow.json / integrated.json の出力と一時ディレクトリの自動破棄。

5. 実行・最速化 (Executor)

core/executor/

workflow.json を読み込み操作を再現。200ms間隔でのImage Diff検証による即時ポーリング（最速実行）の実装、異常時・タイムアウト発生時の適切なエラーハンドリング。

AIオートマクロ生成・自己修復システム

1. システム概要と設計原則

プロジェクトの段階的目標と将来の展望 (Future Work)

【Phase 3: 発展・最適化（時間ができた際の取り組み）】

2. 開発体制と役割分担 (ADR)

目次 (詳細仕様)