¿Quieres contribuir?
Autohospedar Firecrawl
¿Por qué?
- Mayor seguridad y cumplimiento: Al autoalojar, garantizas que el manejo y procesamiento de datos cumplan con normativas internas y externas, manteniendo la información sensible dentro de tu infraestructura segura. Ten en cuenta que Firecrawl es un producto de Mendable y cuenta con certificación SOC 2 Type II, lo que significa que la plataforma cumple con altos estándares del sector para la gestión de la seguridad de los datos.
- Servicios personalizables: El autoalojamiento permite adaptar servicios como Playwright a necesidades específicas o a casos de uso particulares que quizá no estén cubiertos por la oferta estándar en la nube.
- Aprendizaje y contribución a la comunidad: Al configurar y mantener tu propia instancia, obtienes una comprensión más profunda de cómo funciona Firecrawl, lo que también puede traducirse en contribuciones más valiosas al proyecto.
Consideraciones
- Acceso limitado a Fire-engine: Actualmente, las instancias autoalojadas de Firecrawl no tienen acceso a Fire-engine, que incluye funciones avanzadas para manejar bloqueos de IP, mecanismos de detección de bots y más. Esto significa que, aunque puedes gestionar tareas básicas de scraping, los escenarios más complejos podrían requerir configuración adicional o puede que no estén admitidos.
- Se requiere configuración manual: Si necesitas usar métodos de scraping más allá de las opciones básicas de
fetchy Playwright, deberás configurarlos manualmente en el archivo.env. Esto requiere un conocimiento más profundo de las tecnologías y podría implicar más tiempo de configuración.
Pasos
- Primero, instala las dependencias
- Configura las variables de entorno
.env en el directorio raíz; puedes copiar la plantilla desde apps/api/.env.example
Para empezar, no configuraremos la autenticación ni ningún servicio opcional (análisis de PDF, bloqueo de JS, funcionalidades de IA)
-
(Opcional) Ejecutar con el servicio de Playwright en TypeScript
-
Actualiza el archivo
docker-compose.ymlpara cambiar el servicio de Playwright:A -
Define
PLAYWRIGHT_MICROSERVICE_URLen tu archivo.env: -
No olvides configurar el servidor proxy en tu archivo
.envsegún sea necesario.
-
Actualiza el archivo
-
Compila y ejecuta los contenedores de Docker:
http://localhost:3002.
Deberías poder ver la interfaz de Bull Queue Manager en http://localhost:3002/admin/@/queues.
- (Opcional) Prueba la API
Resolución de problemas
El cliente de Supabase no está configurado
Se está omitiendo la autenticación
Los contenedores de Docker no se inician
- Asegúrate de que todas las variables de entorno necesarias estén definidas correctamente en el archivo .env.
- Verifica que todos los servicios de Docker definidos en docker-compose.yml estén correctamente configurados y que las imágenes necesarias estén disponibles.
Problemas de conexión con Redis
- Asegúrate de que el servicio de Redis esté activo y en ejecución en tu entorno Docker.
- Verifica que
REDIS_URLyREDIS_RATE_LIMIT_URLen tu archivo.envapunten a la instancia correcta de Redis. - Revisa la configuración de red y las reglas de firewall que puedan estar bloqueando la conexión al puerto de Redis.
El punto de conexión de la API no responde
- Asegúrate de que el servicio de Firecrawl esté en ejecución comprobando el estado del contenedor de Docker.
- Verifica que las variables PORT y HOST en tu archivo .env sean correctas y que ningún otro servicio esté usando el mismo puerto.
- Revisa la configuración de red para garantizar que el host sea accesible desde el cliente que realiza la solicitud a la API.

