آرشیو تگ ها: Scraping

عدم تسلط به مفاهیم پایه

فکر می‌کنید سخت‌ترین قسمت Data Scrapping چیست؟ ایجاد آبجکت request و ارسال آن به سرور؟حفظ ViewState؟login کردن به سایت راه دور؟دریافت و نگهداری cookie؟مسائل DNS؟ور رفتن با استرینگ‌ها، استخراج دیتا، Regex و XPath؟مسائل Encoding؟ نه اشتباه می‌کنید! برای من سخت‌ترین قسمت کار، بحث Stream بود. چند جا کار متوقف شد. ابتدا فکر کردم مشکل از …

‫خلاصه‌ای کوتاه از پروتکل HTTP

HTTP پروتکلی برای تبادل اطلاعات بین Web Serverها و Web Broswerها است. HTTP در معماری شبکه در بالاترین لایه یعنی لایه Application قرار دارد. این پروتکل مبتنی بر text ساده است و بر پایه پروتکل TCP کار می‌کند. HTTP یک پروتکل Client-Server بوده و از جفت‌های Request/Response تشکیل شده است. هر گاه Browser درخواستی از …

فیدلر

اگر روزی علاقه‌مند به ور رفتن با HTTP شدید، حالا چرا برای درک عملکرد ASP.NET چه برای مقاصد Web Scraping حتما سری به فیدلر بزنید. با فیدلر می‌توان تمام Requestها و Responseها ارسالی و دریافتی از وب‌سرور را مشاهده کرده و در صورت نیاز دستکاری کرد. مثلاً یکی از اولین چیزهای جالبی که می‌شود با …

نرم‌افزارهای داده‌ای در وب

در حین جستجو در oDesk متوجه شدم طیف جالبی از پروژه‌ها وجود دارد که انجامشان جالب خواهد بود: پروژه‌های مربوط به استخراج یا بازتولید اطلاعات از وب. این جور پروژه‌ها و نرم‌افزار برای ما برنامه‌نویسان ایرانی کمتر شناخته شده هستند. البته یک دلیل آن هم این است که معمولاً در بازار داخل چنین تقاضایی وجود …